2026/04/13

Seedance 2.0で画像・動画・音声リファレンスを使い分ける方法

Seedance 2.0で画像・動画・音声リファレンスを併用するための実践ガイドです。入力モードの選び方、@assetの役割分担、制限事項、よくある失敗を整理します。

Seedance 2.0で質の低い結果を招く一番の原因は、通常のテキスト動画生成モデルと同じように扱ってしまうことです。そうすると、たいてい同じような失敗に陥ります。被写体がブレる、カメラワークが曖昧になる、そして音声やリズムが映像と噛み合わない、といった問題です。

Seedanceの公式資料が示しているのは、もっと整理された使い方です。Seedance 2.0を本当に使いこなすには、「もっと良いプロンプトを1本書く」という発想をやめて、どの入力に何を任せるかを先に決める必要があります。テキストは意図を示し、画像は被写体やディテールを固定し、動画は動きとカメラのロジックを伝え、音声はリズムとムードを整えます。大切なのは形容詞を増やすことではなく、入力ごとの役割をはっきり分けることです。

本ガイドでは、画像、動画、音声のリファレンスを組み合わせてSeedance 2.0を使用する実践的なワークフローを解説します。各入力モードの使い分け、アセット間の役割分担、そしてよりクリーンな出力を得るために避けるべきことなどを紹介します。

Seedance 2.0公式製品ページのビジュアル

ByteDanceの公開ページに掲載されているSeedance 2.0の公式製品ビジュアル。

クイックアンサー:Seedance 2.0を上手く使いこなすには

手っ取り早く知りたい方は、以下の手順に従ってください。

  • まず、適切な入力モードを選択します。Seedance 2.0では最初/最後のフレーム汎用リファレンスが区別されており、これらは同じワークフローではありません。
  • クリップを実際にコントロールすべきアセットのみをアップロードします。ファイル数が多いからといって、自動的に結果が良くなるわけではありません。
  • モデルが推測してくれることを期待するのではなく、@asset形式のリファレンスを使用して、各アセットに役割を割り当てます。
  • アイデンティティやデザインの安定性には画像を、動きやカメラワークには動画を、ペース配分やムードには音声を使用します。
  • 理想に近い結果が得られた場合は、ゼロからやり直すのではなく、拡張、挿入、または編集スタイルのイテレーションを活用します。

これがSeedance 2.0の基本パターンです。入口を正しく選び、役割を明確に割り振り、最後にプロンプトでその関係をつなぎます。

まずは適切な入力モードを選択する

公式ハンドブックで最も役立つ分類の一つは、Seedance 2.0に2つの主要な入力パスがあるという点です。

  • 最初/最後のフレーム
  • 汎用リファレンス

主に1枚のフレームとテキストの説明があり、そのアンカー(基準点)からモデルにショットを構築させたい場合は、最初/最後のフレームを使用します。このワークフローでは、プロンプトが引き続きシーンのロジックの大部分を担います。

テキスト、画像、動画、音声を1つの指示されたワークフローに組み合わせたい場合は、汎用リファレンスを使用します。被写体、動き、トーン、またはペースがすでに決まっており、モデルにすべてを独自に考案させるのではなく、提供した素材に従わせる必要がある場合は、こちらを選択する方が適しています。

この選択は、プロンプトの書き方そのものを変えます。最初/最後のフレームのワークフローでは、プロンプト側でより多くのシーン構築を担う必要があります。汎用リファレンスのワークフローでは、プロンプトは各アセットの役割関係を整理して伝えるための調整レイヤーに近くなります。

すべての入力に明確な役割を1つ与える

Seedance 2.0はテキスト + 画像 + 動画 + 音声の同時入力をサポートしていますが、その強みは単により多くのファイルを受け入れることではありません。本当の強みは、それらのファイルを意図的に使い分けられることにあります。

公式のオペレーティングモデルはシンプルです。

  • テキストは、ショットの意図を設定します。
  • 画像リファレンスは、被写体のアイデンティティ、衣装、製品の形状、素材、またはシーンの詳細を固定します。
  • 動画リファレンスは、動き、タイミング、カメラワークを指示します。
  • 音声リファレンスは、ビート、雰囲気、セリフのトーン、またはトランジションを形成します。

また、ハンドブックでは実用上の制限も明確にされています。

  • 画像ファイルは最大9個まで、各30 MB未満
  • 動画ファイルは最大3個まで、ソースの合計時間は2s-15s、各50 MB未満
  • 音声ファイルは最大3個まで、合計時間は最大15s15 MB未満
  • 複合マルチモーダル入力全体で合計最大12ファイルまで
  • 生成時間は4sから15sまで

これらの制限は、優先順位付けを強制するため有用です。目的は、手持ちの素材をすべてアップロードすることではありません。アイデンティティ、動き、音声、連続性をコントロールするために、どの少数のアセットを厳選して使用するかを決定することが目的です。

Seedance 2.0 公式のテキスト動画生成評価チャート

ローンチ資料に掲載されている、Seedance 2.0 公式のテキスト動画生成評価ビジュアル。

@asset 参照を使ってモデルに意図を明確に伝える

Seedanceを利用する上で最も重要な習慣は、アセットの役割を明示することです。アップロードした各ファイルがどのような役割を果たすのかをモデルが推測しなくて済むよう、公式ハンドブックでは @asset 形式の参照を使用することを推奨しています。

実践的なパターンは次のようになります。

  • @image1 で、開始フレームや被写体の特徴を決定します。
  • @image2 で、衣装、質感、製品の側面、または重要な小道具を固定します。
  • @video1 で、カメラワークやアクションの動きを指示します。
  • @audio1 で、音楽、リズム、または雰囲気を追加します。

これは、複数のファイルをアップロードして漠然とした文章を1つ書くよりも、はるかに効果的です。各アセットの役割が明確になれば、テキストプロンプトでは、それらの役割をどのように組み合わせるかを説明するだけで済みます。

これは、「すべてを説明する」ことと「映像を演出する」ことの違いと言えます。Seedance 2.0 は、後者のアプローチにおいて非常に優れています。

実践的なSeedance 2.0のワークフロー

画像、動画、音声のリファレンスを組み合わせてクリップを作成する場合、以下の順序で進めるのが最も確実です。

1. まず被写体を固定する

最も重要な画像リファレンスから始めます。出力結果が、特定の製品、キャラクター、または衣装のディテールに依存する場合は、動きや音楽に触れる前に、まずそれを固定します。

以下の点を自問してみてください。

  • 絶対にブレてはいけない要素は何か?
  • 解決すべき重要な課題は、アイデンティティ、製品のディテール、質感、それともシーンのデザインか?
  • それを最もよく固定(アンカー)できる画像はどれか?

ショットが複数の静止画アンカーに依存している場合は、それぞれが明確に異なる視覚的役割を担っている場合にのみ追加してください。

2. 動きの表現が難しい場合にのみ動画を追加する

カメラの動き、ブロッキング(立ち位置や動線)、またはアクションのタイミングが真の課題である場合に、動画リファレンスを使用します。ここで、Seedance 2.0はテキストのみのワークフローよりもはるかに役立ちます。

プッシュイン、回転、リビール(被写体の出現)、またはアクションのビートを長々とした文章で説明する代わりに、ソース動画を使ってモデルに動きの文法を教えることができます。そうすれば、プロンプトは新しいシーンの中で何が起こるべきかに集中できます。

これは特に以下のような場合に有用です。

  • モーションコントロールされた製品ショット
  • 連続性のあるアクションビート
  • 長回しやワンテイクのシーン
  • 複雑なカメラトランジション

3. ショットのリズムが重要な場合に音声を追加する

Seedance 2.0において、音声は単なる装飾ではありません。公式資料では、制御全体を構成する要素のひとつとして位置づけられています。

以下が必要な場合に音声を使用します。

  • ビートに合わせたトランジション
  • 音楽主導のペーシング
  • セリフのムード
  • より強い感情的なタイミング

音に合わせてクリップをカットしたり、動かしたり、強調したりする必要がある場合は、モデルに直接指示します。ソース動画から音声を抽出したい場合、Seedanceはその音声ロジックをワークフローの一部として借用することもサポートしています。

4. 調整レイヤーとしてプロンプトを書く

アセットを選択したら、テキストプロンプトはファイルの内容を再説明するものではなく、入力間の指示として記述します。

優れたSeedanceのプロンプトは、通常以下の問いに答えるものになります。

  • 何を固定したままにするか?
  • 何を動かすか?
  • カメラはリファレンス動画から何を学ぶべきか?
  • 音声は何に影響を与えるべきか?
  • 時間の経過とともに何を変化させるべきか?

アップロードしたファイルにすでに示されている形容詞をプロンプトに詰め込むよりも、この方法の方が優れたプロンプトを作成できます。

5. 結果が惜しい場合は、拡張または挿入でイテレーションを行う

Seedance 2.0のより実践的なワークフローの1つは、常にゼロから再生成する必要がないことです。公式ハンドブックでは、以下の機能が明示的にサポートされています。

  • 既存のクリップの拡張
  • 2つのクリップ間へのシーンの挿入
  • 最初のフレームとアクションリファレンス動画の併用
  • リンクされたアクション間の連続性の明示的な記述

最初の結果がほぼ正しい場合は、そこから継続します。多くの場合、ショット全体を再構築するよりもその方が安定します。

Seedance 2.0が特に優れている点

公式ハンドブックの例を見ると、Seedance 2.0は、テキストだけで押し切るよりも、複数の制御要素を組み合わせて制作する場面で特に強みを発揮します。

最も明確で価値の高いパターンは以下の通りです。

  • リファレンス主導の製品・コマーシャルショット
  • 動画リファレンスから借用したカメラ言語
  • ワンテイクや連続性を重視したシーンデザイン
  • ビートに同期した編集と音楽を意識したペーシング
  • 動画の拡張、挿入、および編集スタイルのワークフロー

だからこそ、承認済みのフレーム、動きのサンプル、サウンドトラック、または大まかな絵コンテがすでにある場合、Seedance 2.0を使用するのが最も理にかなっています。「驚かせてくれ」といったお任せの生成よりも、ディレクションの効いた短尺動画の制作に向いています。

Seedance 2.0の公式画像から動画への評価チャート

ローンチ資料に掲載されている、公式のSeedance 2.0の画像から動画への評価ビジュアル。

ワークフローを破綻させるよくある間違い

Seedanceの出力がうまくいかない原因の多くは、創造性の欠如ではなく、役割の割り当てが不適切であることにあります。

アセットをアップロードしすぎる

すべてのファイルがすべてを制御しようとすると、結果が濁ってしまいます。選択肢を絞り、各ファイルに1つの主要な役割を持たせてください。

矛盾するリファレンスを使用する

互いに反発し合うアセットを混ぜないでください。画像がクリーンな製品のビューティーショットを定義しているのに、動画リファレンスがカオスな手持ちカメラの動きを教えている場合、どちらが実際にそのショットの主導権を握るのかを決定する必要があります。

ファイルにすでに示されていることを再説明する

アセットにすでに視覚的なディテールが含まれている場合、プロンプトは制御とシーケンス(順序付け)に焦点を当てるべきです。同じ説明的なディテールを繰り返すと、明確さよりもノイズが増えることがよくあります。

間違ったエントリーパスを使用する

複数のモダリティを組み合わせる場合、最初のフレーム(first-frame)のワークフローに無理やり押し込まないでください。代わりに、汎用のリファレンスパスを使用してください。

現在の制限を無視する

ハンドブックには、現実的な境界線についても記されています。現在、リアルな人間の顔を含むアップロードはブロックされています。これはワークフロー上の制約であり、些細なエッジケースではありません。

Seedance 2.0の最適なメンタルモデル

Seedance 2.0について最もシンプルに考える方法は以下の通りです。

  • 画像は、ショットの「内容」を定義する
  • 動画は、ショットの「動き」を定義する
  • 音声は、時間経過に伴うショットの「雰囲気」を定義する
  • テキストは、これら3つがどのように「連携」すべきかを定義する

この階層を明確にしておけば、Seedance 2.0の制御ははるかに簡単になります。これらの役割を曖昧にすると、モデルは推測しなければならず、推測からブレが始まります。

最後に

画像・動画・音声のリファレンスを使いながらSeedance 2.0を学ぶうえで、いちばん重要なのはプロンプトの巧みさではありません。ワークフローを崩さないことです。

適切なエントリーモードを選び、重要なアセットだけを残し、それぞれに役割を割り当てたうえで、プロンプトでその関係を整理して伝えます。

これこそが、Seedance 2.0が得意とする運用モデルです。すでにリファレンス画像、モーションクリップ、音声のタイミング、反復的な編集に依存する制作フローを持っているなら、現在のAI動画ツール群の中でもかなり明快な「制御重視」の選択肢になります。実際に試すなら、まずは WMHubのSeedance 2.0 から始めて、自分に必要な制御手段が見えてきた段階で、より幅広い動画モデルディレクトリと比較すると判断しやすくなります。