2026/04/13

如何在 Seedance 2.0 中结合图像、视频和音频参考:一套以控制为先的工作流

这是一份实操向的 Seedance 2.0 指南,讲清如何同时使用图像、视频和音频参考,包括入口模式选择、@asset 分工、限制条件和常见误区。

在使用 Seedance 2.0 时,最容易导致效果不佳的做法就是把它当作普通的文生视频模型来用。这通常会导致同样的问题:主体特征偏移、镜头语言混乱,以及音频或节奏与画面脱节。

Seedance 官方资料展示的是另一套工作逻辑。要想真正用好 Seedance 2.0,你不能再只想着“再写一个更好的提示词”,而要先想清楚每种输入分别负责什么。文本负责表达意图,图像负责锁定主体和细节,视频负责提供运动与镜头逻辑,音频负责塑造节奏与氛围。真正重要的,不是堆更多形容词,而是把控制关系分配清楚。

本指南将详细介绍结合图像、视频和音频参考来使用 Seedance 2.0 的实用工作流,包括何时使用哪种输入模式、如何在不同素材之间分配任务,以及如果想要更优质的生成结果需要避免哪些做法。

Seedance 2.0 官方产品页面视觉图

来自 ByteDance 公开页面的 Seedance 2.0 官方产品视觉图。

快速解答:如何用好 Seedance 2.0

如果你想看精简版,请遵循以下顺序:

  • 首先选择正确的输入模式。Seedance 2.0 将 首尾帧通用参考 区分开来,它们属于不同的工作流。
  • 只上传真正需要控制画面的素材。文件越多并不意味着结果越好。
  • 使用 @asset 样式的参考来为每个素材分配任务,而不是指望模型自己去猜。
  • 使用图像来保持主体特征和设计的稳定性,使用视频来控制动态或镜头语言,使用音频来调节节奏或氛围。
  • 当生成结果接近预期时,使用延长、插入或编辑式的迭代,而不是从零开始重新生成。

这就是 Seedance 2.0 的核心方法:先选对入口,再分清素材职责,最后用提示词把这些控制关系串起来。

从选择合适的输入模式开始

官方手册中一个非常实用的分类是,Seedance 2.0 提供了两条主要的输入路径:

  • 首尾帧
  • 万能参考

当你手头主要只有一张画面和一段文字描述,并希望模型以此为锚点构建镜头时,请使用 首尾帧。在这种工作流中,提示词仍然承载着很大一部分的场景逻辑。

当你希望在一个可控的工作流中结合文本、图像、视频和音频时,请使用 万能参考。当你已经明确了想要的主体、运动、基调或节奏,并需要模型遵循提供的素材而不是自行发挥时,这是更好的选择。

这个选择很重要,因为它会改变你的写法。在首帧工作流中,提示词需要承担更多场景构建任务;而在万能参考工作流中,提示词更像是一段调度说明,用来明确上传素材该如何配合。

为每个输入分配明确的任务

Seedance 2.0 支持 文本 + 图像 + 视频 + 音频 的组合输入,但它的优势不仅仅在于能接收更多文件,更在于这些文件可以被有目的地精准使用。

官方给出的操作模式非常直观:

  • 文本设定镜头的意图。
  • 图像参考锁定主体身份、服装、产品形态、材质或场景细节。
  • 视频参考指导运动、节奏和镜头语言。
  • 音频参考塑造节拍、氛围、对话语调或转场。

手册还明确了实际的限制:

  • 最多 9 个图像文件,每个不超过 30 MB
  • 最多 3 个视频文件,源视频总时长 2s-15s,每个不超过 50 MB
  • 最多 3 个音频文件,总时长不超过 15s,大小不超过 15 MB
  • 混合多模态输入总计最多 12 个文件
  • 生成时长为 4s15s

这些限制很有用,因为它们迫使你分清主次。目标不是上传你拥有的所有素材,而是决定哪一小部分素材应该用来控制主体、运动、声音和连贯性。

Seedance 2.0 官方文生视频评估图表

来自发布材料的官方 Seedance 2.0 文生视频评估图表。

使用 @asset 引用告诉模型重点所在

Seedance 最重要的一项使用习惯是进行明确的素材映射。手册建议使用 @asset 格式的引用,这样模型就不必去推断每个上传文件的具体用途。

一个实用的参考模式如下:

  • @image1 确立开场画面或主体身份
  • @image2 锁定服装、材质、产品侧视图或关键道具
  • @video1 指导运镜或动作逻辑
  • @audio1 提供音乐、节奏或氛围

这比单纯上传几个文件,然后写一段笼统的描述要有效得多。一旦每个素材都有了明确的角色,文本提示词就只需要描述这些角色该如何协同工作。

这就是“事无巨细地描述”与“像导演一样调度镜头”的区别。Seedance 2.0 在后一种模式下的表现要出色得多。

实用的 Seedance 2.0 工作流

如果你要同时使用图像、视频和音频参考来生成视频片段,以下是最可靠的操作顺序。

1. 首先锁定主体

从最重要的图像参考开始。如果输出结果依赖于具有辨识度的产品、角色或服装细节,请在处理运动或音乐之前先锁定这些元素。

问问自己:

  • 什么元素绝对不能变形或偏离?
  • 核心问题是身份特征、产品细节、材质纹理还是场景设计?
  • 哪一张图像最能锚定这些特征?

如果你的镜头依赖多个静态锚点,只有当每个锚点都控制着不同的视觉职责时,才将它们添加进来。

2. 只有当运动是难点时才添加视频

当真正的问题在于运镜、走位或动作时机时,请使用视频参考。这正是 Seedance 2.0 比纯文本工作流更具优势的地方。

与其用冗长的文字来描述推进、旋转、展现或动作节拍,不如让源视频直接教模型学习运动语法。这样,你的提示词就可以专注于新场景中应该发生什么。

这在以下情况中特别有用:

  • 运动控制的产品镜头
  • 具有连贯性的动作节拍
  • 连续镜头或一镜到底场景
  • 复杂的运镜过渡

3. 当节奏对镜头至关重要时添加音频

在 Seedance 2.0 中,音频不仅仅是装饰。官方资料把它视为整条控制链路的一部分。

当你需要以下效果时使用音频:

  • 卡点过渡
  • 音乐主导的节奏
  • 对话氛围
  • 更强的情感时机把握

如果视频片段需要随着声音进行剪辑、移动或增强,请直接告诉模型。如果声音应该来自源视频,Seedance 也支持借用该音频逻辑作为工作流的一部分。

4. 将提示词作为协调层来编写

选定素材后,请将文本提示词写成各个输入之间的协调指令,而不是对文件的重新描述。

优秀的 Seedance 提示词通常会回答以下问题:

  • 什么应该保持固定?
  • 什么应该移动?
  • 镜头应该从参考视频中学到什么?
  • 音频应该影响什么?
  • 什么应该随着时间发生变化?

相比于在提示词中堆砌上传文件已经展示出的形容词,这种方式能产生更好的提示词。

5. 当结果接近预期时,通过延长或插入进行迭代

Seedance 2.0 更实用的工作流之一是,你并不总是需要从零开始重新生成。官方手册明确支持:

  • 延长现有视频片段
  • 在两个片段之间插入场景
  • 使用首帧加上动作参考视频
  • 明确描述关联动作之间的连贯性

如果第一次生成的结果基本正确,请在此基础上继续。这通常比重新构建整个镜头更稳定。

Seedance 2.0 尤其擅长什么

根据官方手册中的示例,当创作任务依赖多种控制信号的协同,而不是只靠文本想象时,Seedance 2.0 的优势会特别明显。

最清晰的高价值应用模式包括:

  • 以参考为主导的产品和商业镜头
  • 借用视频参考的镜头语言
  • 一镜到底或高度连贯的场景设计
  • 卡点剪辑和契合音乐的节奏
  • 视频延长、插入和剪辑风格的工作流

这就是为什么当你已经有了确认的画面、运动示例、配乐或粗略的分镜时,使用 Seedance 2.0 是最合理的。它与其说是“给我个惊喜”的随机生成,不如说是定向的短视频制作。

Seedance 2.0 官方图生视频评估图表

发布资料中的官方 Seedance 2.0 图生视频评估图表。

破坏工作流的常见错误

大多数表现不佳的 Seedance 输出都源于任务分配不当,而不是缺乏创意。

上传过多素材

如果每个文件都试图控制一切,结果就会变得混乱。保持选择性,让每个文件只负责一项主要工作。

使用相互冲突的参考

不要混合相互冲突的素材。如果图像定义了一个干净的产品美图,但视频参考却在教导混乱的手持运动,你需要决定到底由哪一个来主导这个镜头。

重新描述文件已经展示的内容

一旦素材已经包含了视觉细节,你的提示词就应该专注于控制和排序。重复相同的描述性细节往往会增加干扰,而不是提高清晰度。

使用错误的入口路径

如果你要结合多种模态,不要强行将任务塞进首帧工作流中。请改用通用的参考路径。

忽视当前的限制

手册还指出了一个真实的边界:目前包含逼真真人面部的上传会被拦截。这是一个工作流限制,而不是一个次要的边缘情况。

Seedance 2.0 的最佳心智模型

理解 Seedance 2.0 最简单的方式是:

  • 图像定义镜头的内容
  • 视频定义镜头的运动方式
  • 音频定义镜头在时间上的感觉
  • 文本定义这三者应该如何协作

如果你保持这种清晰的层级关系,Seedance 2.0 就会变得更容易控制。如果你模糊了这些角色,模型就不得不去猜测,而猜测正是画面偏离的开始。

总结

如果你正在学习如何结合图像、视频和音频参考来使用 Seedance 2.0,最关键的一课不是提示词有多花哨,而是工作流是否足够克制、清晰、可执行。

选对入口模式,只保留真正重要的素材,为每个素材分配清晰职责,然后把提示词写成协调这些职责的指令。

这正是 Seedance 2.0 所擅长的工作方式。如果你的流程本来就依赖参考图像、运动片段、音频节奏和迭代剪辑,它会是当前 AI 视频工具栈里非常清晰的一类“控制优先”方案。想直接上手的话,可以先从 WMHub 上的 Seedance 2.0 开始;等你弄清自己真正需要的是哪一种控制能力,再去和更广泛的视频模型目录做比较。