2026/04/13

Seedance 2.0에서 이미지·비디오·오디오 레퍼런스를 활용하는 방법

이미지·비디오·오디오 레퍼런스를 함께 쓰는 Seedance 2.0 실전 가이드입니다. 입력 모드 선택, @asset 역할 분담, 제한 사항, 흔한 실수를 정리했습니다.

Seedance 2.0을 일반적인 텍스트-비디오 모델처럼 다루면 십중팔구 실망스러운 결과를 얻게 됩니다. 이는 대개 똑같은 실패로 이어집니다. 피사체가 일관성을 잃고, 카메라 연출이 불분명해지며, 오디오나 리듬이 장면과 겉돌게 됩니다.

Seedance 공식 자료가 보여 주는 건 완전히 다른 접근입니다. Seedance 2.0을 제대로 쓰려면 '더 나은 프롬프트 하나'를 찾기보다, 각 입력에 무엇을 맡길지 먼저 설계해야 합니다. 텍스트는 의도를 정하고, 이미지는 정체성과 디테일을 고정하며, 비디오는 움직임과 카메라 로직을 전달하고, 오디오는 리듬과 분위기를 잡아 줍니다. 중요한 건 형용사를 더 많이 덧붙이는 일이 아니라, 입력별 역할을 분명하게 나누는 일입니다.

이 가이드에서는 이미지, 비디오, 오디오 레퍼런스를 함께 활용하여 Seedance 2.0을 사용하는 실용적인 워크플로를 살펴봅니다. 각 입력 모드를 언제 사용해야 하는지, 에셋 간의 역할을 어떻게 분배해야 하는지, 그리고 더 깔끔한 결과물을 얻기 위해 피해야 할 사항은 무엇인지 알아봅니다.

Seedance 2.0 공식 제품 페이지 비주얼

ByteDance의 공개 페이지에서 발췌한 Seedance 2.0 공식 제품 비주얼입니다.

핵심 요약: Seedance 2.0을 제대로 활용하는 방법

짧은 요약이 필요하다면 다음 순서를 따르세요.

  • 먼저 올바른 입력 모드를 선택하세요. Seedance 2.0은 첫/마지막 프레임다목적 레퍼런스를 구분하며, 이 둘은 같은 워크플로가 아닙니다.
  • 클립을 실제로 제어해야 하는 에셋만 업로드하세요. 파일이 많다고 해서 무조건 더 나은 결과가 나오는 것은 아닙니다.
  • 모델이 알아서 추측하기를 바라지 말고, @asset 스타일의 레퍼런스를 사용하여 각 에셋에 역할을 명확히 부여하세요.
  • 정체성과 디자인의 안정성을 원한다면 이미지를, 움직임이나 카메라 연출을 원한다면 비디오를, 속도감이나 분위기를 원한다면 오디오를 사용하세요.
  • 결과물이 의도에 근접했다면, 처음부터 다시 시작하지 말고 확장(extension), 삽입(insertion) 또는 편집(edit) 스타일의 반복 작업을 활용하세요.

이것이 Seedance 2.0의 핵심 패턴입니다. 올바른 경로를 고르고, 역할을 명확히 나눈 뒤, 프롬프트로 그 관계를 정리하는 것입니다.

올바른 입력 모드 선택으로 시작하기

공식 핸드북에서 가장 유용한 구분 중 하나는 Seedance 2.0에 두 가지 주요 입력 경로가 있다는 점입니다.

  • `첫/마지막 프레임`
  • `다목적 레퍼런스`

주로 프레임 하나와 텍스트 설명이 있고, 모델이 그 기준점을 바탕으로 샷을 구성하기를 원할 때 `첫/마지막 프레임`을 사용하세요. 이 워크플로에서는 프롬프트가 여전히 장면 논리의 상당 부분을 담당합니다.

텍스트, 이미지, 비디오, 오디오를 하나의 지시된 워크플로에 결합하고 싶을 때 `다목적 레퍼런스`를 사용하세요. 원하는 피사체, 움직임, 톤 또는 페이스를 이미 알고 있고, 모델이 모든 것을 스스로 만들어내는 대신 제공된 자료를 따르도록 해야 할 때 더 나은 선택입니다.

이 선택은 프롬프트를 쓰는 방식 자체를 바꾸기 때문에 중요합니다. 첫 프레임 워크플로에서는 프롬프트가 장면 구성을 더 많이 책임져야 합니다. 다목적 레퍼런스 워크플로에서는 프롬프트가 업로드된 에셋들의 역할 관계를 정리해 주는 조정 레이어에 더 가깝습니다.

모든 입력에 명확한 역할 부여하기

Seedance 2.0은 `텍스트 + 이미지 + 비디오 + 오디오`를 함께 지원하지만, 그 강점은 단순히 더 많은 파일을 허용한다는 데 있지 않습니다. 진정한 강점은 이러한 파일들을 의도적으로 사용할 수 있다는 점입니다.

공식적인 작동 모델은 간단합니다.

  • 텍스트는 샷의 의도를 설정합니다.
  • 이미지 레퍼런스는 피사체의 정체성, 의상, 제품 형태, 재질 또는 장면의 세부 사항을 고정합니다.
  • 비디오 레퍼런스는 움직임, 타이밍, 카메라 언어를 알려줍니다.
  • 오디오 레퍼런스는 비트, 분위기, 대화 톤 또는 전환을 형성합니다.

핸드북은 또한 실질적인 제한 사항을 명확히 하고 있습니다.

  • 최대 `9`개의 이미지 파일, 각각 `30 MB` 미만
  • 최대 `3`개의 비디오 파일, 총 소스 길이 `2s-15s`, 각각 `50 MB` 미만
  • 최대 `3`개의 오디오 파일, 총 길이 최대 `15s`, `15 MB` 미만
  • 혼합 멀티모달 입력 시 총 최대 `12`개 파일
  • 생성 길이는 `4s`에서 `15s`까지

이러한 제한은 우선순위를 정하도록 강제하기 때문에 유용합니다. 목표는 가진 모든 것을 업로드하는 것이 아닙니다. 정체성, 움직임, 사운드, 연속성을 제어할 소수의 에셋 세트를 결정하는 것이 목표입니다.

Seedance 2.0 공식 텍스트-비디오 평가 차트

출시 자료에 포함된 공식 Seedance 2.0 텍스트-비디오 평가 시각 자료입니다.

@asset 참조를 활용해 모델에게 핵심 요소 전달하기

Seedance를 사용할 때 가장 중요한 습관은 명시적인 에셋 매핑입니다. 핸드북에서는 모델이 업로드된 각 파일의 역할을 스스로 추론하지 않도록 @asset 스타일의 참조를 사용할 것을 권장합니다.

실용적인 패턴의 예시는 다음과 같습니다.

  • @image1은 오프닝 프레임이나 피사체의 정체성을 설정합니다.
  • @image2는 의상, 질감, 제품의 측면 모습 또는 주요 소품을 고정합니다.
  • @video1은 카메라의 움직임이나 액션의 논리를 학습시킵니다.
  • @audio1은 음악, 리듬 또는 분위기를 제공합니다.

이는 여러 파일을 한 번에 업로드하고 포괄적인 문단 하나를 작성하는 것보다 훨씬 강력한 효과를 발휘합니다. 각 에셋에 명확한 역할이 부여되면, 텍스트 프롬프트는 이러한 역할들이 어떻게 상호작용해야 하는지만 설명하면 됩니다.

이것이 바로 "모든 것을 묘사하기"와 "장면 연출하기"의 차이입니다. Seedance 2.0은 후자의 방식에 훨씬 더 최적화되어 있습니다.

실용적인 Seedance 2.0 워크플로

이미지, 비디오, 오디오 레퍼런스를 함께 사용하여 클립을 제작하는 경우, 다음 순서를 따르는 것이 가장 안정적입니다.

1. 피사체 먼저 고정하기

가장 중요한 이미지 레퍼런스부터 시작하세요. 결과물이 알아볼 수 있는 제품, 캐릭터 또는 의상 디테일에 의존한다면, 움직임이나 음악을 건드리기 전에 이를 먼저 고정해야 합니다.

스스로에게 질문해 보세요:

  • 절대 변형되거나 흔들려서는 안 되는 것은 무엇인가?
  • 핵심 과제가 정체성, 제품 디테일, 질감, 아니면 장면 디자인인가?
  • 이를 가장 잘 고정해 줄 단 하나의 이미지는 무엇인가?

장면이 여러 개의 정지된 앵커(고정점)에 의존하는 경우, 각각이 명확히 구분되는 시각적 역할을 담당할 때만 추가하세요.

2. 움직임이 까다로울 때만 비디오 추가하기

카메라 움직임, 동선(블로킹) 또는 액션 타이밍이 실제 문제일 때 비디오 레퍼런스를 사용하세요. 이 지점이 바로 Seedance 2.0이 텍스트 전용 워크플로보다 훨씬 더 유용해지는 부분입니다.

푸시인(push-in), 회전, 리빌(reveal) 또는 액션 비트를 장황한 글로 설명하는 대신, 원본 비디오가 모델에게 움직임의 문법을 가르치도록 할 수 있습니다. 그러면 프롬프트는 새로운 장면 안에서 어떤 일이 일어나야 하는지에만 집중할 수 있습니다.

이는 다음과 같은 경우에 특히 유용합니다:

  • 모션 컨트롤이 적용된 제품 샷
  • 연속성이 있는 액션 비트
  • 연속 촬영 또는 원테이크 장면
  • 복잡한 카메라 전환

3. 장면에 리듬이 중요할 때 오디오 추가하기

Seedance 2.0에서 오디오는 단순한 장식이 아닙니다. 공식 자료에서는 오디오를 전체 제어 체계를 이루는 요소 중 하나로 봅니다.

다음과 같은 요소가 필요할 때 오디오를 사용하세요:

  • 비트에 맞춘 전환
  • 음악이 주도하는 페이스 조절
  • 대화의 분위기
  • 더 강렬한 감정적 타이밍

사운드에 맞춰 클립이 컷 전환되거나, 움직이거나, 강렬해져야 한다면 모델에게 직접 지시하세요. 사운드를 원본 비디오에서 가져와야 하는 경우, Seedance는 워크플로의 일부로 해당 오디오 로직을 차용하는 기능도 지원합니다.

4. 프롬프트를 조정 레이어로 작성하기

에셋을 선택했다면, 텍스트 프롬프트를 파일에 대한 재설명이 아닌 입력값들 사이의 지시 사항으로 작성하세요.

좋은 Seedance 프롬프트는 보통 다음 질문들에 답을 제시합니다:

  • 무엇을 고정해야 하는가?
  • 무엇이 움직여야 하는가?
  • 카메라가 레퍼런스 비디오에서 무엇을 학습해야 하는가?
  • 오디오가 어떤 영향을 미쳐야 하는가?
  • 시간이 지남에 따라 무엇이 변해야 하는가?

이렇게 하면 업로드한 파일에 이미 나타나 있는 형용사들로 프롬프트를 채우는 것보다 훨씬 더 나은 결과를 얻을 수 있습니다.

5. 결과가 근접했을 때 확장 또는 삽입으로 반복 작업하기

Seedance 2.0 워크플로의 실용적인 장점 중 하나는 항상 처음부터 다시 생성할 필요가 없다는 것입니다. 공식 핸드북에서는 다음 기능을 명시적으로 지원합니다:

  • 기존 클립 확장하기
  • 두 클립 사이에 장면 삽입하기
  • 첫 프레임과 액션 레퍼런스 비디오 함께 사용하기
  • 연결된 액션 전반에 걸친 연속성을 명시적으로 설명하기

첫 번째 결과가 대체로 맞다면 거기서부터 계속 진행하세요. 전체 장면을 다시 만드는 것보다 이 방법이 훨씬 안정적인 경우가 많습니다.

Seedance 2.0이 특히 뛰어난 분야

공식 핸드북의 예시를 보면, Seedance 2.0은 텍스트만으로 밀어붙이는 작업보다 여러 제어 신호를 함께 조율해야 하는 제작에서 특히 강합니다.

가장 명확하고 가치 있는 패턴은 다음과 같습니다:

  • 레퍼런스 주도의 제품 및 상업용 샷
  • 비디오 레퍼런스에서 차용한 카메라 언어
  • 원테이크 또는 연속성이 중요한 장면 디자인
  • 비트 동기화 편집 및 음악을 고려한 페이스 조절
  • 비디오 확장, 삽입 및 편집 스타일의 워크플로

그렇기 때문에 Seedance 2.0은 이미 승인된 프레임, 모션 예시, 사운드트랙 또는 대략적인 스토리보드가 있을 때 가장 유용합니다. "알아서 멋지게 만들어줘(surprise me)" 식의 생성보다는 감독의 의도가 반영된 숏폼 제작에 더 가깝습니다.

Seedance 2.0 공식 이미지-비디오 평가 차트

출시 자료에 포함된 공식 Seedance 2.0 이미지-비디오 평가 시각 자료.

워크플로를 망치는 흔한 실수들

Seedance의 결과물이 좋지 않은 경우는 대부분 창의성이 부족해서가 아니라 역할을 잘못 부여했기 때문입니다.

너무 많은 에셋 업로드하기

모든 파일이 모든 것을 제어하려고 하면 결과물이 탁해집니다. 선택적으로 접근하고 각 파일이 하나의 주요 작업만 담당하도록 하세요.

충돌하는 레퍼런스 사용하기

서로 충돌하는 에셋을 섞지 마세요. 이미지는 깔끔한 제품 뷰티 샷을 정의하는데 비디오 레퍼런스는 혼란스러운 핸드헬드 모션을 가르친다면, 실제로 어떤 것이 해당 장면을 주도할지 결정해야 합니다.

파일에 이미 나타난 내용을 다시 설명하기

에셋에 이미 시각적 디테일이 포함되어 있다면, 프롬프트는 제어와 순서 배열에 집중해야 합니다. 동일한 묘사적 디테일을 반복하면 명확해지기보다는 노이즈가 추가되는 경우가 많습니다.

잘못된 진입 경로 사용하기

여러 모달리티를 결합하는 경우, 작업을 첫 프레임 워크플로에 억지로 끼워 맞추지 마세요. 대신 다목적 레퍼런스 경로를 사용하세요.

현재의 제한 사항 무시하기

핸드북은 또한 현실적인 한계를 지적합니다. 현재 사실적인 실제 사람의 얼굴이 포함된 업로드는 차단되어 있습니다. 이는 사소한 예외 상황이 아니라 워크플로의 제약 사항입니다.

Seedance 2.0을 위한 최고의 멘탈 모델

Seedance 2.0에 대해 생각하는 가장 간단한 방법은 다음과 같습니다:

  • 이미지는 장면의 내용을 정의합니다.
  • 비디오는 장면의 움직임을 정의합니다.
  • 오디오는 시간에 따른 장면의 느낌을 정의합니다.
  • 텍스트는 이 세 가지가 어떻게 협력해야 하는지를 정의합니다.

이러한 계층 구조를 명확히 유지하면 Seedance 2.0을 제어하기가 훨씬 쉬워집니다. 이 역할들을 모호하게 만들면 모델이 추측을 해야 하고, 추측이 시작되는 순간부터 변형이 발생합니다.

마무리

이미지, 비디오, 오디오 레퍼런스를 함께 쓰는 Seedance 2.0의 활용법을 익히고 싶다면, 가장 중요한 교훈은 기발한 프롬프트가 아닙니다. 워크플로를 흔들리지 않게 지키는 일입니다.

올바른 진입 모드를 고르고, 중요한 에셋만 남기고, 각각에 역할을 부여한 다음, 프롬프트로 그 관계를 또렷하게 정리하세요.

이것이 바로 Seedance 2.0이 잘 맞는 운영 모델입니다. 이미 레퍼런스 이미지, 모션 클립, 오디오 타이밍, 반복 편집에 기대는 워크플로를 갖고 있다면, 현재 AI 비디오 스택에서 상당히 분명한 제어 중심 옵션이 됩니다. 실제로 시험해 보고 싶다면 먼저 WMHub의 Seedance 2.0에서 시작하고, 자신에게 필요한 제어 방식이 무엇인지 감이 잡힌 뒤에 더 넓은 비디오 모델 디렉터리와 비교해 보세요.