알리바바, 영상 생성 모델 ‘Wan2.7-Video’ 공개… 크리에이터의 영상 연출 역량 확장


알리바바가 개인 크리에이터와 산업 전반의 영상 완성도와 제작 효율을 동시에 끌어올릴 통합 영상 생성 모델 ‘Wan2.7-Video’를 출시했다.

Wan2.7-Video는 AI 활용 범위를 단순 콘텐츠 생성에서 완성형 영상 제작까지 확장했다. 이를 통해 전체 제작 과정에 대한 연출 수준의 제어를 지원하며, 복잡한 서사 구성과 후반 작업까지 보다 정밀하게 구현할 수 있도록 했다.

이번 영상 모델 출시는 최신 이미지 생성 모델 ‘Wan2.7-Image’ 공개 직후 이어진 것으로, 알리바바는 이를 통해 멀티미디어 AI 역량 확장을 본격화하고 있다.

전체 제작 워크플로우 통합 관리
Wan2.7-Video는 텍스트 기반 영상 생성 모델 Wan2.7-t2v, 이미지 기반 영상 생성 모델 Wan2.7-i2v, 레퍼런스 기반 영상 생성 모델 Wan2.7-r2v, 영상 편집용 Wan2.7-videoedit 등 4개 모델로 구성된다. 텍스트, 이미지, 영상, 오디오 입력을 하나의 통합된 시스템으로 묶어 생성, 편집, 복제, 재구성, 이어서 생성하기(continuation), 레퍼런스 활용 등 전 과정을 지원한다.

이 통합 모델군은 서사적 일관성과 멀티 샷 간 일관성에서 존재하던 핵심적인 한계를 해소하며, 스크립트 입력부터 이미지 제어까지 다양한 제작 과정을 하나의 흐름 안에서 손쉽게 처리할 수 있도록 돕는다.

Wan2.7-Video는 2초에서 15초까지 다양한 길이의 영상 생성을 지원하며, 720p 및 1080p 해상도를 제공한다. 또한 엔터프라이즈용 API를 통해 대량 처리와 맞춤형 워크플로우 구성까지 지원한다.

연출 수준의 편집 및 제어 기능
Wan2.7-Video는 기존 영상 후반 작업의 높은 비용 구조를 해소하기 위해 자연어 기반 편집 기능을 도입했다. 이를 통해 캐릭터의 동작, 대사, 외형, 장면, 스타일, 촬영 방식 등 영상의 거의 모든 요소를 직접 수정할 수 있으며, 다양한 카메라 움직임을 활용해 촬영 구도를 빠르게 재구성하면서도 일관된 조명 조건을 유지할 수 있도록 지원한다.

스크립트가 변경되더라도 입 모양과 음성을 자동으로 동기화해 자연스러운 대사 편집이 가능하며, 각 캐릭터 고유의 음성 특성도 유지된다. 또한 멀티모달 입력을 기반으로 보다 정밀한 제어가 가능해, 오디오 입력을 활용해 날씨를 변경하거나, 다중 이미지 입력을 통해 스토리 방향, 카메라 구도, 캐릭터 설정을 세밀하게 조정할 수 있다.

이 시스템은 최대 5개 캐릭터에 대해 각각 고유한 음성 톤과 시각적 정체성을 설정함으로써, 복잡한 서사 전반에 걸쳐 영상 간 일관성을 유지하는 것을 가능하게 한다. 또한 수천 가지 스타일 조합과 50개 이상의 정교한 감정 표현을 지원해, 보다 현실감 있는 연출을 구현할 수 있다.

지능형 시네마틱 스토리텔링
Wan2.7-Video의 내러티브 엔진은 지능형 스케줄링을 기반으로 간단한 입력을 드라마틱하고 유기적으로 연결된 스토리라인으로 확장한다. 단일 프롬프트만으로도 전문적으로 구성된 다중 스토리보드와 장면 전환 리듬을 포함해, FPV 드론 시점, 360도 회전 샷, 맥락을 반영한 조명 연출까지 적용된 완성형 스토리보드를 생성할 수 있다.

정렬된 영상 편집 데이터로 학습된 Wan2.7-Video는 자연어와 레퍼런스 이미지를 기반으로 콘텐츠를 정밀하게 재구성할 수 있는 새로운 end-to-end 아키텍처를 적용했다. 또한 사용자가 종료 프레임을 직접 지정할 수 있는 영상 이어 생성 기능을 통해 장면 간 전환을 보다 자연스럽게 만들고, 급격하게 끊기는 현상(Braking)을 최소화한다.

Wan2.7-Image, 개인화 수준과 색상 재현 정확도 대폭 강화
한편 알리바바는 Wan2.7-Video 공개에 앞서 이미지 생성 모델 Wan2.7-Image를 선보였다. 해당 모델은 기존 AI 이미지에서 나타났던 획일적인 시각 표현과 일관되지 않은 색상 재현 문제를 해결하기 위해 설계된 혁신적인 비주얼 생성 도구로, 개인화 수준과 전문가급 정밀도를 크게 끌어올렸다. 이를 바탕으로 시각적 완성도, 텍스트 렌더링, 개념 이해도 측면에서 블라인드 사용자 테스트에서 주요 업계 모델을 상회하는 성능을 입증했다.

핵심 기능으로는 골격 구조와 눈 모양 등 캐릭터의 세부 특성을 정밀하게 조정할 수 있는 고도화된 개인화 엔진과, 색상 코드 기반으로 브랜드 색상을 정확하게 구현할 수 있는 ‘컬러 팔레트(color palette)’ 기능이 포함된다. 또한 3,000토큰 규모의 컨텍스트 처리 능력을 기반으로 12개 언어에서 인쇄 품질의 학술 텍스트, 복잡한 수식, 표를 생성할 수 있으며, 언어적 의도와 시각적 표현 간의 간극을 효과적으로 해소했다.

Wan2.7-Image는 최대 9개의 레퍼런스 이미지를 처리하고 한 번에 12개의 결과물을 생성할 수 있어 대규모 제작 워크플로우를 효율화하며, 스토리보드와 이커머스 콘텐츠 제작을 간소화한다. 또한 ‘클릭 편집(click-to-edit)’ 인터페이스를 통해 요소 추가, 이동, 정렬을 픽셀 단위로 정밀하게 제어할 수 있다. 알리바바는 프롬프트 이해도를 더욱 정교하게 개선하고, 구성 안정성과 4K 고해상도 출력을 지원하는 Wan2.7-Image-Pro도 함께 공개했다.

영상 및 이미지 모델은 알리바바 클라우드의 Model Studio와 Wan 공식 웹사이트를 통해 이용할 수 있으며, 큐원(Qwen) 앱에도 통합될 예정이다. 이는 크리에이터에게 직관적이고 고성능의 멀티미디어 AI 솔루션을 제공하려는 Wan 시리즈의 기술적 진화를 보여주는 핵심 이정표다.