통이 완샹 비디오 업그레이드, VBench 1위, 중국어 생성 비디오 지원, 렌즈 텍스처 풀 풀링

58.5K 00

2025년은 이제 막 시작된 AI 비디오 생성에 기술적 돌파구가 열릴까요?

오늘 아침, 알리의 통이 완상 동영상 생성 모델이 2.1 버전으로 대대적인 업그레이드를 발표했습니다.

새로 출시 된 모델에는 다음과 같은 두 가지 버전이 있습니다.전자는 고성능에 초점을 맞추고, 후자는 높은 표현력을 목표로 하는 Tomix 2.1 익스트림과 프로페셔널입니다..

소개에 따르면, 통이완샹은 이번에 모델의 전반적인 성능을 종합적으로 업그레이드했으며, 특히 복잡한 움직임 처리, 실제 물리 법칙 복원, 영화 질감 향상 및 따라야 할 지침 최적화를 통해 AI의 예술적 창작에 새로운 문을 열었습니다.

동영상 생성 효과를 살펴보고 그 놀라운 효과를 확인해 보세요.

고전적인 '스테이크 컷'을 예로 들어 보겠습니다. 스테이크의 질감이 선명하게 보이고 표면이 반짝이는 얇은 기름층으로 덮여 있으며 칼날이 근육 섬유를 따라 천천히 절단되어 고기가 탱탱하고 디테일이 가득한 것을 볼 수 있습니다. 通义万相视频升级，登顶VBench，视频支持生成中文，镜头质感拉满

P↪CF_200D↩롬프: 레스토랑에서 한 남성이 김이 모락모락 나는 스테이크를 자르고 있습니다. 오버헤드 클로즈업 샷에서 남자는 오른손에 날카로운 칼을 들고 스테이크 위에 칼을 올려놓고 스테이크의 중앙을 따라 자릅니다. 사람은 검은색 옷을 입고 손에 흰색 매니큐어를 바르고 있으며, 배경은 노란색 음식이 담긴 흰색 접시와 갈색 테이블로 보케 처리되어 있습니다. ‍

그리고 캐릭터 클로즈업 생성 효과를 보면 어린 소녀의 표정, 손과 몸의 움직임이 매우 자연스럽고 조화로우며 머리카락을 휩쓸고 지나가는 바람도 운동 법칙에 부합합니다.

‍프롬프트: 귀여운 소녀가 꽃 덤불에 서서 두 손을 심장에 대고 있고 그 주위로 온갖 종류의 작은 하트가 춤을 추고 있습니다. 분홍색 드레스를 입고 긴 머리는 바람에 날리고 미소는 달콤합니다. 배경은 꽃이 만개하고 밝은 햇살이 비치는 봄의 정원입니다. HD 사실적인 사진, 클로즈업 클로즈업, 부드러운 자연광.

모델이 다른 점수를 실행할 수 있을 만큼 강력한가? 현재 최종적인 동영상 생성 리뷰 목록인 VBench 리더보드에서는업그레이드된 통이완샹은 총점 84.7%로 Gen3, 피카, 코즈비드 등 국내외 동영상 생성 모델을 제치고 1위에 올랐습니다... 동영상 제작 경쟁 환경이 또 다른 변화의 물결을 맞이하고 있는 것 같습니다.

목록 링크: https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

이제부터 사용자는 통이완샹 웹사이트에서 최신 세대의 모델을 사용할 수 있습니다. 마찬가지로 개발자는 알리클라우드 바이롄에서 빅 모델 API를 호출할 수도 있습니다.

공식 웹사이트 주소: https://tongyi.aliyun.com/wanxiang/

직접 경험하기표현력 향상 및 특수 효과 글꼴로 플레이할 수 있습니다.

최근 동영상 생성을 위한 대형 모델의 반복 속도가 빨라지고 있는데, 새로운 버전의 통이완샹은 세대별 개선 수준을 달성했나요? 실제 테스트를 해봤습니다.

이제 AI 동영상도 쓸 수 있습니다.

첫째, AI가 생성한 동영상은 이제 '대필'과 작별을 고할 수 있게 되었습니다.

이전에는 시중의 주류 AI 동영상 생성 모델이 중국어와 영어를 정확하게 생성하지 못해 텍스트가 있어야 할 자리에 읽을 수 없는 쓰레기 더미가 쌓여 있었습니다. 이제 이 업계의 문제는 통이완샹 2.1을 통해 해결되었습니다.

다음과 같이 되었습니다.중국어 텍스트를 생성하고 영어와 중국어 텍스트 효과를 모두 지원하는 최초의 동영상 생성 모델입니다..

이제 사용자는 간단한 텍스트 설명만 입력하면 시네마틱 효과가 적용된 텍스트와 애니메이션을 생성할 수 있습니다.

예를 들어, 고양이가 컴퓨터 앞에서 타이핑을 하고 있는데 화면에 '일하거나 먹거나'라는 큰 단어 7개가 나타납니다.

通义万相视频升级，登顶VBench，视频支持生成中文，镜头质感拉满
통이 완샹이 제작한 영상에서는 고양이가 워크스테이션에 앉아 진지한 표정으로 키보드와 마우스를 연주하는 모습이 마치 현대판 타자기처럼 보이며, 자동 생성된 사운드트랙과 함께 팝업 자막이 전체 영상에 위트 있는 느낌을 더합니다.

그러면 작은 주황색 사각형 상자에서 '동기화'라는 영어 단어가 튀어나옵니다.

通义万相视频升级，登顶VBench，视频支持生成中文，镜头质感拉满
중국어든 영어든 통이 완샹은 오타나 '대필' 없이 정확한 번역을 해냅니다.

뿐만 아니라 다음과 같은 다양한 시나리오에서 글꼴 적용을 지원합니다.특수 효과 글꼴, 포스터 글꼴 및 실제 시나리오에 표시되는 글꼴을 포함합니다..

예를 들어 센 강변의 에펠탑 근처에서 화려한 불꽃이 피어오르고 카메라가 가까이 다가갈수록 분홍색 숫자 '2025'가 점차 커져 전체 프레임을 가득 채웁니다.

격렬한 움직임은 더 이상 "으스스한" 것이 아닙니다.

복잡한 캐릭터의 움직임은 한때 AI 동영상 생성 모델에게 '악몽'이었고, 과거에는 AI가 생성한 동영상에 손과 발이 날아다니거나 살아있는 사람으로 변하거나 '고개만 돌리고 고개는 돌리지 않는' 기괴한 움직임을 보여주기도 했습니다. 通义万相视频升级，登顶VBench，视频支持生成中文，镜头质感拉满

또한 고급 알고리즘 최적화와 데이터 학습을 통해 통이완샹은 다양한 시나리오에서 안정적이고 복잡한 동작을 생성할 수 있으며, 특히 대규모 팔다리 움직임과 정밀한 팔다리 회전 측면에서 위 사진에서 생성된 브레이크 댄스는 매우 매끄럽습니다.

아래 생성된 비디오에서는 남자가 달릴 때 왼쪽 다리와 오른쪽 다리가 구분되지 않거나 모양이 틀어지는 문제 없이 부드럽고 자연스러운 움직임을 보여줍니다. 또한 남자의 발가락이 땅에 닿을 때마다 자국을 남기고 미세한 모래를 살짝 들어 올리는 등 디테일에 세심한 주의를 기울였습니다.

프롬프트: 해질녘 반짝이는 바다 위 황금빛 햇살, 잘생긴 청년이 해변을 따라 달리며 안정적으로 트래킹 샷을 찍습니다.

마스터 영화 제작자처럼 미러링하세요.

위대한 감독 스필버그는 좋은 영화의 비결은 카메라의 언어에 있다고 말한 적이 있습니다. 멋진 영화 영상을 제작하기 위해 촬영감독은 하늘로 올라가 벽 위를 날아다니는 것을 싫어합니다. 通义万相视频升级，登顶VBench，视频支持生成中文，镜头质感拉满

하지만 AI 시대에는 영화를 '제작'하는 것이 훨씬 더 쉬워졌습니다.

렌즈 왼쪽, 렌즈 더 멀리, 렌즈 앞으로 등과 같은 간단한 텍스트 명령을 입력하기 만하면 Tongyi Wanxiang은 다음을 수행 할 수 있습니다.영상의 주요 콘텐츠와 카메라의 필요에 따라 합리적인 영상을 자동으로 출력합니다..

프롬프트: 앞 잔디밭에서 연주하는 록 밴드, 카메라가 전진하면서 가죽 재킷을 입은 기타리스트가 박자에 맞춰 긴 머리를 휘날리며 기타를 치는 모습에 초점을 맞춥니다. 기타리스트의 손가락이 빠르게 현을 가로지르며 연주하는 동안 배경에 있는 나머지 밴드 멤버들은 최선을 다합니다.

모든 것을 완벽하게 파악 2.1 지침을 엄격하게 따랐습니다. 영상은 기타리스트와 드러머가 열정적으로 연주하는 장면으로 시작하며, 카메라가 천천히 가까이 다가오면서 배경이 흐려지고 줌아웃되어 기타리스트의 태도와 손동작이 강조됩니다.

긴 텍스트 명령이 손실되지 않습니다.

AI가 생성한 동영상이 멋지게 보이려면 정확한 텍스트 안내가 필수적입니다.

하지만 대형 모델은 메모리가 제한되어 있어 다양한 장면 전환, 캐릭터 상호작용, 복잡한 동작이 포함된 텍스트 명령에 직면하면 세부 사항을 놓치거나 논리적 순서를 혼동하는 경향이 있습니다.

새로운 통이 만샹은 긴 텍스트 지침을 따르는 데 있어 큰 진전을 이루었습니다.

프롬프트: 한 오토바이 라이더가 인근 건물에서 발생한 대규모 폭발을 피해 좁은 도시 도로를 빠른 속도로 질주하는 가운데, 화염이 격렬하게 포효하며 밝은 주황색 빛을 발하고 파편과 금속 조각이 공중으로 날아가 현장의 혼란을 더합니다. 어두운 색의 장비를 착용한 라이더는 몸을 구부리고 핸들을 꽉 잡은 채 뒤에서 불길이 치솟는 상황에도 아랑곳하지 않고 빠른 속도로 앞으로 돌진하며 집중하는 모습을 보였습니다. 폭발로 인한 짙은 검은 연기가 공기를 가득 채우며 배경을 종말론적인 혼돈으로 뒤덮었습니다. 하지만 라이더는 정밀하고 극한의 촬영, 초미세 디테일, 몰입감 넘치는 3D, 일관된 액션으로 혼돈 속을 헤쳐나갑니다.

위의 긴 텍스트 설명에서 좁은 거리, 밝은 불길, 가득 찬 검은 연기, 날아다니는 파편, 어두운 색의 장비를 착용한 라이더(......)는 모두 통이 만샹이 촬영한 디테일입니다.

또한 통이 완샹은 개념을 결합하여 다양한 아이디어, 요소 또는 스타일을 정확하게 이해하고 이를 결합하여 완전히 새로운 동영상 콘텐츠를 만드는 더 강력한 능력을 가지고 있습니다.

양복을 입은 노인이 알을 깨고 나와 카메라의 백발 노인을 눈을 크게 뜨고 바라보는 장면은 수탉이 우는 소리와 어우러져 꽤나 유쾌합니다.

만화 유화 및 기타 스타일 전문

새로운 버전의 통이 만페이즈는 시네마틱 비디오 이미지를 생성하고 만화, 시네마 컬러, 3D 스타일, 유화, 클래식 스타일 등과 같은 다양한 아트 스타일을 잘 지원합니다.

포도나무 위에 서서 춤을 추는 귀여운 3D 애니메이션 몬스터를 만나보세요.

안내: 푹신하고 행복한 작은 초록색 티티 몬스터가 포도나무 가지에 서서 행복하게 노래하고 있습니다. 카메라를 시계 반대 방향으로 돌립니다.

또한 1:1, 3:4, 4:3, 16:9, 9:16 등 다양한 화면비를 지원하므로 TV, 컴퓨터, 휴대폰 등 다양한 최종 장치에 더 적합하게 조정할 수 있습니다. 通义万相视频升级，登顶VBench，视频支持生成中文，镜头质感拉满

위의 공연에서 우리는 이미 동이만세를 통해 영감을 '현실'로 바꾸는 창의적인 작업을 할 수 있습니다.

물론 이러한 일련의 발전은 동영상 생성의 기본 모델을 업그레이드한 알리클라우드의 노력 덕분이기도 합니다.

기본 모델 대폭 최적화'전환'의 모든 측면에 대한 구조, 교육 및 평가

작년 9월 19일, 알리클라우드는 윈치 컨퍼런스에서 통이 완상 동영상 생성 모델을 출시하여 영화 및 TV급 HD 동영상을 생성할 수 있는 기능을 제공했습니다. 이 모델은 알리클라우드가 완전히 자체 개발한 영상 생성 모델로서, 확산 + 트랜스포머 이 아키텍처는 이미지 및 비디오 생성 클래스 작업을 지원하며 모델 프레임워크, 학습 데이터, 주석 방법, 제품 디자인에서 많은 혁신을 통해 업계 최고의 시각적 생성 기능을 제공합니다.

이번 업그레이드 모델에서 통이 완샹 팀(이하 팀)은 다음과 같은 기능을 추가했습니다.자체 개발한 효율적인 VAE 및 DiT 아키텍처시공간적 맥락 관계 모델링을 위해 개선되어 생성을 크게 최적화했습니다.

플로우 매칭은 최근 제너레이티브 모델 학습을 위한 새로운 프레임워크로, 학습이 간단하고 연속 정규화 플로우를 통해 확산 모델과 비슷하거나 더 나은 품질을 달성하며 추론 속도가 빨라 동영상 생성 분야에도 점차 적용되고 있습니다. 예를 들어, 이전에 출시된 메타의 비디오 모델 Movie Gen은 플로우 매칭을 사용합니다.

교육 방법 선택을 위해 Tongyi Wanxiang 2.1은 다음을 사용합니다.선형 노이즈 궤적을 기반으로 한 플로우 매칭 방식프레임워크에 대한 심층적인 설계를 통해 모델 융합, 생성 품질 및 효율성을 개선했습니다.

통이 완샹 2.1 비디오 생성 아키텍처 다이어그램

비디오 VAE의 경우, 팀은 캐싱 메커니즘과 인과적 컨볼루션을 결합하여 혁신적인 비디오 코덱 체계를 설계했습니다.. 그중 캐싱 메커니즘은 비디오 처리에서 필요한 정보를 유지하여 반복 계산을 줄이고 계산 효율성을 향상시킬 수 있으며 인과 컨볼 루션은 비디오의 시간적 특징을 포착하고 비디오 콘텐츠의 점진적인 변화에 적응할 수 있습니다.

이 구현은 긴 동영상에 대한 직접적인 E2E 디코딩 프로세스 대신 동영상을 청크로 분할하고 중간 기능을 캐싱하여 원본 동영상의 길이에 관계없이 그래픽 카드 사용량이 청크의 크기와만 관련되도록 하여 모델이 1080P 동영상의 길이에 제한 없이 효율적으로 인코딩 및 디코딩할 수 있도록 합니다. 연구팀은 이 핵심 기술이 임의의 길이의 동영상을 학습할 수 있는 실행 가능한 경로를 제공한다고 말합니다.

다음 그림은 다양한 VAE 모델의 결과를 비교한 것입니다. 모델 계산 효율성(프레임/지연) 및 비디오 압축 재구성(피크 신호 대 잡음비, PSNR) 메트릭 측면에서 Tongyi Wanxiang에서 사용하는 VAE는 여전히 지배적인 파라미터 없이 다음과 같은 결과를 달성합니다.업계 최고의 비디오 압축 및 재구성 품질.

참고: 원 영역은 모델 매개변수 크기를 나타냅니다.

팀의 핵심 설계 목표는 효율적인 훈련 프로세스를 유지하면서 강력한 시공간 모델링 기능을 달성하는 것이었습니다. 이를 위해서는 여러 가지 혁신적인 변화가 필요했습니다.

첫째, 시공간 관계의 모델링 능력을 향상시키기 위해 시공간 전체 주의 메커니즘을 채택하여 모델이 현실 세계의 복잡한 역학을 보다 정확하게 시뮬레이션할 수 있도록 했습니다. 둘째, 매개변수 공유 메커니즘을 도입하여 훈련 비용을 효과적으로 줄이면서 성능을 개선했습니다. 또한, 크로스 어텐션 메커니즘을 사용하여 텍스트 기능을 임베드함으로써 텍스트 임베딩 성능을 최적화하여 텍스트 제어 가능성을 높이고 계산 요구 사항을 줄였습니다.

이러한 개선과 시도 덕분에 일반화된 유니버설 페이즈의 DiT 구조는 동일한 계산 비용으로 더욱 뚜렷한 수렴 우위를 달성할 수 있게 되었습니다.

모델 아키텍처의 혁신 외에도 팀은초장 시퀀스 훈련 및 추론, 데이터 구축 파이프라인 및 모델 평가 영역에서도 일부 최적화가 이루어졌습니다.를 사용하여 복잡한 생성 작업을 효율적으로 처리할 수 있어 효율성이 향상됩니다.

수백만 개의 초장면 시퀀스로 효율적으로 훈련하는 방법

매우 긴 시각적 시퀀스를 처리할 때 대규모 모델은 계산, 메모리, 학습 안정성, 추론 지연 시간 등 여러 수준에서 문제에 직면하는 경우가 많으므로 이를 해결하기 위한 효율적인 솔루션이 필요합니다.

이를 위해 팀은 새로운 모델 워크로드의 특성과 훈련 클러스터의 하드웨어 성능을 결합하여 모델 반복 시간을 보장한다는 전제 하에 훈련 성능을 최적화하기 위한 분산 메모리 최적화 훈련 전략을 개발했습니다.업계 최고의 MFU와 100만 개의 초장 시퀀스에 대한 효율적인 트레이닝 달성.

한편으로는 훈련 성능과 분산 확장성을 모두 향상시키는 DP, FSDP, 링어텐션, 율리시스를 통한 4D 병렬 훈련을 채택하여 분산 전략을 혁신합니다. 한편, 메모리 최적화를 달성하기 위해 계층적 메모리 최적화 전략을 채택하여 활성화 메모리를 최적화하고 시퀀스 길이에 따른 계산 및 통신량을 기반으로 메모리 조각화 문제를 해결합니다.

또한 계산 최적화를 통해 모델 훈련의 효율성을 개선하고 리소스를 절약할 수 있습니다. 이러한 이유로 이 팀은 시공간적 풀 어텐션 계산을 위해 FlashAttention3를 채택하고 다양한 크기의 훈련 클러스터의 계산 성능을 고려하여 파티셔닝에 적합한 CP 전략을 선택합니다. 동시에 일부 주요 모듈의 계산 중복성을 제거하고 효율적인 커널 구현을 통해 액세스 오버헤드를 줄이고 계산 효율성을 개선합니다. 파일 시스템 측면에서 팀은 AliCloud 트레이닝 클러스터의 고성능 파일 시스템의 읽기/쓰기 특성을 최대한 활용하고 저장/로드를 분할하여 읽기/쓰기 성능을 개선합니다.

4D 병렬 분산 교육 전략

동시에 이 팀은 훈련 중 데이터로더 프리페치, CPU 오프로딩 및 저장 체크포인트로 인해 발생하는 OOM 문제를 해결하기 위해 시차를 둔 메모리 사용 방식을 선택했습니다. 또한 트레이닝의 안정성을 보장하기 위해 이 팀은 AliCloud 트레이닝 클러스터의 지능형 스케줄링, 느린 머신 감지, 자가 복구 기능을 활용하여 결함이 있는 노드를 자동으로 식별하고 작업을 빠르게 재시작했습니다.

데이터 구축 및 모델 평가 자동화 도입

대규모 비디오 생성 모델은 대규모의 고품질 데이터와 효과적인 모델 평가 없이는 학습할 수 없습니다.전자는 모델이 다양한 시나리오와 복잡한 시공간적 종속성을 학습하고 일반화를 개선하여 모델 학습의 초석이 되며, 후자는 모델의 성능을 모니터링하여 예상 결과를 더 잘 달성할 수 있도록 지원하여 모델 학습의 풍향계가 됩니다.

데이터 구축 측면에서는 화질, 모션 품질 등의 측면에서 인간의 선호도 분포와 높은 정합성을 보이는 고품질을 기준으로 자동화된 데이터 구축 파이프라인을 구축하여 높은 다양성, 균형 잡힌 분포 등의 특징을 가진 고품질 비디오 데이터를 자동으로 구축할 수 있도록 했습니다.

모델 평가를 위해 미적 채점, 동작 분석, 명령 준수 등 20개 이상의 차원을 통합하는 포괄적인 자동화된 메트릭 세트를 설계하고, 사람의 선호도에 맞게 조정할 수 있는 전문 채점자를 선별하고 훈련시켰습니다. 이러한 메트릭의 효과적인 피드백을 통해 모델 반복 및 최적화 프로세스가 크게 빨라졌습니다.

아키텍처, 교육 및 평가 등 여러 측면에서의 시너지 혁신을 통해 업그레이드된 통이 완상 비디오 생성 모델이 실제 경험에서 상당한 세대별 개선을 거둘 수 있었다고 할 수 있습니다.

동영상 생성을 위한 GPT-3 순간얼마나 더 걸리나요?

지난 2월부터 OpenAI의 Sora 동영상 제작 모델은 도입 이후 기술 업계에서 가장 경쟁이 치열한 분야가 되었습니다. 국내는 물론 해외에서도 스타트업부터 거대 기술 기업까지 자체 동영상 생성 도구를 출시하고 있습니다. 하지만 텍스트 생성에 비해 AI 동영상은 그 난이도가 한 단계 더 높기 때문에 수용성을 확보하기란 쉽지 않습니다.

OpenAI의 CEO인 샘 알트먼이 말했듯이, 소라가 비디오 생성의 그랜드 모델에서 GPT-1의 순간을 대표한다면, 이를 기반으로 텍스트 명령을 정밀하게 제어하고 각도와 카메라 위치를 조정하여 캐릭터 일관성을 보장하는 기능을 구현할 수 있습니다. 이러한 기반을 바탕으로 텍스트 명령, 각도 및 카메라 위치 조정, 일관된 캐릭터화 및 기타 비디오 생성 기능을 통해 AI를 정밀하게 제어하고 스타일과 장면을 빠르게 변경하는 AI의 고유한 기능을 추가하면 곧 새로운 'GPT-3 순간'을 맞이할 수 있을 것입니다.

기술 발전 경로의 관점에서 보면 영상 생성 모델은 스케일링 법칙을 검증하는 과정입니다. 기본 모델의 능력이 향상됨에 따라 AI는 점점 더 많은 인간의 명령을 이해하고 점점 더 현실적이고 합리적인 환경을 만들 수 있게 될 것입니다.

실제로 작년부터 단편 동영상, 애니메이션, 심지어 영화와 텔레비전 분야에서도 창의적인 탐구를 위해 비디오 제너레이션 AI를 사용하기 시작했습니다. 비디오 제너레이션 AI로 현실의 한계를 극복하고 이전에는 상상할 수 없었던 일을 해낼 수 있다면 업계의 새로운 변화가 곧 다가올 것입니다.

이제 통이 만샹이 첫발을 내디딘 것 같습니다.