Código aberto no horizonte: criação de vídeo com IA para as massas
Notícias empolgantes! A AliCloud anunciou oficialmente que seu tão esperado modelo de geração de vídeo de IA de próxima geração, o WanX 2.1, em breve terá seu código aberto! Esse modelo, que foi aclamado como "redefinindo a geração de vídeo", atraiu muita atenção do setor desde seu lançamento. Agora, a AliCloud decidiu abrir o código-fonte do WanX 2.1, que, sem dúvida, injetará um novo e poderoso impulso no campo da criação de vídeos com IA.
O WanX 2.1 é a mais recente adição aos macromodelos multimodais "Wanx" da AliCloud. Embora o "Tongyi Wanxiang" tenha sido lançado em julho de 2023, o WanX 2.1 representa o mais recente avanço tecnológico da série de modelos. Ele não apenas gera imagens e vídeos de alta qualidade com base em comandos de texto, mas também é o primeiro modelo do mundo a oferecer suporte a efeitos de texto em chinês e inglês.
Desempenho superior: o líder dos gráficos do VBench
O WanX 2.1 é incrivelmente bom na geração de vídeos fotorrealistas. Seja lidando com cenas de movimento complexas, otimizando a qualidade dos pixels ou compreendendo com precisão as regras da física, o WanX 2.1 demonstra um desempenho excepcional. Em particular, sua precisão na compreensão e execução de comandos do usuário faz com que ele se destaque na prestigiada lista de modelos de geração de vídeo do VBench, com uma pontuação total de 84,7%, liderando o caminho em métricas importantes, como dinâmica, relações espaciais e interações entre vários objetos.
No momento em que este texto foi escrito, o primeiro lugar foi alterado para o MiracleVision V5.
O que torna o WanX 2.1 tão excepcional? Ele não pode ser separado da inovação contínua e dos avanços tecnológicos da equipe de pesquisa da AliCloud.
Inovação tecnológica: criando um mundo de vídeo mais realista
Em busca do máximo em qualidade de geração visual, a equipe de P&D do WanX 2.1 explorou e inovou em várias áreas tecnológicas importantes:
- Estruturas de VAE e DiT desenvolvidas pelo próprio usuárioWanX 2.1 adota o VAE (Variable Auto-Encoder) e o DiT (Denoising Diffusion) da própria Aliyun. Transformador), o que aumenta significativamente a capacidade do modelo de entender o tempo do vídeo e as relações espaciais. Isso permite que o WanX 2.1 gere conteúdo de vídeo mais realista e natural ao lidar com cenas que contêm regras complexas de movimento e física.
- Mecanismos de atenção omnitemporalWanX 2.1: Com a introdução do mecanismo de atenção em tempo integral, o WanX 2.1 é capaz de capturar e simular com mais precisão a dinâmica complexa e mutável do mundo real, tornando os vídeos gerados mais vívidos e vibrantes.
- Treinamento em contexto extra longoPara aprimorar a capacidade do modelo de entender e executar comandos de texto, o WanX 2.1 também adota um método de treinamento de contexto ultralongo, que acelera o processo de treinamento do modelo e estabelece uma conexão perfeita entre os comandos de texto e a criação de conteúdo de vídeo, tornando a criação de vídeos mais rápida e intuitiva.
- Primeiros efeitos de texto bilíngue em inglês e chinêsO WanX 2.1 é o primeiro modelo de geração de vídeo do setor a oferecer suporte a efeitos de texto bilíngue, o que amplia muito seus cenários de aplicação e atende melhor às diversas necessidades criativas dos setores de design de publicidade e produção de vídeos curtos.
Sugestão de texto: "Foto panorâmica de uma patinadora artística se apresentando em uma pista de gelo. Ela está usando um traje de patinação roxo e patins brancos e está realizando uma manobra giratória. Seus braços estão bem abertos e seu corpo está inclinado para trás, mostrando sua habilidade e graça".
Graças a essas inovações, o WanX 2.1 é capaz de lidar com grandes movimentos corporais e cenas rotacionais complexas com facilidade. Mesmo em cenários desafiadores, como patinação artística, natação e mergulho, que exigem altos níveis de trajetória e coordenação corporal, o WanX 2.1 consegue se destacar, estabelecendo um novo padrão de qualidade para a geração de vídeos.
Compartilhamento de código aberto: possibilitando uma ecologia criativa mais ampla
Atualmente, o WanX 2.1 está disponível no site oficial da China. uma visão completa de tudo A experiência gratuita está disponível. Desenvolvedores individuais e usuários corporativos podem ser os primeiros a experimentar o poder do WanX 2.1 na plataforma Aliyun Model Studio para liberar sua criatividade e gerar conteúdo de vídeo de alta qualidade com eficiência.
O futuro código aberto significa que o WanX 2.1 não estará mais limitado a uma plataforma específica, mas será integrado ao ecossistema mais amplo de tecnologia de IA. A iniciativa da Aliyun, sem dúvida, promoverá muito a popularidade e o desenvolvimento da tecnologia de geração de vídeo com IA, de modo que mais desenvolvedores e profissionais criativos possam se apoiar em gigantes e explorar em conjunto as infinitas possibilidades da criação de vídeo com IA, além de realmente realizar a profunda fusão entre a tecnologia de IA e o setor criativo. Vamos aguardar ansiosamente o dia em que o WanX 2.1 terá seu código aberto e testemunhar a chegada de uma nova era de criação de vídeos com IA!