No início de 2025, o espaço de vídeo com IA está em uma nova corrida tecnológica, mais rápida do que o esperado. Pouco depois do lançamento do OmniHuman-1, a PixVerse lançou uma nova atualização de modelo, anunciando oficialmente a chegada do PixVerse V4. Como observador no campo da tecnologia de IA, tive a honra de receber a experiência do PixVerse V4 há cinco dias. Após testes abrangentes, a versão V4 mostrou um progresso visível no vídeo de geração de texto, vídeo de geração de imagem e novos recursos, e a capacidade do modelo subjacente deu um salto qualitativo.
Melhoria significativa na geração de texto para vídeo
Os recursos aprimorados do PixVerse V4 na geração de texto para vídeo são impressionantes. Abaixo estão alguns casos testados pelo autor para visualizar o efeito de geração do novo modelo:
Vídeo de geração de texto Caso 1: Filme de desastre de tornado
Cue in. Tornados, movimento em alta velocidade, tensão e excitação, um carro esportivo laranja vintage dos anos 80 em uma estrada da cidade, movendo-se e derrapando em alta velocidade. Atmosfera de filme de desastre.
Vídeo de geração de texto Caso 2: Misty Stag
Cue in. Um veado etéreo com um corpo feito de névoa prateada que brilha levemente à luz da lua. Seus chifres são adornados com orbes flutuantes de luz e ele se move silenciosamente, deixando um rastro cintilante de névoa atrás de si.
Vídeo de geração de texto Caso 3: Salto na dobra do espaço-tempo
Cue in. Sequência de salto de deformação do espaço-tempo: as equações de campo de Einstein são aplicadas para simular a dobra do espaço-tempo, e a câmera se move ao longo da interface de visualização do buraco negro de Kerr para ativar o efeito visual de dilatação do tempo. Uma singularidade do espaço-tempo é definida no ponto de salto, e o algoritmo do solucionador Penrose é introduzido para calcular a distorção do cone de luz (fator de distorção 145%).
O suporte do PixVerse V4 para efeitos de física de ficção científica e hardcore é particularmente bom, com resultados de geração impressionantes. Para visualizar melhor os aprimoramentos do PixVerse V4 para efeitos de física de ficção científica e hardcore, vamos dar uma olhada em um estudo de caso. Aqui está a sugestão para gerar este vídeo:
Cue in. Hyperspherical Dimension Leap Lens: projeção espacial de 11 dimensões do movimento da lente usando um algoritmo de trajetória de coletor Riemanniano para ativar um sistema de alerta visual antecipado para defeitos topológicos durante o colapso dimensional.
No caso do salto de dimensão hiperesférica, o texto aparece no vídeo, mas os testes mostram que a capacidade de controle da geração de texto na versão atual deixa a desejar; o texto pode ser gerado em vídeos gerados por texto, mas a geração de texto ainda não é compatível com vídeos gerados por imagem, e somente a entrada em inglês é compatível.
A velocidade da geração aumentou drasticamente e os modelos V4 estão firmemente no escalão T1.
Além da melhoria significativa nos resultados de geração, outro recurso impressionante do PixVerse V4 é o aumento drástico na velocidade de geração. No modo Extreme, os vídeos podem ser gerados em cerca de 5 segundos, o que representa uma melhoria significativa na eficiência. Em suma, o PixVerse V4 é um aprimoramento significativo em relação ao V3.5, e o novo modelo V4 é, sem dúvida, o primeiro nível do atual campo de vídeo com IA.
Observando a história do PixVerse, o ritmo de iteração da tecnologia é notável: a v1 foi lançada em 15 de janeiro de 2024, a v2 em 24 de julho, a v2.5 em 22 de agosto, a v3 em 29 de outubro, a v3.5 em 29 de dezembro e a v4 mais recente foi lançada em 24 de fevereiro. A estratégia da PixVerse de se ater a um recurso de modelagem iterativa rápida é a correta. Embora o PixVerse tenha gerado muito burburinho nas mídias sociais com seu recurso de modelos de efeitos e até mesmo tenha chegado ao topo das paradas da App Store em alguns países do Oriente Médio, o PixVerse não diminuiu a velocidade de iteração do modelo, mas acelerou a evolução do modelo.
Desde que o DeepSeek atraiu a atenção de todos, houve um consenso geral no campo da IA de que "a única aplicação da IA é a própria inteligência". A capacidade do modelo é a pedra angular do desenvolvimento da tecnologia de IA. A funcionalidade no nível do aplicativo e a otimização da experiência têm como objetivo reduzir o limite para que os usuários usem a tecnologia de IA, assim como o coeficiente de capacidade do modelo. Por exemplo, se a capacidade do modelo for de 10 pontos, a interessante função de modelo de efeito especial é como um coeficiente de 10, e o desempenho final do aplicativo pode chegar a 100 pontos. Por outro lado, se a capacidade do modelo for de apenas 1 ponto, mesmo que o aplicativo seja mais poderoso, o efeito final não será satisfatório.
Por outro lado, a Runway, uma empresa do setor de vídeo com IA, merece reconhecimento por suas inovações de recursos, como o Act-One e o Super Lens Motion. Entretanto, nos últimos seis meses, parece não ter havido atualizações iterativas significativas nos modelos da Runway. Os membros do setor estão bem cientes do que seis meses significam no contexto da tecnologia de IA que muda rapidamente. A PixVerse encontrou um equilíbrio entre a iteração da tecnologia e a inovação de recursos: ao mesmo tempo em que mantém o modelo rapidamente iterativo, continua a aprimorar os recursos subjacentes do modelo, tornando assim outras inovações de recursos mais valiosas.
Os recursos de som e os modelos de efeitos foram atualizados
O PixVerse V4 apresenta um novo recurso atraente: o som.
Leitores atentos devem ter notado que a maioria dos exemplos mostrados na seção anterior está em formato de vídeo, não de GIFs. Isso ocorre porque os vídeos gerados pelo PixVerse V4 já têm efeitos sonoros naturais e suaves. (Os exemplos de vídeo gerados por texto na seção anterior não estão em formato de vídeo devido ao limite da plataforma quanto ao número de vídeos em uma única publicação). Os usuários só precisam ativar a função Sound (Som) para combinar automaticamente os efeitos sonoros com os vídeos gerados.
Além disso, o PixVerse V4 adicionou novos recursos, como Speech (sincronização labial) e Restyle (migração de estilo), que você pode experimentar por conta própria. Como mencionado acima, um modelo básico sólido é um pré-requisito para o funcionamento eficaz de cada recurso.
Por último, mas não menos importante, vamos nos concentrar no principal recurso do PixVerse - os modelos FX. Como pioneiro dos modelos FX, o PixVerse elevou a qualidade dos modelos FX a um novo patamar com os recursos de modelagem da versão V4.
O PixVerse tem sido muito elogiado por seus modelos de efeitos e, com a versão V4 do modelo, a textura e o movimento do vídeo resultante foram aprimorados mais uma vez.
Em resumo, uma forte capacidade de modelo é a base do desenvolvimento da tecnologia de vídeo com IA. Somente com o aprimoramento contínuo da inteligência do modelo em si é que as funções do aplicativo, como efeitos especiais, efeitos sonoros, migração de estilo etc., podem realmente atingir seu potencial e proporcionar uma experiência única aos usuários. É previsível que a concorrência no campo de vídeo com IA se torne ainda mais intensa, e a inovação tecnológica é, sem dúvida, a chave para que fornecedores como a PixVerse mantenham sua posição de liderança.