No início deste ano, o Google lançou o Veo, um modelo de geração de vídeo, e o Imagen 3, seu mais novo modelo de geração de imagem e, desde então, tem sido empolgante ver as pessoas darem vida às suas ideias com esses modelos: os criadores do YouTube estão explorando as possibilidades criativas de criar cenários de vídeo para o YouTube Shorts, os clientes corporativos estão aprimorando seus fluxos de trabalho criativos com o Vertex AI clientes corporativos estão aprimorando seus fluxos de trabalho criativos com a Vertex AI e os criativos estão usando VídeoFX responder cantando ImageFX para contar suas histórias. Com parceiros de todos os lados, de cineastas a corporações, continuamos a desenvolver e evoluir essas tecnologias.
No meio da noite, a OpenAI postou uma pesquisa de IA personalizada depois que sua transmissão ao vivo de baixa qualidade não teve nada para mostrar. Mas o Google, sem fazer provocações ou marketing, postou silenciosamente dois grandes sucessos no X.
Hoje, o Google lançou um novo modelo de vídeo, o Veo 2, e a versão mais recente, o Imagen 3, ambos com resultados de última geração. Esses modelos agora estão disponíveis no VideoFX, no ImageFX e em nosso mais recente projeto experimental, o Whisk.
Veo 2: tecnologia de geração de vídeo de última geração
O Veo 2 cria vídeos de altíssima qualidade em uma ampla variedade de assuntos e estilos. Em comparações diretas feitas por avaliadores humanos, o Veo 2 obteve resultados de ponta em relação aos principais modelos.
O veo 2 entende a linguagem única da cinematografia: basta fornecer um gênero, especificar uma tomada, sugerir um efeito cinematográfico e o veo 2 faz isso - em resoluções de até 4K e em durações que podem chegar a vários minutos. até vários minutos. Peça para fazer uma tomada de rastreamento em uma cena a partir de um ângulo baixo, ou um close-up de um cientista olhando através de um microscópio, e o Veo 2 a criará. Basta digitar "lente de 18 mm" no prompt e o Veo 2 saberá como capturar os efeitos de grande angular que caracterizam a lente, ou desfocar o fundo para focar no objeto, adicionando "profundidade de campo rasa" ao prompt.
Veo 2, o modelo de vídeo de IA mais avançado disponível atualmente, e Imagen 3, uma versão aprimorada do modelo de desenho de IA. Um grupo de nós, enquanto observava os resultados, não parava de exclamar com admiração sobre as ampliações. Eu quase nunca uso a palavra "explodir", mas os efeitos do AI Video Veo 2 realmente me deram vontade de torcer, como se eu estivesse assistindo a Sora naquela fatídica noite de 16 de fevereiro. Um por um.
I. Vídeo AI Veo 2
Efeito on-line Efeito não criado do Veo 2
Embora os modelos de vídeo geralmente "alucinem" detalhes indesejados, como dedos extras ou objetos inesperados, o Veo 2 produz esses problemas com menos frequência, resultando em um resultado mais realista. O resultado é um resultado mais realista.
Nosso compromisso com a segurança e o desenvolvimento responsável orientou o design do Veo 2. Tomamos o cuidado de ampliar a usabilidade do Veo para ajudar a identificar, entender e melhorar a qualidade e a segurança do modelo à medida que ele é implementado lentamente pelo VideoFX, YouTube e Vertex AI.
Como em todos os nossos modelos de geração de imagem e vídeo, o resultado do Veo 2 contém uma marca d'água SynthID invisível para ajudar a identificá-lo como conteúdo gerado por IA, reduzindo a probabilidade de desinformação e atribuição incorreta.
Hoje, estamos trazendo novos recursos do Veo 2 para a ferramenta de geração de vídeo do Google Labs, o VideoFX, e expandindo a gama de usuários acessíveis. Visite o Google Labs para se inscrever na lista de espera. Também planejamos estender o Veo 2 para o YouTube Shorts e outros produtos no próximo ano.
O próprio Google fez uma análise com observadores humanos, por meio do conjunto de dados de benchmark MovieGenBench lançado pela Meta, e criou 1003 dados para permitir que as pessoas testassem cegamente qual deles funciona melhor. Os resultados, quando finalmente foram obtidos, foram os seguintes.
Vou explicar um pouco essa parte: há duas tabelas que são divididas em Preferência geral (Overall Preference) e Adesão ao prompt (Prompt Match).
O eixo horizontal de cada gráfico representa os diferentes modelos que estão sendo comparados, que são Meta, Kerin v1.5, Minimax e Sora Turbo. O que o Google fez foi realizar um teste cego ponto a ponto do Veo 2 em relação a esses modelos.
Realmente, os modelos domésticos podem ser usados como referência para comparação agora e, de repente, há uma onda de sangue quente.
E cada coluna consiste em três partes, com as cores representando a classificação dos resultados:
Seção verde (Veo): a porcentagem da saída Veo que os revisores preferiram em suas comparações.
A parte branca (Empates): a proporção de avaliadores que consideram os dois indistinguíveis, ou seja, sem preferência clara.
Seção rosa (Other preferred): o revisor prefere as proporções do outro modelo (não-Veo).
No estilo habitual do Google DeepMind, ele basicamente não falsifica nada, portanto, como você pode ver, o Veo 2 do Google obtém ótimos resultados na maioria dos casos.
E na avaliação do Google, o mais forte dos outros quatro modelos, além do Veo 2, é o Korin v1.5, o que é um resultado bastante interessante. E uma coisa a ser observada.Veo 2, que é capaz de produzir vídeo 4K diretamente.
Os vídeos que eles carregaram no YouTube também são em 4K nativo, e este é bastante assustador. Eles mesmos dizem que a maior dificuldade e limitação no momento ainda está no movimento.
A declaração original era: "Criar vídeos realistas, dinâmicos ou complexos com consistência total em cenas complexas ou cenas com movimentos complexos continua sendo um desafio."
II. Desenho de IA Imagen 3
O Google também aprimorou seu modelo de geração de imagens Imagen 3, que agora produz imagens mais brilhantes e mais bem compostas. Ele agora é capaz de renderizar uma variedade maior de estilos de arte - do fotorrealismo ao impressionismo, da arte abstrata ao anime - com maior precisão. A atualização também permite que o modelo siga as dicas com mais fidelidade e renderize detalhes e texturas mais ricos. Em comparações com os principais modelos de geração de imagens conduzidas por avaliadores humanos, o Imagen 3 alcançou o estado da arte.
A partir de hoje, os modelos mais recentes do Imagen 3 estarão disponíveis globalmente no ImageFX, a ferramenta de geração de imagens do Google Labs, em mais de 100 países. Visite o ImageFX para começar.
Além do Veo 2, a onda do Google também foi direto para o envio de sua versão aprimorada do modelo Imagen 3 com mapeamento de IA, que na verdade é tecnicamente o modelo Imagen 3-002, a segunda geração do Imagen 3. A primeira geração do Imagen 3 foi lançada em 14 de maio de 2024, na conferência de desenvolvedores I/O do Google. Seis meses depois, o Google fez uma evolução significativa do Imagen 3, lançando uma versão aprimorada da segunda geração e, em sua própria análise, está simplesmente destruindo os gráficos.
No momento, não há fila de espera, você pode simplesmente jogar e, bem, é grátis.
Escreva Prompt diretamente na caixa de entrada e comece a tocar.
O design de seu Prompt, mas também muito interessante, permite que você insira uma variedade de estranhos e uma grande série de Prompt, e ele lhe dará automaticamentecláusula de desambiguaçãoÉ um pouco como aquela explosão de cápsulas que Lao Luo teve no passado, em que você divide algumas palavras e as transforma emcaixa suspensaassociando automaticamente várias outras opções.
Aqui estão algumas projeções divulgadas oficialmente