Aprendizagem pessoal com IA
e orientação prática

A tecnologia de geração multimodal MiniMax é inovadora: referência de assunto, imagens de retrato de referência para gerar vídeos estilisticamente consistentes

Todo mundo tem um sonho cinematográfico em seu coração - quer assumir diferentes papéis para experimentar a vida no teatro, quer se tornar um diretor para coreografar cada conjunto de cenas, quer escrever sobre as infinitas possibilidades no universo paralelo como roteirista.

A Conch AI é uma máquina de criação de sonhos que permite que diferentes pessoas tenham uma maneira de abordar o filme. No início do novo ano, a Conch AI traz um novo ajudante criativo - referência de assunto - para usuários de todo o mundo.


 

MiniMax O mais recente modelo de vídeo S2V-01 desenvolvido pela própria empresaporArquitetura de referência de corpo de figura únicacom programas tradicionaisCustos de entrada e cálculo até 1%Basta digitarUma imagem.Isso pode ser alcançadoReprodução precisa de detalhes visuaisTambém disponívelAlto grau de liberdade e capacidade de combinação. UsuárioRedução significativa no tempo de esperapara obter alta disponibilidade.

A função de referência principal agora está totalmente on-line globalmente, acesse Vídeo sobre conchas A plataforma de criação é experimentada instantaneamente.

 

Insira uma imagem, produza um blockbuster de alta definição

No campo da geração de vídeo com IA, como manter o realismo e a estabilidade dos rostos dos personagens de vários ângulos em vídeos dinâmicos; como manter os papéis dos personagens altamente consistentes ao usar a emenda contínua de clipes para a criação tem sido um problema difícil para o setor. Oferecemos aos usuários uma solução ideal por meio do nosso modelo de vídeo S2V-01 desenvolvido por nós mesmos.

Depois de selecionar a função "Subject Reference" (Referência do assunto) no Conch AI, os usuários só precisam carregar uma imagem para identificar e bloquear a função do assunto. Digite a palavra Prompt na caixa de texto, sem precisar esperar muito tempo, e você poderá gerar vídeos criativos e consistentes de alta qualidade.

O modelo S2V-01 pode identificar com precisão as características faciais, como diferentes gêneros, idades, cores de pele e estruturas das características faciais nas fotos, e os caracteres gerados são estáveis e coerentes, e os caracteres podem ser mantidos consistentes em cada quadro. O controle da expressão facial do personagem principal e a textura da cena sem tema ainda são a "especialidade" da Conch AI.

Tecnologia de geração multimodal MiniMax reinventada: referência de assunto, geração de vídeo com seus retratos-1

Referência principal + prompt: Um close-up de um menino em uma sala mal iluminada, com os olhos fixos na tela brilhante de um console de jogos. A câmera está posicionada um pouco acima do nível dos olhos, focalizando sua expressão concentrada enquanto seus dedos manipulam agilmente o controle. A câmera está posicionada um pouco acima do nível dos olhos, focalizando sua expressão concentrada enquanto seus dedos manipulam agilmente o controle. Um personagem do jogo aparece, libertando-se dos limites da tela.

 

Tecnologia de geração multimodal MiniMax reinventada: referência de assunto, geração de vídeo com seus retratos-1

O criador @OlivioSarikas carregou um retrato de anime em óleo sobre tela como tema de uma animação que transporta o espectador para uma terra de contos de fadas.

 

Atualmente, o Conch AI permite fazer referência a uma única pessoa, o que requer o upload de informações faciais reconhecíveis como referência facial gerada pelo sujeito do vídeo. No futuro, o Conch AI continuará abrindo a capacidade de fazer referência a várias pessoas, objetos, cenas e outros recursos mais avançados.

 

Reduzir drasticamente os custos de entrada e computação, reformular a experiência de criação de vídeo

A MiniMax tem explorado continuamente a capacidade de referência de imagem desde seus primórdios, incluindo funções, estilos e assim por diante. Com base em um grande número de explorações técnicas, acreditamos que o limite superior do efeito do esquema de referência de imagem é alto o suficiente para o problema de referência de classe de assunto, e ainda melhor do que o esquema LoRA (Low-Rank Adaptation) ajustado, levando em conta o efeito e a escalabilidade.Acreditamos que uma boa tecnologia deve ser capaz de atender à maior variedade possível de usuários e, ao mesmo tempo, funcionar bem o suficiente para resolver problemas reais.

Como o esquema de referência de assunto da MiniMax requer apenas uma imagem como entrada, não há custo computacional adicional de treinamento nem tempo de espera, e o custo de geração é próximo ao dos vídeos convencionais gerados por texto e por gráficos.Em comparação com as soluções atuais de LoRA, a referência de assunto reduz os custos de entrada do usuário e os custos de computação para menos de um por cento, com uma redução significativa no tempo de espera do usuário e uma duplicação da experiência do usuário.

Tecnologia de geração multimodal MiniMax reinventada: referência de assunto, geração de vídeo com seus retratos-1

Referência Principal + Sugestão: Uma mulher com um vestido elaborado e um par de luvas brancas caminha por um corredor em um castelo medieval. Ela corre de costas para a câmera, depois olha para trás e sua expressão muda de calma para horror. Ela corre de costas para a câmera, depois olha para trás e sua expressão muda de calma para horror. O final do corredor é pouco iluminado. A câmera segue a mulher à medida que ela se aproxima e a visão muda de médio para close-up, focalizando o rosto da mulher.

 

Para manter apenas as informações visuais necessárias do próprio sujeito (por exemplo, características faciais humanas) no vídeo, sem a interferência de outras informações, como postura, expressão, iluminação etc., a MiniMax continuou a otimizar bastante a construção de dados, a arquitetura do modelo e a estratégia de treinamento. No modelo S2V-01, que já está on-line, alcançamos o efeito principal de ambos os aspectos ao mesmo tempo:

  • Reprodução precisa de detalhes visuais:As características faciais dos personagens nos vídeos gerados têm um alto grau de similaridade com as imagens de referência;
  • Alta liberdade e capacidade de combinação:Com exceção dos recursos faciais que representam a identidade, todas as outras dimensões têm um alto grau de liberdade. Por exemplo, o personagem pode ser controlado por texto para mostrar qualquer pose e expressão; o personagem pode ser colocado em qualquer ambiente com iluminação natural e harmoniosa.

Com a tecnologia de referência de assunto, os usuários não ficam mais limitados à solução de problemas de consistência por meio de sorteios de cartões e podem se concentrar mais na expressão do conteúdo, aumentando consideravelmente a eficiência da criação de conteúdo de vídeo longo.Sua função é, naturalmente, consistente.

 

As modalidades visuais abrem uma era de coinovação em IA

A tecnologia de IA já trouxe conveniência para o setor de produção de microfilmes, publicidade, variedades, animação, efeitos de computação gráfica e outros conteúdos, mas o maior problema é que o corpo do vídeo é fácil de entrar em colapso no processo de geração, apresentando um conteúdo muitas vezes inflexível e com uma sensação de fragmentação.

O lançamento do recurso Master Reference oferece aos criadores profissionais uma apresentação visual altamente consistente e flexibilidade criativa, e trará inovações revolucionárias para vários setores de produção de vídeo, incluindo vídeos curtos e anúncios, para que a consistência e a coerência não sejam mais um problema.No momento, a MiniMax coloca a função de referência de assunto na plataforma aberta na forma de serviço de API e continuará a explorar o aspecto de referência de vários assuntos para fornecer soluções mais perfeitas para empresas e criadores profissionais.

Desde que a MiniMax lançou seu modelo de vídeo, o Conch AI continuou a ser o foco do setor.2024 Em dezembro, o I2V-01-Live, um modelo de vídeo gráfico lançado pela MiniMax, foi amplamente aclamado, e o número de visitas ao Conch AI no exterior ultrapassou 27 milhões, quebrando um novo recorde histórico e liderando a lista global de produtos de vídeo de IA em dezembro.

Tecnologia de geração multimodal MiniMax reinventada: referência de assunto, geração de vídeo com seus retratos-1
Lista global de produtos de vídeo com IA em dezembro de 2024

 

A maneira como as pessoas interagem com o mundo é inerentemente multimodal, portanto, a compreensão e a geração multimodais são exatamente o elo fundamental para a AGI e a abertura da era da cocriação de IA. Esperamos que mais usuários cocriem inteligência com a MiniMax e colham a alegria da criação na Conch AI. Aqui preparamos um documento didático sobre como brincar com a função de referência de assunto; clique no artigo original para acessá-lo. Agradecemos a todos que apoiam e adoram o MiniMax e o Conch AI.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " A tecnologia de geração multimodal MiniMax é inovadora: referência de assunto, imagens de retrato de referência para gerar vídeos estilisticamente consistentes

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil