A tecnologia de geração multimodal MiniMax é inovadora: referência de assunto, imagens de retrato de referência para gerar vídeos estilisticamente consistentes

Notícias sobre IAAtualizado há 8 meses Círculo de compartilhamento de IA

14.8K 00

Todo mundo tem um sonho cinematográfico em seu coração - quer assumir diferentes papéis para experimentar a vida no teatro, quer se tornar um diretor para coreografar cada conjunto de cenas, quer escrever sobre as infinitas possibilidades no universo paralelo como roteirista.

A Conch AI é uma máquina de criação de sonhos que permite que diferentes pessoas tenham uma maneira de abordar o filme. No início do novo ano, a Conch AI traz um novo ajudante criativo - referência de assunto - para usuários de todo o mundo.

MiniMax O mais recente modelo de vídeo S2V-01 desenvolvido pela própria empresaporArquitetura de referência de corpo de figura únicacom programas tradicionaisCustos de entrada e cálculo até 1%Basta digitarUma imagem.Isso pode ser alcançadoReprodução precisa de detalhes visuaisTambém disponívelAlto grau de liberdade e capacidade de combinação. UsuárioRedução significativa no tempo de esperapara obter alta disponibilidade.

A função de referência principal agora está totalmente on-line globalmente, acesse Vídeo sobre conchas A plataforma de criação é experimentada instantaneamente.

Insira uma imagem, produza um blockbuster de alta definição

No campo da geração de vídeo com IA, como manter o realismo e a estabilidade dos rostos dos personagens de vários ângulos em vídeos dinâmicos; como manter os papéis dos personagens altamente consistentes ao usar a emenda contínua de clipes para a criação tem sido um problema difícil para o setor. Oferecemos aos usuários uma solução ideal por meio do nosso modelo de vídeo S2V-01 desenvolvido por nós mesmos.

Depois de selecionar a função "Subject Reference" (Referência do assunto) no Conch AI, os usuários só precisam carregar uma imagem para identificar e bloquear a função do assunto. Digite a palavra Prompt na caixa de texto, sem precisar esperar muito tempo, e você poderá gerar vídeos criativos e consistentes de alta qualidade.

O modelo S2V-01 pode identificar com precisão as características faciais, como diferentes gêneros, idades, cores de pele e estruturas das características faciais nas fotos, e os caracteres gerados são estáveis e coerentes, e os caracteres podem ser mantidos consistentes em cada quadro. O controle da expressão facial do personagem principal e a textura da cena sem tema ainda são a "especialidade" da Conch AI.

Referência do tema + prompt: Um close-up de um menino em uma sala mal iluminada, com os olhos fixos na tela brilhante de um console de jogos. A câmera está posicionada um pouco acima do nível dos olhos, focalizando sua expressão concentrada enquanto seus dedos manipulam agilmente o controle. A câmera está posicionada um pouco acima do nível dos olhos, focalizando sua expressão concentrada enquanto seus dedos manipulam agilmente o controle. Um jogo caráter aparece, libertando-se dos limites da tela.

O criador @OlivioSarikas carregou um retrato de anime em óleo sobre tela como tema de uma animação que transporta o espectador para uma terra de contos de fadas.

Atualmente, o Conch AI permite fazer referência a uma única pessoa, o que requer o upload de informações faciais reconhecíveis como referência facial gerada pelo sujeito do vídeo. No futuro, o Conch AI continuará abrindo a capacidade de fazer referência a várias pessoas, objetos, cenas e outros recursos mais avançados.

Reduzir drasticamente os custos de entrada e computação, reformular a experiência de criação de vídeo

A MiniMax tem explorado continuamente a capacidade de referência de imagem desde seus primórdios, incluindo funções, estilos e assim por diante. Com base em um grande número de explorações técnicas, acreditamos que o limite superior do efeito do esquema de referência de imagem é alto o suficiente para o problema de referência de classe de assunto, e ainda melhor do que o esquema LoRA (Low-Rank Adaptation) ajustado, levando em conta o efeito e a escalabilidade.Acreditamos que uma boa tecnologia deve ser capaz de atender à maior variedade possível de usuários e, ao mesmo tempo, funcionar bem o suficiente para resolver problemas reais.

Como o esquema de referência de assunto da MiniMax requer apenas uma imagem como entrada, não há custo computacional adicional de treinamento nem tempo de espera, e o custo de geração é próximo ao dos vídeos convencionais gerados por texto e por gráficos.Em comparação com as soluções atuais de LoRA, a referência de assunto reduz os custos de entrada do usuário e os custos de computação para menos de um por cento, com uma redução significativa no tempo de espera do usuário e uma duplicação da experiência do usuário.

Referência Principal + Sugestão: Uma mulher com um vestido elaborado e um par de luvas brancas caminha por um corredor em um castelo medieval. Ela corre de costas para a câmera, depois olha para trás e sua expressão muda de calma para horror. Ela corre de costas para a câmera, depois olha para trás e sua expressão muda de calma para horror. O final do corredor é pouco iluminado. A câmera segue a mulher à medida que ela se aproxima e a visão muda de médio para close-up, focalizando o rosto da mulher.

Para manter apenas as informações visuais necessárias do próprio sujeito (por exemplo, características faciais humanas) no vídeo, sem a interferência de outras informações, como postura, expressão, iluminação etc., a MiniMax continuou a otimizar bastante a construção de dados, a arquitetura do modelo e a estratégia de treinamento. No modelo S2V-01, que já está on-line, alcançamos o efeito principal de ambos os aspectos ao mesmo tempo:

Reprodução precisa de detalhes visuais:As características faciais dos personagens nos vídeos gerados têm um alto grau de similaridade com as imagens de referência;
Alta liberdade e capacidade de combinação:Com exceção dos recursos faciais que representam a identidade, todas as outras dimensões têm um alto grau de liberdade. Por exemplo, o personagem pode ser controlado por texto para mostrar qualquer pose e expressão; o personagem pode ser colocado em qualquer ambiente com iluminação natural e harmoniosa.

Com a tecnologia de referência de assunto, os usuários não ficam mais limitados à solução de problemas de consistência por meio de sorteios de cartões e podem se concentrar mais na expressão do conteúdo, aumentando consideravelmente a eficiência da criação de conteúdo de vídeo longo.Sua função é, naturalmente, consistente.

As modalidades visuais abrem uma era de coinovação em IA

A tecnologia de IA já trouxe conveniência para o setor de produção de microfilmes, publicidade, variedades, animação, efeitos de computação gráfica e outros conteúdos, mas o maior problema é que o corpo do vídeo é fácil de entrar em colapso no processo de geração, apresentando um conteúdo muitas vezes inflexível e com uma sensação de fragmentação.

O lançamento do recurso Master Reference oferece aos criadores profissionais uma apresentação visual altamente consistente e flexibilidade criativa, e trará inovações revolucionárias para vários setores de produção de vídeo, incluindo vídeos curtos e anúncios, para que a consistência e a coerência não sejam mais um problema.No momento, a MiniMax coloca a função de referência de assunto na plataforma aberta na forma de serviço de API e continuará a explorar o aspecto de referência de vários assuntos para fornecer soluções mais perfeitas para empresas e criadores profissionais.

Desde que a MiniMax lançou seu modelo de vídeo, o Conch AI continuou a ser o foco do setor.2024 Em dezembro, o I2V-01-Live, um modelo de vídeo gráfico lançado pela MiniMax, foi amplamente aclamado, e o número de visitas ao Conch AI no exterior ultrapassou 27 milhões, quebrando um novo recorde histórico e liderando a lista global de produtos de vídeo de IA em dezembro.

: Lista global de produtos de vídeo com IA em dezembro de 2024

A maneira como as pessoas interagem com o mundo é inerentemente multimodal, portanto, a compreensão e a geração multimodais são exatamente o elo fundamental para a AGI e a abertura da era da cocriação de IA. Esperamos que mais usuários cocriem inteligência com a MiniMax e colham a alegria da criação na Conch AI. Aqui preparamos um documento didático sobre como brincar com a função de referência de assunto; clique no artigo original para acessá-lo. Agradecemos a todos que apoiam e adoram o MiniMax e o Conch AI.

Notícias sobre IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

O modelo de geração de vídeo VBench está no topo das paradas... No topo das paradas - WanX 2.1 em breve será de código aberto!

Notícias sobre IA

7 meses atrás

013.7K

告别代码焦虑，拥抱开发快感：Trae AI 助你轻松构建应用，人人皆可成为开发者

Diga adeus à ansiedade do código e abrace a emoção do desenvolvimento: o Trae AI facilita a criação de aplicativos, e todos podem ser desenvolvedores!

Notícias sobre IA

7 meses atrás

015K

O ex-chefe da equipe de pós-treinamento da OpenAI explica os métodos e desafios pós-treinamento, e o PPT se torna viral!

Notícias sobre IA

7 meses atrás

012.7K

O novo editor de imagens com IA 'Magic' da Shopify destaca a qualidade das imagens de seus produtos

Notícias sobre IA

2 anos atrás

014.7K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

A tecnologia de geração multimodal MiniMax é inovadora: referência de assunto, imagens de retrato de referência para gerar vídeos estilisticamente consistentes

Insira uma imagem, produza um blockbuster de alta definição

Reduzir drasticamente os custos de entrada e computação, reformular a experiência de criação de vídeo

As modalidades visuais abrem uma era de coinovação em IA

Mantenha o resultado final da IA, "foto de menino enterrado", envolvido no caso da pessoa que foi detida! Esses truques ensinam você a identificar a autenticidade das fotos

RooCline Beyond Cline v3.1? Descubra o que há de diferente no RooCline!

Artigos relacionados

O modelo de geração de vídeo VBench está no topo das paradas... No topo das paradas - WanX 2.1 em breve será de código aberto!

Diga adeus à ansiedade do código e abrace a emoção do desenvolvimento: o Trae AI facilita a criação de aplicativos, e todos podem ser desenvolvedores!

O ex-chefe da equipe de pós-treinamento da OpenAI explica os métodos e desafios pós-treinamento, e o PPT se torna viral!

O novo editor de imagens com IA 'Magic' da Shopify destaca a qualidade das imagens de seus produtos

Sem comentários

Últimas coleções

Artigos mais recentes

A tecnologia de geração multimodal MiniMax é inovadora: referência de assunto, imagens de retrato de referência para gerar vídeos estilisticamente consistentes

Insira uma imagem, produza um blockbuster de alta definição

Reduzir drasticamente os custos de entrada e computação, reformular a experiência de criação de vídeo

As modalidades visuais abrem uma era de coinovação em IA

Mantenha o resultado final da IA, "foto de menino enterrado", envolvido no caso da pessoa que foi detida! Esses truques ensinam você a identificar a autenticidade das fotos

RooCline Beyond Cline v3.1? Descubra o que há de diferente no RooCline!

Artigos relacionados

O modelo de geração de vídeo VBench está no topo das paradas... No topo das paradas - WanX 2.1 em breve será de código aberto!

Diga adeus à ansiedade do código e abrace a emoção do desenvolvimento: o Trae AI facilita a criação de aplicativos, e todos podem ser desenvolvedores!

O ex-chefe da equipe de pós-treinamento da OpenAI explica os métodos e desafios pós-treinamento, e o PPT se torna viral!

O novo editor de imagens com IA 'Magic' da Shopify destaca a qualidade das imagens de seus produtos

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes