La tecnología de generación multimodal MiniMax vuelve a innovar: referencia del sujeto, imágenes de retrato de referencia para generar vídeos estilísticamente coherentes
Todo el mundo tiene un sueño cinematográfico en el corazón: quiere meterse en diferentes papeles para experimentar la vida en el teatro, o convertirse en director para coreografiar cada plano, o escribir sobre las infinitas posibilidades del universo paralelo como guionista.
Conch AI es una máquina creadora de sueños que permite a diferentes personas tener una forma de acercarse a la película. A principios de año, Conch AI pone a disposición de los usuarios de todo el mundo un nuevo ayudante creativo: Subject Reference.
MiniMax Último modelo de vídeo S2V-01 de desarrollo propioMediante elArquitectura de referencia del cuerpo de una figuracon programas tradicionalesCostes de entrada y cálculo hasta 1%Sólo tienes que escribirUna foto.Esto puede lograrseReproducción precisa de los detalles visualesSimultáneamenteAlto grado de libertad y combinabilidad. UsuarioReducción significativa del tiempo de esperapara lograr una alta disponibilidad.
La función de referencia principal ya está totalmente en línea a nivel mundial, vaya a la página Vídeo de la caracola La plataforma de creación se experimenta al instante.
Entra una imagen, sale una superproducción de alta definición
En el campo de la generación de vídeo de IA, cómo mantener el realismo y la estabilidad de los rostros de los personajes desde múltiples ángulos en vídeos dinámicos; cómo mantener los papeles de los personajes altamente coherentes cuando se utiliza el empalme continuo de clips para la creación ha sido un problema difícil para la industria. Proporcionamos a los usuarios una solución óptima a través de nuestro modelo de vídeo S2V-01 de desarrollo propio.
Después de seleccionar la función "Referencia del sujeto" en Conch AI, los usuarios sólo tienen que subir una foto para identificar y bloquear el rol del sujeto. Introduzca la palabra Prompt en el cuadro de texto, no hay necesidad de esperar mucho tiempo, puede generar vídeo de alta calidad creativa y consistente.
El modelo S2V-01 puede identificar con precisión rasgos faciales como diferentes géneros, edades, colores de piel y estructuras de los rasgos faciales en las fotos, y los personajes generados son estables y coherentes, y los personajes pueden mantenerse constantes en cada fotograma. El control de la expresión facial del personaje principal y la textura de la escena sin sujeto siguen siendo la "especialidad" de Conch AI.

Referencia temática + Prompt: Primer plano de un joven en una habitación poco iluminada, con los ojos fijos en la pantalla brillante de una consola de videojuegos. La cámara se sitúa ligeramente por encima del nivel de los ojos, enfocando su expresión concentrada mientras sus dedos manipulan ágilmente el mando. La cámara se sitúa ligeramente por encima del nivel de los ojos, enfocando su expresión concentrada mientras sus dedos manipulan ágilmente el mando. Un juego carácter aparece, liberándose de los confines de la pantalla.


El creador @OlivioSarikas subió un retrato de anime al óleo sobre lienzo como tema de una animación que transporta al espectador a un país de cuento de hadas.

Actualmente, Conch AI está abierta a la capacidad de referenciar a una sola persona, lo que requiere cargar información facial reconocible como referencia facial generada por el sujeto del vídeo. En el futuro, Conch AI seguirá abriendo la posibilidad de hacer referencia a múltiples personas, objetos, escenas y otras capacidades más ricas.
Reduzca drásticamente los costes de entrada y cálculo, reconfigure la experiencia de creación de vídeo
MiniMax ha estado explorando continuamente la capacidad de referenciación de imágenes desde sus inicios, incluyendo roles, estilos, etc. Basándonos en un gran número de exploraciones técnicas, creemos que el límite superior del efecto del esquema de referencia de imágenes es lo suficientemente alto para el problema de referencia de clases temáticas, e incluso mejor que el esquema LoRA (Low-Rank Adaptation) afinado, teniendo en cuenta el efecto y la escalabilidad.Creemos que una buena tecnología debe ser capaz de servir a un abanico de usuarios lo más amplio posible y, al mismo tiempo, funcionar lo suficientemente bien como para resolver problemas reales.
Dado que el esquema de referencia de sujetos de MiniMax sólo requiere una imagen como entrada, no hay costes computacionales adicionales de formación ni tiempo de espera, y el coste de generación es cercano al de los vídeos convencionales generados por texto y gráficos.En comparación con las soluciones LoRA actuales, la referenciación temática reduce tanto los costes de introducción de datos por parte del usuario como los costes de cálculo a menos del uno por ciento, con una reducción significativa del tiempo de espera del usuario y una duplicación de la experiencia del usuario.

Referencia principal + Prompt: Una mujer con un vestido elaborado y un par de guantes blancos camina por un pasillo en un castillo medieval. Corre de espaldas a la cámara, luego mira hacia atrás a la cámara, su expresión cambia de calma a horror. Corre de espaldas a la cámara, luego mira hacia atrás y su expresión pasa de la calma al horror. El final del pasillo está débilmente iluminado. La cámara sigue a la mujer a medida que se acerca y la vista cambia de plano medio a primer plano, enfocando el rostro de la mujer.

Con el fin de mantener en el vídeo únicamente la información visual necesaria del propio sujeto (por ejemplo, los rasgos faciales humanos) sin la interferencia de otra información como la postura, la expresión, la iluminación, etc., MiniMax ha seguido optimizando mucho la construcción de datos, la arquitectura del modelo y la estrategia de entrenamiento. En el modelo S2V-01, que ya está en línea, hemos conseguido el efecto clave de ambos aspectos al mismo tiempo:
- Reproducción precisa de los detalles visuales:Los rasgos faciales de los personajes de los vídeos generados presentan un alto grado de similitud con las imágenes de referencia;
- Gran libertad + combinabilidad:Salvo los rasgos faciales que representan la identidad, todas las demás dimensiones tienen un alto grado de libertad. Por ejemplo, el personaje puede controlarse mediante texto para que muestre cualquier pose y expresión; el personaje puede situarse en cualquier entorno con una iluminación natural y armoniosa.
Con la tecnología de referencia temática, los usuarios ya no se ven limitados por la resolución de problemas de coherencia mediante la extracción de tarjetas y pueden centrarse más en la expresión de contenidos, lo que aumenta drásticamente la eficacia de la creación de contenidos de vídeo de larga duración.Su papel es, naturalmente, coherente.
Las modalidades visuales abren una era de co-innovación en IA
La tecnología de IA ya ha traído comodidad a la industria de producción de microfilms, publicidad, variedades, animación, efectos CG y otros contenidos, pero el cuerpo de vídeo es fácil de colapsar en el proceso de generación es el mayor problema, presentando el contenido es a menudo inflexible y tienen una sensación de fragmentación.
El lanzamiento de la función Master Reference ofrece a los creadores profesionales una presentación visual muy coherente y flexibilidad creativa, y aportará una innovación disruptiva a varias industrias de producción de vídeo, incluidos los vídeos cortos y los anuncios, para que la coherencia y la cohesión dejen de ser un problema.En la actualidad, MiniMax pone la función de referencia temática en la plataforma abierta en forma de servicio API, y seguirá explorando en el aspecto de la referencia multitemática para ofrecer soluciones más perfectas a las empresas y los creadores profesionales.
Desde que MiniMax lanzó su modelo de vídeo, Conch AI ha seguido siendo el centro de atención de la industria.2024 En diciembre, I2V-01-Live, un modelo de vídeo gráfico lanzado por MiniMax, fue ampliamente aclamado, y el número de visitas en el extranjero a Conch AI superó los 27 millones, batiendo un nuevo récord histórico y encabezando la lista mundial de productos de vídeo AI en diciembre.
- Lista mundial de productos de vídeo con IA Diciembre 2024
La forma en que las personas interactúan con el mundo es intrínsecamente multimodal, por lo que la comprensión y la generación multimodales son precisamente el eslabón clave que conduce a la AGI y abre la era de la cocreación de la IA. Esperamos que más usuarios co-creen inteligencia con MiniMax y cosechen la alegría de la creación en Conch AI. Aquí hemos preparado un documento didáctico sobre cómo jugar con la función de referencia del sujeto, haz clic en el artículo original para saltar a él. Gracias a todos los que apoyan y aman MiniMax y Conch AI.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...