Modelo de generación de vídeo Mochi 1: SOTA en los modelos de generación de vídeo de código abierto

Noticias AIActualizado hace 1 año Círculo de intercambio de inteligencia artificial

37.4K 00

Genmo AI es un laboratorio de inteligencia artificial de vanguardia dedicado al desarrollo de modelos de generación de vídeo de código abierto de última generación. Su producto estrella, Mochi 1, es un modelo de generación de vídeo de código abierto capaz de generar vídeos de alta calidad a partir de pistas textuales.El objetivo de Genmo es impulsar la innovación en inteligencia artificial a través de la tecnología de generación de vídeo, ofreciendo posibilidades ilimitadas de exploración y creación virtual.

Models es una biblioteca de código abierto de modelos de generación de vídeo, que incluye los últimos modelos Mochi 1. Mochi 1 se basa en la difusión asimétrica. Transformador (AsymmDiT), con 1.000 millones de parámetros, es el mayor modelo de generación de vídeo publicado. El modelo es capaz de generar vídeos de acción fluidos y de alta calidad, y es muy sensible a las señales textuales.

Mochi 1 Preview es un modelo abierto de generación avanzada de vídeo con movimiento de alta fidelidad y fuerte seguimiento de pistas. Nuestro nuevo modelo acorta significativamente la distancia entre los sistemas de generación de vídeo cerrados y abiertos. Publicaremos el modelo bajo una licencia liberal Apache 2.0.

Mochi 1 dirección previa

Cara de abrazo (pesos del modelo)

Playground (demostración en línea)

[bilibili]https://www.bilibili.com/video/BV1FRy6YeEui/[/bilibili]

Lista de funciones

Generación de vídeo: Genere contenidos de vídeo de alta calidad introduciendo indicaciones de texto.
modelo de código abierto: Mochi 1 está disponible como modelo de código abierto, lo que permite la adaptación individual y el desarrollo secundario por parte del usuario.
Calidad de movimiento de alta fidelidad: Genera vídeos con movimientos suaves y física de alta fidelidad.
Potente alineación de tacosLa capacidad de generar vídeos que se ajusten con precisión a las necesidades del usuario basándose en indicaciones de texto.
Apoyo comunitarioProporcionar una plataforma comunitaria en la que los usuarios puedan compartir y debatir los contenidos de vídeo generados.
Soporte multiplataformaCompatibilidad con múltiples plataformas, incluidas la web y los dispositivos móviles.

Arquitectura del modelo Mochi 1

Mochi 1 representa un avance significativo en la generación de vídeo de código abierto con un modelo de difusión de 10.000 millones de parámetros basado en nuestra novedosa arquitectura Asymmetric Diffusion Transformer (AsymmDiT). Entrenado completamente desde cero, es el mayor modelo de generación de vídeo jamás lanzado públicamente. Y lo que es más importante, se trata de una arquitectura sencilla y pirateable.

La eficiencia es fundamental para garantizar que la comunidad pueda ejecutar nuestros modelos. Además de Mochi, también hemos puesto en código abierto nuestro VAE de vídeo, que comprime el vídeo a un tamaño reducido de 128x, utilizando un espacio de 8x8 y una compresión temporal de 6x a 12 canales de espacio potencial.

AsymmDiT procesa eficazmente las indicaciones del usuario y los marcadores de vídeo comprimidos simplificando el procesamiento del texto y centrando la capacidad de la red neuronal en la inferencia visual.AsymmDiT utiliza un mecanismo de autoatención multimodal para centrarse conjuntamente en el texto y los marcadores visuales y aprende una capa MLP independiente para cada modalidad, de forma similar a Stable Diffusion.3 Sin embargo, debido a las grandes dimensiones ocultas, nuestra tienen casi cuatro veces más parámetros para el flujo visual que para el flujo de texto. Para unificar las modalidades en el mecanismo de autoatención, utilizamos un QKV asimétrico y una capa de proyección de salida. Este diseño asimétrico reduce los requisitos de memoria de inferencia.

Muchos modelos de propagación modernos utilizan varios modelos lingüísticos preentrenados para representar las indicaciones del usuario. En cambio, Mochi 1 codifica las indicaciones con un único modelo lingüístico T5-XXL.

Mochi 1 utiliza un mecanismo atencional tridimensional completo para razonar conjuntamente sobre una ventana contextual de 44.520 marcadores de vídeo. Para localizar cada marcador, ampliamos la incrustación de posición rotacional (RoPE) a 3 dimensiones. La red aprende una mezcla de frecuencias de ejes espaciales y temporales de extremo a extremo.

Mochi se beneficia de algunas de las últimas mejoras en extensiones de modelos lingüísticos, como la capa de avance SwiGLU, la normalización de claves de consulta para mejorar la estabilidad y la normalización de entrepiso para controlar la activación interna.

A continuación se publicará un documento técnico que ofrecerá más detalles para facilitar los avances en la generación de vídeo.

Proceso de instalación de Mochi 1

almacén de clones ::

git clone https://github.com/genmoai/models
cd models

Instalación de dependencias ::

pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .

Descargar modelos de pesos Descarga el archivo de pesos de Hugging Face o a través de un enlace magnético y guárdalo en una carpeta local.

Proceso de utilización

Iniciar la interfaz de usuario ::

python3 -m mochi_preview.gradio_ui --model_dir "<path_to_downloaded_directory>"

intercambiabilidad<path_to_downloaded_directory>es el directorio donde se encuentran los pesos del modelo.

Generación de vídeo por línea de comandos ::

python3 -m mochi_preview.infer --prompt "A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere." --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_downloaded_directory>"

intercambiabilidad<path_to_downloaded_directory>es el directorio donde se encuentran los pesos del modelo.

Vive Mochi 1 en línea

Ir a la página de generación: Tras identificarte, haz clic en "Playground" para acceder a la página de generación de vídeos.
pregunta de entradaIntroduzca la descripción del vídeo que desea generar en la casilla correspondiente. Por ejemplo: "Tráiler de las aventuras de un astronauta de 30 años con un casco de moto de lana roja".
Selección de ajustesSeleccione el estilo de vídeo, la resolución y otros ajustes según sea necesario.
Generar vídeoHaga clic en el botón "Generar" y el sistema generará el vídeo según sus indicaciones.
Descargar y compartirUna vez generado, el vídeo puede previsualizarse y descargarse localmente, o compartirse directamente en las redes sociales.

Funciones avanzadas

Modelos personalizadosLos usuarios pueden descargar los pesos del modelo para Mochi 1 y entrenarlos y ajustarlos localmente para personalizarlos.
Interacción comunitariaÚnete a la comunidad Discord de Genmo para intercambiar experiencias y compartir vídeos generados con otros usuarios.
Interfaz APILos desarrolladores pueden utilizar la interfaz API proporcionada por Genmo para integrar funciones de generación de vídeo en sus aplicaciones.

problemas comunes

Fallo de generación de vídeoAsegúrese de que los enunciados introducidos son claros y específicos, evitando descripciones vagas o complejas.
Problemas de inicio de sesiónSi no puede conectarse, compruebe su conexión a Internet o pruebe con otro navegador.
Descarga de modelos: Visita la página GitHub de Genmo para descargar los últimos pesos del modelo Mochi 1.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Wu Enda sobre la estrategia del modelo de IA: selección de tecnología y consideración de valores de DeepSeek, Gemini

Noticias AI

hace 10 meses

033.6K

告别代码焦虑，拥抱开发快感：Trae AI 助你轻松构建应用，人人皆可成为开发者

Di adiós a la ansiedad por el código y abraza la emoción del desarrollo: Trae AI facilita la creación de aplicaciones, ¡y todo el mundo puede ser desarrollador!

Noticias AI

hace 11 meses

039K

El ex jefe del equipo de postformación de OpenAI explica los métodos y retos de la postformación, ¡el PPT se vuelve viral!

Noticias AI

hace 11 meses

031.9K

Funciones de DeepSeek-R1 en detalle, con informe de evaluación chino

Noticias AI

hace 11 meses

0130.8K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Modelo de generación de vídeo Mochi 1: SOTA en los modelos de generación de vídeo de código abierto

Lista de funciones

Arquitectura del modelo Mochi 1

Proceso de instalación de Mochi 1

Proceso de utilización

Vive Mochi 1 en línea

Funciones avanzadas

problemas comunes

El nuevo lienzo Ideogram Canvas incorpora las herramientas Magic Fill y Extend, líderes del sector.

AutoGLM-Web Plugin: Más que el uso del ordenador, ¡ha llegado el momento del "uso del teléfono" de la IA!

Artículos relacionados

Wu Enda sobre la estrategia del modelo de IA: selección de tecnología y consideración de valores de DeepSeek, Gemini

Di adiós a la ansiedad por el código y abraza la emoción del desarrollo: Trae AI facilita la creación de aplicaciones, ¡y todo el mundo puede ser desarrollador!

El ex jefe del equipo de postformación de OpenAI explica los métodos y retos de la postformación, ¡el PPT se vuelve viral!

Funciones de DeepSeek-R1 en detalle, con informe de evaluación chino

Sin comentarios

Últimas colecciones

Últimos artículos

Modelo de generación de vídeo Mochi 1: SOTA en los modelos de generación de vídeo de código abierto

Lista de funciones

Arquitectura del modelo Mochi 1

Proceso de instalación de Mochi 1

Proceso de utilización

Vive Mochi 1 en línea

Funciones avanzadas

problemas comunes

El nuevo lienzo Ideogram Canvas incorpora las herramientas Magic Fill y Extend, líderes del sector.

AutoGLM-Web Plugin: Más que el uso del ordenador, ¡ha llegado el momento del "uso del teléfono" de la IA!

Artículos relacionados

Wu Enda sobre la estrategia del modelo de IA: selección de tecnología y consideración de valores de DeepSeek, Gemini

Di adiós a la ansiedad por el código y abraza la emoción del desarrollo: Trae AI facilita la creación de aplicaciones, ¡y todo el mundo puede ser desarrollador!

El ex jefe del equipo de postformación de OpenAI explica los métodos y retos de la postformación, ¡el PPT se vuelve viral!

Funciones de DeepSeek-R1 en detalle, con informe de evaluación chino

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos