SiliconCloud lanza el modelo de vídeo acelerado Mochi-1-Preview

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

39.9K 00

Recientemente, GenmoAI open source video generation model mochi 1 preview (10B), con acción de alta fidelidad y poderosa capacidad de seguimiento de cue, actualmente soporta generación de video con resolución 480p. Hoy, SiliconCloud, Silicon Flow, ha puesto en línea la versión de aceleración de inferencia de mochi-1-preview (precio ¥ 2,8/Video), eliminando el umbral de despliegue para los desarrolladores, y sólo necesitan llamar fácilmente a la API cuando desarrollan aplicaciones, aportando una experiencia de usuario más eficiente. La plataforma también permite a los desarrolladores comparar y experimentar libremente docenas de grandes modelos, y elegir las mejores prácticas para sus aplicaciones de IA generativa. SiliconCloud上线加速版视频模型Mochi-1-Preview

Experiencia en línea
https://cloud.siliconflow.cn/playground/text-to-video/17885302647

Documentación API
https://docs.siliconflow.cn/capabilities/video

Prompt word: Un tomate que habla con cara

Palabra clave: Una mujer de piel clara, vestida con una chaqueta azul y un sombrero negro con velo, mira hacia abajo y a su derecha, luego hacia arriba mientras habla; tiene el pelo castaño peinado hacia arriba Una mujer de piel clara, vestida con chaqueta azul y sombrero negro con velo, mira hacia abajo y a su derecha, y luego vuelve a mirar hacia arriba mientras habla; lleva el pelo castaño peinado en un recogido, las cejas castaño claro y lleva una camisa de cuello blanco debajo de la chaqueta; la cámara permanece fija en su cara mientras habla; el fondo está desenfocado, pero muestra una imagen de una mujer de piel clara, vestida con chaqueta azul y sombrero negro con velo. fondo está desenfocado, pero muestra árboles y personas vestidas de época; la escena está captada en imagen real.

Palabra clave: Un río cristalino de color turquesa fluye a través de un cañón rocoso, cayendo en cascada sobre una pequeña cascada y formando un estanque de agua en el fondo. Las paredes del cañón son escarpadas y rocosas, y en ellas crece algo de vegetación. Los árboles son en su mayoría pinos, y sus agujas verdes contrastan con las rocas marrones y grises. El tono general de la escena es de paz y tranquilidad. El tono general de la escena es de paz y tranquilidad.

Hazte una idea del aspecto de mochi-1-preview en SiliconCloud tras la aceleración de la inferencia.

Características y prestaciones del modelo

Basado en la arquitectura Asymmetric Diffusion Transformer (AsymmDiT), mochi 1 es sencillo y modificable. Comparado con los principales modelos de código cerrado, mochi 1 es altamente competitivo. El seguimiento de pistas y la calidad del movimiento son dos de las capacidades más críticas en los modelos de generación de vídeo.

Consejos a seguirAlineación: La alineación extremadamente alta con las indicaciones de texto garantiza que el vídeo generado refleje con precisión las instrucciones dadas. De este modo, el usuario tiene un control detallado de los personajes, los ajustes y las acciones.

Calidad del movimientomochi 1 genera hasta 5,4 segundos de vídeo a una velocidad suave de 30 fotogramas por segundo, con un alto grado de coherencia temporal y patrones de movimiento realistas. mochi simula fenómenos físicos como la dinámica de fluidos, la simulación del cabello y otros fenómenos físicos, y muestra un movimiento humano coherente y suave.

Fábrica de fichas SiliconCloud

¡Qwen 2.5 (7B) y más de 20 modelos gratis!

Como plataforma única de servicios en la nube de grandes modelos, SiliconCloud se compromete a proporcionar a los desarrolladores API de modelos extremadamente rápidas, asequibles, completas y suaves como la seda. Instruct, HunyuanVideo, Marco-o1, fish-speech-1.5, QwQ-32B-Preview, Qwen2.5-Coder-32B-Instruct, Qwen2-VL, InternVL2, Qwen2.5-7B/14B/32B/ 72B, FLUX.1, InternLM2.5-20B-Chat, BCE, BGE, SenseVoice-Small, GLM-4-9B-Chat, y docenas de grandes modelos lingüísticos de código abierto, modelos de generación de imágenes/vídeos, modelos del habla, modelos de código/matemáticos y modelos vectoriales y de reordenación. SiliconCloud上线加速版视频模型Mochi-1-Preview

Entre ellas, Qwen2.5 (7B), Llama3.1 (8B) y otras API de grandes modelos son de uso gratuito, para que los desarrolladores y gestores de productos no tengan que preocuparse por el coste aritmético de la fase de investigación y desarrollo y la promoción a gran escala, y para lograr la "libertad de fichas".