Yume1.5 - Modelo de generación de mundos interactivos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Fudan
Últimos recursos sobre IAPublicado hace 1 día Círculo de intercambio de inteligencia artificial 2.7K 00
Qué es Yume 1.5
Yume1.5 es un modelo de generación de mundos interactivos de código abierto, desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai, la Universidad de Fudan y el Instituto de Investigación en Innovación de Shanghai, capaz de renderizar interactivamente en tiempo real (12 FPS en una sola tarjeta). Emplea la tecnología de modelado conjunto de canales espaciotemporales (TSCM) para mantener una tasa de muestreo estable incluso cuando aumenta la longitud del contexto, e integra el autoforzado para acelerar la inferencia y reducir la acumulación de errores. El modelo funciona bien en tareas de generación y edición de mundos, y los documentos relacionados y el código fuente abierto están disponibles a través de GitHub.

Características de Yume 1.5
- Generación eficiente en tiempo real: Yume-1.5 permite realizar inferencias a 12 fotogramas por segundo (resolución 540p), lo que reduce el tiempo de generación de puntos de referencia a 8 segundos, mejora notablemente el rendimiento en tiempo real y genera rápidamente mundos virtuales realistas.
- Función de control de textoEl modelo admite la generación de eventos dinámicos mediante instrucciones en lenguaje natural, y el usuario puede controlar la generación y el cambio del mundo virtual mediante comandos textuales, lo que permite guiar semánticamente el contenido generado.
- Experiencia de interacción con el teclado: Admite la exploración generativa del mundo mediante el teclado, simula la navegación en primera persona y permite a los usuarios controlar el movimiento del personaje y de la cámara mediante el teclado, lo que mejora la experiencia de interacción con el usuario.
- Avances en innovación tecnológicaEl problema del rápido crecimiento del contexto histórico en la generación de vídeos de larga duración se resuelve utilizando la técnica de modelado conjunto tiempo-espacio-canal (TSCM), que comprime eficazmente los contextos de los fotogramas históricos en múltiples dimensiones mediante técnicas de compresión jerárquica.
- Destilación bidireccional de la atenciónEl algoritmo de muestreo, combinado con un esquema de incrustación de texto mejorado, acelera el proceso de muestreo, reduce la acumulación de errores en la generación autorregresiva y mejora significativamente la eficacia de la inferencia.
- Formación de conjuntos de datos mixtosEl control semántico de los contenidos generados se consigue mediante una estrategia de formación de conjuntos de datos híbridos y la descomposición arquitectónica de las descripciones de eventos y acciones, lo que mejora la calidad y la diversidad de la generación de modelos.
- Amplia gama de aplicacionesYume-1.5 tiene una amplia gama de aplicaciones en los campos de la simulación inmersiva, la personificación virtual y el entretenimiento interactivo, y es capaz de proporcionar a los usuarios una experiencia del mundo virtual más realista y rica.
Principales ventajas de Yume 1.5
- Eficacia de la inferenciaYume-1.5 alcanza una velocidad de inferencia de 12 fotogramas por segundo (resolución 540p), lo que reduce el tiempo de generación del benchmark a 8 segundos, mejorando significativamente la eficiencia de la generación en tiempo real.
- Interactividad basada en textoLos usuarios pueden controlar la generación y el cambio del mundo virtual mediante comandos de lenguaje natural, lo que permite la generación de eventos dinámicos y mejora la interacción entre los usuarios y el mundo virtual.
- Experiencia de navegación en primera persona: Gracias a las interacciones basadas en el teclado que simulan la navegación en primera persona, los usuarios pueden controlar libremente el movimiento del personaje y la cámara, lo que proporciona una experiencia de exploración envolvente.
- Técnicas innovadoras de modelización: El modelado conjunto tiempo-espacio-canal (TSCM) se utiliza para resolver eficazmente el problema del rápido crecimiento del contexto histórico en la generación de vídeos largos, y mejorar la calidad y la eficacia de la generación.
- Mecanismo de atención bidireccionalLa velocidad de inferencia se mejora aún más acelerando el proceso de muestreo y reduciendo la acumulación de errores mediante la destilación atencional bidireccional y esquemas de incrustación de texto mejorados.
- Estrategia de entrenamiento con conjuntos de datos mixtosLa combinación de varios conjuntos de datos para el entrenamiento mejora la capacidad del modelo para adaptarse a diferentes escenas y acontecimientos, y aumenta la diversidad y el realismo de los contenidos generados.
¿Cuál es la web oficial de Yume 1.5?
- Página web del proyecto:: https://stdstu12.github.io/YUME-Project/
- Repositorio GitHub:: https://github.com/stdstu12/YUME
- Biblioteca de modelos HuggingFace:: https://huggingface.co/stdstu123/Yume-5B-720P
- Documento técnico arXiv:: https://arxiv.org/pdf/2512.22096
¿Para quién es Yume 1.5?
- desarrollador de juegosYume-1.5 puede utilizarse para generar rápidamente mundos de juego virtuales, reducir el tiempo y los costes de desarrollo y ofrecer a los jugadores una experiencia de juego más envolvente.
- Desarrolladores de Realidad Virtual (RV) y Realidad Aumentada (RA)El modelo puede utilizarse para crear entornos virtuales realistas y mejorar el realismo y la interactividad de las aplicaciones de RV/RA.
- productor de cineEl sistema de escenografía virtual: puede utilizarse para generar escenas virtuales y efectos especiales que ayuden en la producción de películas, telenovelas y otras producciones cinematográficas y televisivas, ahorrando el coste y el tiempo de construir decorados reales.
- educadorEl objetivo de este proyecto es crear entornos virtuales de enseñanza para escenarios educativos como recreaciones históricas y simulaciones científicas, con el fin de aumentar el interés de los alumnos por aprender y comprender.
- Diseñadores y planificadores arquitectónicosEl programa de diseño de la UE: puede generar rápidamente escenarios virtuales de modelos arquitectónicos y planificación urbana para la presentación de programas y la comunicación con el cliente, mejorando la eficacia del diseño.
- Profesionales de la industria del entretenimientoLos diseñadores de lugares como parques temáticos y salas de escape pueden utilizar Yume-1.5 para generar escenarios virtuales únicos que enriquezcan la experiencia de entretenimiento.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Puestos relacionados
Sin comentarios...




