HunyuanWorld-Voyager - Modelo mundial de itinerancia ultralarga de código abierto de Tencent

Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial

40.7K 00

¿Qué es HunyuanWorld-Voyager?

HunyuanWorld-Voyager(Abreviatura: MIXTO)Voyager)es el primer modelo de mundo itinerante ultralargo del sector lanzado por Tencent que admite la reconstrucción nativa en 3D. Se trata de un novedoso marco de difusión de vídeo que genera secuencias de nubes de puntos 3D de trayectorias de cámara definidas por el usuario a partir de una sola imagen, admite la generación de vídeo de escena coherente en 3D para la exploración del mundo a lo largo de trayectorias de cámara personalizadas y genera vídeos de profundidad y RGB alineados para una reconstrucción 3D eficiente y directa. El modelo contiene dos componentes clave: la difusión de vídeo coherente con el mundo y la exploración del mundo a larga distancia, que permite la expansión iterativa de la escena a través de la selección eficiente de puntos y la inferencia autorregresiva. Se propone un motor de datos escalable para generar datos escalables para el entrenamiento de vídeo RGB-D.

Características de HunyuanWorld-Voyager

Reconstrucción 3D nativa: Por primera vez, se admite la reconstrucción nativa de escenas y memoria 3D mediante una combinación de espacio y características, lo que evita la latencia y la pérdida de precisión asociadas al posprocesamiento tradicional.
Itinerancia de larga distanciaLa capacidad de generar escenas itinerantes de larga distancia y coherentes con el mundo supera las limitaciones de la generación de vídeo tradicional en cuanto a coherencia espacial y alcance de la exploración.
Soporte de entrada y salida 3D: Admite entrada 3D y salida 3D, muy adaptable al modelo de mundo híbrido 1.0, que puede ampliar aún más el alcance de itinerancia del modelo 1.0, mejorar la calidad de generación de escenas complejas y admitir el control y la edición estilizados.
Mecanismo de caché mundialEl modelo 1.0: Introduce un mecanismo escalable de almacenamiento en caché del mundo, basado en una caché inicial de nubes de puntos 3D generada a partir del modelo 1.0, que se proyecta a la vista de la cámara objetivo para proporcionar orientación al modelo de difusión. Los fotogramas de vídeo generados también actualizan la caché en tiempo real, formando un sistema de bucle cerrado que admite trayectorias de cámara arbitrarias manteniendo la coherencia geométrica.
Compatible con escenarios multiaplicación: Admite una amplia gama de aplicaciones de comprensión y generación 3D, como la reconstrucción de escenas de vídeo, la generación de texturas de objetos 3D, la generación de personalización de estilos de vídeo, la estimación de profundidad de vídeo, etc.
Motor de datos eficienteSe propone un motor de datos escalable para generar datos escalables para el entrenamiento de vídeo RGB-D, que elimina la necesidad del etiquetado 3D manual y automatiza la generación de datos de entrenamiento a gran escala y diversos.

Principales ventajas de HunyuanWorld-Voyager

Generación 3D nativaEl sistema de nubes de puntos: Por primera vez, es posible generar secuencias de nubes de puntos coherentes en 3D directamente a partir de una sola imagen sin necesidad de postprocesado, lo que evita los retrasos y la pérdida de precisión de los métodos tradicionales.
Itinerancia de largo alcancePermite a los usuarios recorrer largas distancias y escenas 3D coherentes con el mundo a lo largo de trayectorias de cámara personalizadas, superando las limitaciones espaciales de la generación de vídeo tradicional.
Reconstrucción 3D eficazLa función de reconstrucción 3D: los vídeos RGB y de profundidad generados pueden utilizarse directamente para la reconstrucción 3D sin necesidad de herramientas de reconstrucción adicionales, lo que mejora la eficacia y la precisión de la reconstrucción 3D.
Soporte de entrada multimodal: Admite varios métodos de entrada, como texto e imágenes, y puede generar escenas y vídeos 3D de alta calidad en función de las distintas entradas.
interactividad en tiempo realLos usuarios pueden explorar el mundo 3D generado en tiempo real personalizando la trayectoria de la cámara, lo que mejora la experiencia de interacción con el usuario.
Potente motor de datosSe propone un motor de datos escalable que automatiza la generación de datos de entrenamiento de vídeo RGB-D diversos y a gran escala sin necesidad de etiquetado 3D manual.

¿Cuál es el sitio web oficial de HunyuanWorld-Voyager?

Página web del proyecto:: https://3d-models.hunyuan.tencent.com/world/
Repositorio Github:: https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
Biblioteca de modelos de caras abrazadas:: https://huggingface.co/tencent/HunyuanWorld-Voyager
Informe técnico:: https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

Personas para las que HunyuanWorld-Voyager es adecuado

Artistas y diseñadores 3D: Los modelos pueden utilizarse para generar rápidamente escenas y activos 3D de alta calidad, aumentando la eficacia creativa e inspirando la creatividad.
desarrollador de juegosPermite generar activos de escenas 3D compatibles con motores de juegos, lo que proporciona un amplio soporte creativo y de contenidos para el desarrollo de juegos.
Desarrolladores de Realidad Virtual (RV) y Realidad Aumentada (RA)El sistema de navegación: puede utilizarse para crear experiencias 3D envolventes que mejoren la interactividad y la inmersión del usuario.
Educadores y estudiantesEl sistema de aprendizaje en 3D: puede utilizarse en educación y formación para proporcionar recursos de aprendizaje en 3D intuitivos que mejoren la experiencia de aprendizaje.
Diseñadores e ingenieros industrialesEl diseño industrial y la simulación permiten optimizar las soluciones de diseño y mejorar su eficacia.
Productor de vídeoFunción: puede utilizarse para la reconstrucción de vídeo y la estimación de la profundidad para mejorar el efecto 3D y el análisis del contenido de vídeo.