Mixed World Model 1.1 - Tencent Mixed World lanza un gran modelo reconstruido en 3D de código abierto
Últimos recursos sobre IAPublicado hace 1 mes Círculo de intercambio de inteligencia artificial 19K 00
Qué es el modelo de mundo híbrido 1.1
WorldMirror 1.1 (WorldMirror) es un modelo de reconstrucción 3D de código abierto lanzado por el equipo WorldMirror de Tencent, que es una versión mejorada de la serie WorldMirror. Admite imágenes multivista, vídeos y entradas multimodales a priori, como la posición de la cámara, la referencia interna, el mapa de profundidad, etc. Rompe con la limitación de la reconstrucción 3D tradicional basada en una sola imagen y se adapta con flexibilidad a diferentes combinaciones de entradas mediante un mecanismo dinámico de inyección a priori. Es la primera vez que se consigue un resultado unificado multitarea de extremo a extremo, que puede generar simultáneamente múltiples predicciones geométricas 3D, como nube de puntos, mapa de profundidad multivista, parámetros de cámara, normal de superficie y puntos gaussianos 3D, etc. Las tareas se refuerzan mediante formación colaborativa de extremo a extremo para mejorar la calidad de la reconstrucción y la coherencia geométrica.

Características funcionales del Modelo Mundial Híbrido 1.1
- Soporte de entrada multimodalSoporta múltiples métodos de entrada, como imagen multivista y vídeo, y puede manejar con flexibilidad diferentes tipos de datos de entrada.
- Salida unificada multitareaPuede generar simultáneamente una gran variedad de predicciones geométricas en 3D, como nubes de puntos, mapas de profundidad, parámetros de cámara, normales de superficie y puntos gaussianos en 3D para satisfacer distintas necesidades.
- Despliegue de tarjeta única con razonamiento de segundosEl sistema de inferencia de segundo nivel se basa en una arquitectura puramente "feed-forward" que puede instalarse en una sola tarjeta gráfica y tarda sólo 1 segundo en procesar localmente entre 8 y 32 vistas.
- Adaptabilidad flexible a prioriEl modelo se adapta con flexibilidad a cualquier combinación de a priori gracias a un mecanismo dinámico de inyección de a priori, y la reconstrucción 3D puede realizarse incluso sin entrada de a priori.
- Gran capacidad de generalizaciónLa estrategia de aprendizaje del curso maximiza la capacidad del modelo para generalizar más allá de una única distribución de imágenes, lo que le permite manejar mejor datos de entrada diversos.
- Reconstrucción 3D de alta precisiónRendimiento excepcional en la reconstrucción de nubes de puntos 3D y la reconstrucción 3DGS de extremo a extremo, con una precisión geométrica y una reproducción de detalles extraordinarias, para apoyar la creación de contenidos 3D de alta calidad.
Principales ventajas del modelo de mundo híbrido 1.1
- Tratamiento flexible de entradas multimodalesPor ejemplo, admite la inyección de información a priori multimodal, como la pose de la cámara, la referencia interna, el mapa de profundidad, etc., y se adapta a combinaciones a priori arbitrarias fusionando restricciones geométricas globales y locales mediante una estrategia de codificación jerárquica para mejorar la calidad y robustez de la reconstrucción.
- Predicción visual 3D genéricaPor primera vez, hemos logrado una salida multitarea unificada de nubes de puntos, mapas de profundidad, parámetros de cámara, normales de superficie, puntos gaussianos 3D, etc., hemos optimizado la precisión geométrica y la reproducción de detalles mediante un entrenamiento colaborativo de extremo a extremo, y hemos apoyado la reconstrucción de mallas de alta calidad y el renderizado de nuevos puntos de vista en tiempo real.
- Despliegue eficiente de una sola tarjeta con inferencia segundo a segundoAdopta una arquitectura de avance puro, que puede generar atributos 3D con una sola propagación hacia delante y procesar 8-32 entradas de vista en sólo 1 segundo, lo que es significativamente mejor que el método tradicional de optimización iterativa, reduciendo el umbral de hardware y poniendo la tecnología de reconstrucción 3D al alcance de todos.
- Capacidad de generalización entre escenasOptimizar el entrenamiento mediante estrategias de aprendizaje de cursos (orden de tareas, programación de datos, progresión de resolución) para mejorar la adaptación a entradas diversas como fotos reales y vídeos generados por IA, generando escenas bien estructuradas y ricas en detalles.
- Código abierto y facilidad de uso: Completamente de código abierto, proporciona documentos de despliegue local y Demo online de Hugging Face, soporta la carga de imagen multi-vista o vídeo de previsualización en tiempo real de los resultados de reconstrucción 3D, reduce el umbral de las aplicaciones técnicas.
¿Cuál es la web oficial de Hybrid World Model 1.1?
- Página web del proyecto:: https://3d-models.hunyuan.tencent.com/world/
- Repositorio Github:: https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
- Biblioteca de modelos de caras abrazadas:: https://huggingface.co/tencent/HunyuanWorld-Mirror
- Demostración en línea de HuggingFace:: https://huggingface.co/spaces/tencent/HunyuanWorld-Mirror
- Informe técnico:: https://3d-models.hunyuan.tencent.com/world/worldMirror1_0/HYWorld_Mirror_Tech_Report.pdf
Personas para el modelo de mundo híbrido 1.1
- Creadores de contenidos 3DPermite generar rápidamente escenas 3D de alta calidad para el desarrollo de juegos, experiencias de RV, producción de cine y TV, etc., ayudando a los creadores a construir mundos virtuales de forma eficiente.
- Educadores y estudiantesLa tecnología de inmersión 3D: puede utilizarse para crear entornos de enseñanza 3D inmersivos que mejoren la experiencia de aprendizaje y la eficacia de los escenarios educativos, como laboratorios virtuales y recreaciones de escenas históricas.
- Diseñadores e ingenieros industriales: Diseño de productos asistido, ensamblaje virtual y simulación física para acelerar el proceso de diseño industrial y mejorar la eficacia y la calidad del diseño.
- Conservadores del patrimonio culturalReconstrucción 3D de alta precisión de edificios antiguos y reliquias culturales para apoyar la conservación digital y la investigación del patrimonio cultural.
- Promotores inmobiliarios y arquitectosGeneración de modelos 3D y visitas virtuales de edificios para presentaciones de diseño arquitectónico, salas de exposición virtuales, etc., con el fin de mejorar la experiencia del usuario.
- Personal de publicidad y marketingCreación de atractivos contenidos publicitarios en 3D, como demostraciones de productos, salas de exposición virtuales, etc., para aumentar la interactividad y el atractivo de los anuncios.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




