HunyuanWorld-Voyager - модель мира с открытым исходным кодом Tencent для сверхдальнего роуминга
Что такое HunyuanWorld-Voyager?
HunyuanWorld-Voyager(Аббревиатура: MIXED)Voyager)это первая в индустрии модель сверхдлинного блуждающего мира, выпущенная компанией Tencent и поддерживающая встроенную 3D-реконструкцию. Это новая система распространения видео, которая генерирует 3D облака точек по заданным пользователем траекториям движения камеры из одного изображения, поддерживает генерацию последовательного 3D видео сцены для исследования мира по заданным траекториям движения камеры и генерирует выровненные видео глубины и RGB для эффективной и прямой 3D реконструкции. Модель содержит два ключевых компонента: диффузию видео, согласованную с миром, и исследование мира на большом расстоянии, что позволяет итеративно расширять сцену за счет эффективной выборки точек и авторегрессионных выводов. Для создания масштабируемых данных для обучения RGB-D-видео предложена масштабируемая система данных.

Особенности HunyuanWorld-Voyager
- Встроенная возможность 3D-реконструкции: Впервые поддерживается встроенная 3D-память и реконструкция сцены с помощью комбинации пространства и функций, что позволяет избежать задержек и потерь точности, связанных с традиционной постобработкой.
- Поддержка междугороднего роуминга: Возможность генерировать блуждающие сцены на больших расстояниях, согласованные с миром, преодолевает ограничения традиционной генерации видео с точки зрения пространственной согласованности и масштабов исследования.
- Поддержка 3D-ввода и вывода: Поддерживает 3D-вход и 3D-выход, хорошо адаптируется к модели Hybrid World Model 1.0, что позволяет еще больше расширить диапазон перемещения модели 1.0, улучшить качество генерации сложных сцен, а также поддерживать стилизованное управление и редактирование.
- Механизм мирового кэша: Представлен масштабируемый механизм кэширования мира, основанный на начальном кэше 3D-облака точек, сгенерированном на основе модели 1.0, который проецируется на целевой вид камеры, чтобы обеспечить руководство для диффузионной модели. Генерируемые видеокадры также обновляют кэш в режиме реального времени, образуя замкнутую систему, которая поддерживает произвольные траектории движения камеры, сохраняя при этом геометрическую согласованность.
- Поддержка сценариев с несколькими приложениями: Поддерживает широкий спектр приложений для понимания и генерации 3D-изображений, таких как реконструкция видеосцены, генерация текстур 3D-объектов, создание индивидуального стиля видео, оценка глубины видео и т.д.
- Эффективный механизм обработки данных: Для создания масштабируемых данных для обучения RGB-D-видео предложена масштабируемая система данных, которая устраняет необходимость ручной 3D-маркировки и автоматизирует создание масштабных и разнообразных обучающих данных.
Основные преимущества HunyuanWorld-Voyager
- Родное 3D-генерирование: Впервые появилась возможность генерировать последовательности 3D последовательных облаков точек непосредственно из одного изображения без постобработки, избегая задержек и потери точности, характерных для традиционных методов.
- Возможность роуминга на больших расстояниях: Позволяет пользователям перемещаться по 3D-сценам с большим расстоянием и согласованными с миром траекториями движения камеры, преодолевая пространственные ограничения традиционной генерации видео.
- Эффективная 3D реконструкция: Сгенерированные RGB- и глубинные видеоизображения могут быть использованы непосредственно для 3D-реконструкции без использования дополнительных инструментов реконструкции, что повышает эффективность и точность 3D-реконструкции.
- Поддержка мультимодального ввода: Он поддерживает различные методы ввода, такие как текст и изображения, и может генерировать высококачественные 3D-сцены и видео в соответствии с различными входными данными.
- интерактивность в реальном времени: Пользователи могут исследовать сгенерированный 3D-мир в реальном времени, настраивая траекторию движения камеры, что расширяет возможности взаимодействия с пользователем.
- Мощный механизм обработки данных: Предложена масштабируемая система данных, позволяющая автоматизировать генерацию крупномасштабных разнообразных обучающих данных RGB-D видео без необходимости ручной 3D маркировки.
Какой официальный сайт у HunyuanWorld-Voyager?
- Веб-сайт проекта:: https://3d-models.hunyuan.tencent.com/world/
- Репозиторий Github:: https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- Библиотека моделей обнимающихся лиц:: https://huggingface.co/tencent/HunyuanWorld-Voyager
- Технический отчет:: https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
Люди, для которых подходит HunyuanWorld-Voyager
- 3D-художники и дизайнеры: Models можно использовать для быстрого создания высококачественных 3D-сцен и объектов, повышая эффективность работы и стимулируя творческий потенциал.
- разработчик игр: Может генерировать активы 3D-сцен, совместимые с игровыми движками, обеспечивая богатую творческую и содержательную поддержку при разработке игр.
- Разработчики виртуальной реальности (VR) и дополненной реальности (AR): Может использоваться для создания иммерсивных 3D-воздействий, повышающих интерактивность и погружение пользователя.
- Преподаватели и студенты: Может использоваться в образовании и обучении для предоставления интуитивно понятных 3D-ресурсов, которые повышают эффективность обучения.
- Промышленные дизайнеры и инженеры: Может использоваться для промышленного дизайна и моделирования, помогая оптимизировать проектные решения и повысить эффективность проектирования.
- Видеопродюсер: Может использоваться для реконструкции видео и оценки глубины для усиления 3D-эффекта и анализа видеоконтента.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...