Cosmos: World Base Model, платформа для создания базовых моделей физического мира с помощью ИИ.
Общее введение
NVIDIA Cosmos - это платформа базовых моделей мира для разработчиков, специально созданная для того, чтобы помочь разработчикам физического ИИ создавать свои системы физического ИИ лучше и быстрее. Платформа предлагает ряд предварительно обученных моделей, включая диффузионные модели и модели на основе авторегрессии, а также токенизаторы для эффективной обработки видео. NVIDIA Cosmos поддерживает такие функции, как генерация Text2World и Video2World, которые могут генерировать визуальные симуляции на основе текстовых подсказок или видеоввода. Генерирование визуальных симуляций на основе текстовых подсказок или видео. Платформа выпускается с открытым исходным кодом под лицензией Apache 2 для обучения моделей и скриптов тонкой настройки, а также под лицензией NVIDIA Open Model Licence для предварительно обученных моделей. Платформа специально оптимизирована для понимания и генерирования физических сцен, обеспечивая мощную базовую модель для таких областей, как робототехника и автономное вождение.
Что такое NVIDIA Cosmos?
NVIDIA Cosmos™ - это современная генеративная модель мира (WFM), включающая передовые маркеры, механизмы защиты и ускоренные потоки обработки и управления данными для ускорения разработки систем физического ИИ, таких как самоуправляемые автомобили (AV) и роботы. Семейство предварительно обученных моделей для генерации физически осознанных видео и состояний мира, созданных специально для разработки физического ИИ.

Опыт работы в Интернете: https://build.nvidia.com/explore/discover
Список функций
- Обеспечивает базовую модель мира на основе диффузии с поддержкой генерации Text2World и Video2World
- Обеспечьте базовую модель мира на основе авторегрессии с поддержкой генерации Video2World
- Эффективный токенизатор видео, поддержка непрерывного и дискретного преобразования видео с токенами
- Посттренировочные сценарии для предварительно обученных моделей для адаптации к различным сценариям физического ИИ
- Инструмент процесса управления наборами видеоданных (готовится к выпуску)
- Разработка учебных сценариев для создания пользовательских базовых моделей мира
- Встроенная система защиты обеспечивает безопасность генерируемого контента
- Поддерживает несколько типоразмеров моделей (параметры 4B/5B/12B/13B) для соответствия различным аппаратным конфигурациям
- Гибкая стратегия выгрузки моделей для поддержки работы в средах с малым объемом графической памяти
Использование помощи
1. конфигурация окружающей среды
Сначала вам нужно настроить среду Docker, следуйте руководству по установке, чтобы сконфигурировать необходимую среду. Все команды должны выполняться в Docker.
2. Загрузка моделей
- Создайте токены доступа Hugging Face с правами "Чтение".
- Используйте следующую команду, чтобы войти в систему Hugging Face:
huggingface-cli login
- Скачать Космическая модель весов:
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B
3. Типы моделей и сценарии использования
Cosmos предлагает два основных типа моделей:
Базовые модели
- Варианты моделей: параметрические шкалы 4B и 12B
- Основные особенности: Поддержка генерации аналога мира из изображений/видеовходов
- Применимые сценарии: необходимость расширения и прогнозирования сцен на основе существующего визуального контента
Модель Video2World
- Варианты моделей: параметрические шкалы 5B и 13B
- Ключевые особенности: Поддержка одновременного использования текстовых и графических/видео данных для создания симуляций мира
- Сценарий: Необходимость целенаправленной генерации и модификации визуального контента на основе текстовых описаний
4. Генеративный потенциал и показатели эффективности
- Поддерживает создание видеопоследовательностей до 33 кадров
- Поддержка ввода одного изображения или 9 кадров видео
- Разрешение установлено на 1024x640
- Время вывода на графических процессорах H100:
- Модель 4B: около 62 секунд
- Модель 12B: около 119 секунд
- Модель 5B Video2World: около 73 секунд
- Модель 13B Video2World: около 150 секунд
5. Стратегии оптимизации памяти
Cosmos предлагает множество опций оптимизации памяти, которые можно использовать для уменьшения занимаемой памяти с помощью различных стратегий выгрузки моделей:
- Без стратегии оптимизации: модель 4B требует 31,3 ГБ, модель 12B - 47,5 ГБ.
- Полностью оптимизированная стратегия: до 18,7 ГБ для 4B моделей и до 27,4 ГБ для 12B моделей.
- Модель Video2World также предлагает аналогичные возможности оптимизации
6. функции безопасности
- Встроенная система защиты от несанкционированного доступа
- Автоматическое обнаружение и размытие содержимого лица
- Фильтрация безопасности содержимого обеспечивает соответствие генерируемых результатов стандартам безопасности
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...