Cosmos: World Base Model, платформа для создания базовых моделей физического мира с помощью ИИ.

Общее введение

NVIDIA Cosmos - это платформа базовых моделей мира для разработчиков, специально созданная для того, чтобы помочь разработчикам физического ИИ создавать свои системы физического ИИ лучше и быстрее. Платформа предлагает ряд предварительно обученных моделей, включая диффузионные модели и модели на основе авторегрессии, а также токенизаторы для эффективной обработки видео. NVIDIA Cosmos поддерживает такие функции, как генерация Text2World и Video2World, которые могут генерировать визуальные симуляции на основе текстовых подсказок или видеоввода. Генерирование визуальных симуляций на основе текстовых подсказок или видео. Платформа выпускается с открытым исходным кодом под лицензией Apache 2 для обучения моделей и скриптов тонкой настройки, а также под лицензией NVIDIA Open Model Licence для предварительно обученных моделей. Платформа специально оптимизирована для понимания и генерирования физических сцен, обеспечивая мощную базовую модель для таких областей, как робототехника и автономное вождение.

Что такое NVIDIA Cosmos?

NVIDIA Cosmos™ - это современная генеративная модель мира (WFM), включающая передовые маркеры, механизмы защиты и ускоренные потоки обработки и управления данными для ускорения разработки систем физического ИИ, таких как самоуправляемые автомобили (AV) и роботы. Семейство предварительно обученных моделей для генерации физически осознанных видео и состояний мира, созданных специально для разработки физического ИИ.

Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台

Опыт работы в Интернете: https://build.nvidia.com/explore/discover

 

Список функций

  • Обеспечивает базовую модель мира на основе диффузии с поддержкой генерации Text2World и Video2World
  • Обеспечьте базовую модель мира на основе авторегрессии с поддержкой генерации Video2World
  • Эффективный токенизатор видео, поддержка непрерывного и дискретного преобразования видео с токенами
  • Посттренировочные сценарии для предварительно обученных моделей для адаптации к различным сценариям физического ИИ
  • Инструмент процесса управления наборами видеоданных (готовится к выпуску)
  • Разработка учебных сценариев для создания пользовательских базовых моделей мира
  • Встроенная система защиты обеспечивает безопасность генерируемого контента
  • Поддерживает несколько типоразмеров моделей (параметры 4B/5B/12B/13B) для соответствия различным аппаратным конфигурациям
  • Гибкая стратегия выгрузки моделей для поддержки работы в средах с малым объемом графической памяти

 

Использование помощи

1. конфигурация окружающей среды

Сначала вам нужно настроить среду Docker, следуйте руководству по установке, чтобы сконфигурировать необходимую среду. Все команды должны выполняться в Docker.

2. Загрузка моделей

  1. Создайте токены доступа Hugging Face с правами "Чтение".
  2. Используйте следующую команду, чтобы войти в систему Hugging Face:
huggingface-cli login
  1. Скачать Космическая модель весов:
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. Типы моделей и сценарии использования

Cosmos предлагает два основных типа моделей:

Базовые модели

  • Варианты моделей: параметрические шкалы 4B и 12B
  • Основные особенности: Поддержка генерации аналога мира из изображений/видеовходов
  • Применимые сценарии: необходимость расширения и прогнозирования сцен на основе существующего визуального контента

Модель Video2World

  • Варианты моделей: параметрические шкалы 5B и 13B
  • Ключевые особенности: Поддержка одновременного использования текстовых и графических/видео данных для создания симуляций мира
  • Сценарий: Необходимость целенаправленной генерации и модификации визуального контента на основе текстовых описаний

4. Генеративный потенциал и показатели эффективности

  • Поддерживает создание видеопоследовательностей до 33 кадров
  • Поддержка ввода одного изображения или 9 кадров видео
  • Разрешение установлено на 1024x640
  • Время вывода на графических процессорах H100:
    • Модель 4B: около 62 секунд
    • Модель 12B: около 119 секунд
    • Модель 5B Video2World: около 73 секунд
    • Модель 13B Video2World: около 150 секунд

5. Стратегии оптимизации памяти

Cosmos предлагает множество опций оптимизации памяти, которые можно использовать для уменьшения занимаемой памяти с помощью различных стратегий выгрузки моделей:

  • Без стратегии оптимизации: модель 4B требует 31,3 ГБ, модель 12B - 47,5 ГБ.
  • Полностью оптимизированная стратегия: до 18,7 ГБ для 4B моделей и до 27,4 ГБ для 12B моделей.
  • Модель Video2World также предлагает аналогичные возможности оптимизации

6. функции безопасности

  • Встроенная система защиты от несанкционированного доступа
  • Автоматическое обнаружение и размытие содержимого лица
  • Фильтрация безопасности содержимого обеспечивает соответствие генерируемых результатов стандартам безопасности
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...