Cosmos: World Base Model, платформа для создания базовых моделей физического мира с помощью ИИ.

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

62.4K 00

Общее введение

NVIDIA Cosmos - это платформа базовых моделей мира для разработчиков, специально созданная для того, чтобы помочь разработчикам физического ИИ создавать свои системы физического ИИ лучше и быстрее. Платформа предлагает ряд предварительно обученных моделей, включая диффузионные модели и модели на основе авторегрессии, а также токенизаторы для эффективной обработки видео. NVIDIA Cosmos поддерживает такие функции, как генерация Text2World и Video2World, которые могут генерировать визуальные симуляции на основе текстовых подсказок или видеоввода. Генерирование визуальных симуляций на основе текстовых подсказок или видео. Платформа выпускается с открытым исходным кодом под лицензией Apache 2 для обучения моделей и скриптов тонкой настройки, а также под лицензией NVIDIA Open Model Licence для предварительно обученных моделей. Платформа специально оптимизирована для понимания и генерирования физических сцен, обеспечивая мощную базовую модель для таких областей, как робототехника и автономное вождение.

Что такое NVIDIA Cosmos?
NVIDIA Cosmos™ - это современная генеративная модель мира (WFM), включающая передовые маркеры, механизмы защиты и ускоренные потоки обработки и управления данными для ускорения разработки систем физического ИИ, таких как самоуправляемые автомобили (AV) и роботы. Семейство предварительно обученных моделей для генерации физически осознанных видео и состояний мира, созданных специально для разработки физического ИИ.

Опыт работы в Интернете: https://build.nvidia.com/explore/discover

Список функций

Обеспечивает базовую модель мира на основе диффузии с поддержкой генерации Text2World и Video2World
Обеспечьте базовую модель мира на основе авторегрессии с поддержкой генерации Video2World
Эффективный токенизатор видео, поддержка непрерывного и дискретного преобразования видео с токенами
Посттренировочные сценарии для предварительно обученных моделей для адаптации к различным сценариям физического ИИ
Инструмент процесса управления наборами видеоданных (готовится к выпуску)
Разработка учебных сценариев для создания пользовательских базовых моделей мира
Встроенная система защиты обеспечивает безопасность генерируемого контента
Поддерживает несколько типоразмеров моделей (параметры 4B/5B/12B/13B) для соответствия различным аппаратным конфигурациям
Гибкая стратегия выгрузки моделей для поддержки работы в средах с малым объемом графической памяти

Использование помощи

1. конфигурация окружающей среды

Сначала вам нужно настроить среду Docker, следуйте руководству по установке, чтобы сконфигурировать необходимую среду. Все команды должны выполняться в Docker.

2. Загрузка моделей

Создайте токены доступа Hugging Face с правами "Чтение".
Используйте следующую команду, чтобы войти в систему Hugging Face:

huggingface-cli login

Скачать Космическая модель весов:

PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. Типы моделей и сценарии использования

Cosmos предлагает два основных типа моделей:

Базовые модели

Варианты моделей: параметрические шкалы 4B и 12B
Основные особенности: Поддержка генерации аналога мира из изображений/видеовходов
Применимые сценарии: необходимость расширения и прогнозирования сцен на основе существующего визуального контента

Модель Video2World

Варианты моделей: параметрические шкалы 5B и 13B
Ключевые особенности: Поддержка одновременного использования текстовых и графических/видео данных для создания симуляций мира
Сценарий: Необходимость целенаправленной генерации и модификации визуального контента на основе текстовых описаний

4. Генеративный потенциал и показатели эффективности

Поддерживает создание видеопоследовательностей до 33 кадров
Поддержка ввода одного изображения или 9 кадров видео
Разрешение установлено на 1024x640
Время вывода на графических процессорах H100:
- Модель 4B: около 62 секунд
- Модель 12B: около 119 секунд
- Модель 5B Video2World: около 73 секунд
- Модель 13B Video2World: около 150 секунд

5. Стратегии оптимизации памяти

Cosmos предлагает множество опций оптимизации памяти, которые можно использовать для уменьшения занимаемой памяти с помощью различных стратегий выгрузки моделей:

Без стратегии оптимизации: модель 4B требует 31,3 ГБ, модель 12B - 47,5 ГБ.
Полностью оптимизированная стратегия: до 18,7 ГБ для 4B моделей и до 27,4 ГБ для 12B моделей.
Модель Video2World также предлагает аналогичные возможности оптимизации

6. функции безопасности

Встроенная система защиты от несанкционированного доступа
Автоматическое обнаружение и размытие содержимого лица
Фильтрация безопасности содержимого обеспечивает соответствие генерируемых результатов стандартам безопасности

Последние ресурсы по искусственному интеллекту # AI Open Services # AI Java Open Source Projecct

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Знание древних книг: бесплатное онлайн-чтение и поиск древних ресурсов, ИИ-помощник по интерпретации оригинального текста древних книг

Последние ресурсы по искусственному интеллекту Образовательные инструменты # AI

1 год назад

056.8K

UGCGenerator: видеореклама с персонализированным контентом, генерируемая искусственным интеллектом, с легкостью становится вирусной

Последние ресурсы по искусственному интеллекту # AI Marketing # AI Video Generation Tool

1 год назад

060.4K

DiffSynth-Engine: движок с открытым исходным кодом для развертывания FLUX, Wan 2.1

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

1 год назад

071.3K

Qwen3-ASR-Flash - серия моделей распознавания речи, выпущенная Али Тунъи Цяньцянем

Последние ресурсы по искусственному интеллекту

7 месяцев назад

050K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Cosmos: World Base Model, платформа для создания базовых моделей физического мира с помощью ИИ.

Общее введение

Список функций