Introdução geral
O NVIDIA Cosmos é uma plataforma de modelo de base mundial para desenvolvedores projetada especificamente para ajudar os desenvolvedores de IA física a criar seus sistemas de IA física de forma melhor e mais rápida. A plataforma oferece uma variedade de modelos pré-treinados, incluindo modelos de base mundial baseados em difusão e autorregressivos, bem como tokenizadores para processamento eficiente de vídeo. O NVIDIA Cosmos oferece suporte a recursos como a geração Text2World e Video2World, que podem gerar simulações visuais com base em dicas textuais ou entrada de vídeo. O NVIDIA Cosmos suporta recursos como a geração de Text2World e Video2World, que podem gerar simulações visuais com base em dicas textuais ou entrada de vídeo. A plataforma é lançada como código aberto sob a licença Apache 2 para treinamento de modelos e scripts de ajuste fino, e sob a licença NVIDIA Open Model Licence para modelos pré-treinados. A plataforma é especificamente otimizada para compreender e gerar cenas físicas, fornecendo um modelo de base avançado para áreas como robótica e direção autônoma.
O que é o NVIDIA Cosmos?
O NVIDIA Cosmos™ é uma plataforma geradora de World Foundation Model (WFM) de última geração que inclui tokenizadores avançados, mecanismos de proteção e fluxos acelerados de processamento e gerenciamento de dados projetados para acelerar o desenvolvimento de sistemas físicos de AI, como carros autônomos (AVs) e robôs. Uma família de modelos pré-treinados para gerar vídeo com reconhecimento físico e estados mundiais criados especificamente para o desenvolvimento de IA física.
Lista de funções
- Fornece um modelo de base mundial baseado em difusão com suporte para geração de Text2World e Video2World
- Fornecer modelo de base mundial autorregressivo com suporte à geração Video2World
- Eficiente tokenizador de vídeo, suporta conversão de vídeo com token contínuo e discreto
- Scripts de pós-treinamento para modelos pré-treinados para adaptação a diferentes cenários físicos de IA
- Ferramenta de processo de gerenciamento de conjunto de dados de vídeo (em breve)
- Scripts de treinamento completos com suporte para a criação de modelos de base mundial personalizados
- Sistema de proteção de segurança integrado para garantir a segurança do conteúdo gerado
- Suporta vários tamanhos de modelo (parâmetros 4B/5B/12B/13B) para acomodar diferentes configurações de hardware
- Estratégia flexível de descarregamento de modelos para suportar a operação em ambientes com pouca memória gráfica
Usando a Ajuda
1. configuração ambiental
Primeiro, você precisa configurar o ambiente do Docker. Siga o guia de instalação para configurar o ambiente necessário. Todos os comandos precisam ser executados no Docker.
2. downloads de modelos
- Gerar tokens de acesso ao Hugging Face com permissões de "Leitura".
- Use o seguinte comando para fazer login no Hugging Face:
huggingface-cli login
- Faça o download dos pesos do modelo Cosmos:
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B
3. tipos de modelos e cenários de uso
O Cosmos oferece dois tipos principais de modelos:
Modelos básicos
- Versões do modelo: escalas paramétricas 4B e 12B
- Principais recursos: Suporte para geração de mundo analógico a partir de entradas de imagem/vídeo
- Cenários aplicáveis: necessidade de estender e prever cenas com base no conteúdo visual existente
Modelo Video2World
- Versões do modelo: escalas paramétricas 5B e 13B
- Principais recursos: Suporte ao uso simultâneo de entradas de texto e imagem/vídeo para gerar simulações de mundo
- Cenário: necessidade de geração direcionada e modificação de conteúdo visual com base em descrições textuais
4. capacidade de geração e indicadores de desempenho
- Suporta a geração de sequências de vídeo de até 33 quadros
- Suporte de entrada para uma única imagem ou 9 quadros de vídeo
- Resolução fixada em 1024x640
- Tempo de inferência em GPUs H100:
- Modelo 4B: aproximadamente 62 segundos
- Modelo 12B: aproximadamente 119 segundos
- Modelo 5B Video2World: aprox. 73 segundos
- Modelo 13B Video2World: aprox. 150 segundos
5. estratégias de otimização de memória
O Cosmos oferece uma variedade de opções de otimização de memória que podem ser usadas para reduzir o espaço de memória por meio de diferentes estratégias de descarregamento de modelos:
- Sem estratégia de otimização: o modelo 4B requer 31,3 GB, o modelo 12B requer 47,5 GB
- Estratégia totalmente otimizada: até 18,7 GB para modelos 4B e 27,4 GB para modelos 12B
- O modelo Video2World também oferece opções de otimização semelhantes
6. funções de segurança
- Sistema de proteção de segurança integrado e não desativável
- Detecção automática e desfoque do conteúdo facial
- A filtragem de segurança de conteúdo garante que os resultados gerados estejam em conformidade com os padrões de segurança