Aprendizagem pessoal com IA
e orientação prática

Cosmos: World Base Model, uma plataforma para criar modelos de base de IA do mundo físico

Introdução geral

O NVIDIA Cosmos é uma plataforma de modelo de base mundial para desenvolvedores projetada especificamente para ajudar os desenvolvedores de IA física a criar seus sistemas de IA física de forma melhor e mais rápida. A plataforma oferece uma variedade de modelos pré-treinados, incluindo modelos de base mundial baseados em difusão e autorregressivos, bem como tokenizadores para processamento eficiente de vídeo. O NVIDIA Cosmos oferece suporte a recursos como a geração Text2World e Video2World, que podem gerar simulações visuais com base em dicas textuais ou entrada de vídeo. O NVIDIA Cosmos suporta recursos como a geração de Text2World e Video2World, que podem gerar simulações visuais com base em dicas textuais ou entrada de vídeo. A plataforma é lançada como código aberto sob a licença Apache 2 para treinamento de modelos e scripts de ajuste fino, e sob a licença NVIDIA Open Model Licence para modelos pré-treinados. A plataforma é especificamente otimizada para compreender e gerar cenas físicas, fornecendo um modelo de base avançado para áreas como robótica e direção autônoma.

O que é o NVIDIA Cosmos?

O NVIDIA Cosmos™ é uma plataforma geradora de World Foundation Model (WFM) de última geração que inclui tokenizadores avançados, mecanismos de proteção e fluxos acelerados de processamento e gerenciamento de dados projetados para acelerar o desenvolvimento de sistemas físicos de AI, como carros autônomos (AVs) e robôs. Uma família de modelos pré-treinados para gerar vídeo com reconhecimento físico e estados mundiais criados especificamente para o desenvolvimento de IA física.

NVIDIA Cosmos: modelo de base mundial, plataforma para criar modelos de base de IA para o mundo físico-1

Experiência on-line: https://build.nvidia.com/explore/discover


 

Lista de funções

  • Fornece um modelo de base mundial baseado em difusão com suporte para geração de Text2World e Video2World
  • Fornecer modelo de base mundial autorregressivo com suporte à geração Video2World
  • Eficiente tokenizador de vídeo, suporta conversão de vídeo com token contínuo e discreto
  • Scripts de pós-treinamento para modelos pré-treinados para adaptação a diferentes cenários físicos de IA
  • Ferramenta de processo de gerenciamento de conjunto de dados de vídeo (em breve)
  • Scripts de treinamento completos com suporte para a criação de modelos de base mundial personalizados
  • Sistema de proteção de segurança integrado para garantir a segurança do conteúdo gerado
  • Suporta vários tamanhos de modelo (parâmetros 4B/5B/12B/13B) para acomodar diferentes configurações de hardware
  • Estratégia flexível de descarregamento de modelos para suportar a operação em ambientes com pouca memória gráfica

 

Usando a Ajuda

1. configuração ambiental

Primeiro, você precisa configurar o ambiente do Docker. Siga o guia de instalação para configurar o ambiente necessário. Todos os comandos precisam ser executados no Docker.

2. downloads de modelos

  1. Gerar tokens de acesso ao Hugging Face com permissões de "Leitura".
  2. Use o seguinte comando para fazer login no Hugging Face:
huggingface-cli login
  1. Faça o download dos pesos do modelo Cosmos:
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. tipos de modelos e cenários de uso

O Cosmos oferece dois tipos principais de modelos:

Modelos básicos

  • Versões do modelo: escalas paramétricas 4B e 12B
  • Principais recursos: Suporte para geração de mundo analógico a partir de entradas de imagem/vídeo
  • Cenários aplicáveis: necessidade de estender e prever cenas com base no conteúdo visual existente

Modelo Video2World

  • Versões do modelo: escalas paramétricas 5B e 13B
  • Principais recursos: Suporte ao uso simultâneo de entradas de texto e imagem/vídeo para gerar simulações de mundo
  • Cenário: necessidade de geração direcionada e modificação de conteúdo visual com base em descrições textuais

4. capacidade de geração e indicadores de desempenho

  • Suporta a geração de sequências de vídeo de até 33 quadros
  • Suporte de entrada para uma única imagem ou 9 quadros de vídeo
  • Resolução fixada em 1024x640
  • Tempo de inferência em GPUs H100:
    • Modelo 4B: aproximadamente 62 segundos
    • Modelo 12B: aproximadamente 119 segundos
    • Modelo 5B Video2World: aprox. 73 segundos
    • Modelo 13B Video2World: aprox. 150 segundos

5. estratégias de otimização de memória

O Cosmos oferece uma variedade de opções de otimização de memória que podem ser usadas para reduzir o espaço de memória por meio de diferentes estratégias de descarregamento de modelos:

  • Sem estratégia de otimização: o modelo 4B requer 31,3 GB, o modelo 12B requer 47,5 GB
  • Estratégia totalmente otimizada: até 18,7 GB para modelos 4B e 27,4 GB para modelos 12B
  • O modelo Video2World também oferece opções de otimização semelhantes

6. funções de segurança

  • Sistema de proteção de segurança integrado e não desativável
  • Detecção automática e desfoque do conteúdo facial
  • A filtragem de segurança de conteúdo garante que os resultados gerados estejam em conformidade com os padrões de segurança
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Cosmos: World Base Model, uma plataforma para criar modelos de base de IA do mundo físico

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil