Cosmos: World Base Model, uma plataforma para criar modelos de base de IA do mundo físico

Recursos mais recentes de IAPublicado há 7 meses Círculo de compartilhamento de IA

1.7K 00

Introdução geral

O NVIDIA Cosmos é uma plataforma de modelo de base mundial para desenvolvedores projetada especificamente para ajudar os desenvolvedores de IA física a criar seus sistemas de IA física de forma melhor e mais rápida. A plataforma oferece uma variedade de modelos pré-treinados, incluindo modelos de base mundial baseados em difusão e autorregressivos, bem como tokenizadores para processamento eficiente de vídeo. O NVIDIA Cosmos oferece suporte a recursos como a geração Text2World e Video2World, que podem gerar simulações visuais com base em dicas textuais ou entrada de vídeo. O NVIDIA Cosmos suporta recursos como a geração de Text2World e Video2World, que podem gerar simulações visuais com base em dicas textuais ou entrada de vídeo. A plataforma é lançada como código aberto sob a licença Apache 2 para treinamento de modelos e scripts de ajuste fino, e sob a licença NVIDIA Open Model Licence para modelos pré-treinados. A plataforma é especificamente otimizada para compreender e gerar cenas físicas, fornecendo um modelo de base avançado para áreas como robótica e direção autônoma.

O que é o NVIDIA Cosmos?
O NVIDIA Cosmos™ é uma plataforma geradora de World Foundation Model (WFM) de última geração que inclui tokenizadores avançados, mecanismos de proteção e fluxos acelerados de processamento e gerenciamento de dados projetados para acelerar o desenvolvimento de sistemas físicos de AI, como carros autônomos (AVs) e robôs. Uma família de modelos pré-treinados para gerar vídeo com reconhecimento físico e estados mundiais criados especificamente para o desenvolvimento de IA física.

Experiência on-line: https://build.nvidia.com/explore/discover

Lista de funções

Fornece um modelo de base mundial baseado em difusão com suporte para geração de Text2World e Video2World
Fornecer modelo de base mundial autorregressivo com suporte à geração Video2World
Eficiente tokenizador de vídeo, suporta conversão de vídeo com token contínuo e discreto
Scripts de pós-treinamento para modelos pré-treinados para adaptação a diferentes cenários físicos de IA
Ferramenta de processo de gerenciamento de conjunto de dados de vídeo (em breve)
Scripts de treinamento completos com suporte para a criação de modelos de base mundial personalizados
Sistema de proteção de segurança integrado para garantir a segurança do conteúdo gerado
Suporta vários tamanhos de modelo (parâmetros 4B/5B/12B/13B) para acomodar diferentes configurações de hardware
Estratégia flexível de descarregamento de modelos para suportar a operação em ambientes com pouca memória gráfica

Usando a Ajuda

1. configuração ambiental

Primeiro, você precisa configurar o ambiente do Docker. Siga o guia de instalação para configurar o ambiente necessário. Todos os comandos precisam ser executados no Docker.

2. downloads de modelos

Gerar tokens de acesso ao Hugging Face com permissões de "Leitura".
Use o seguinte comando para fazer login no Hugging Face:

huggingface-cli login

Faça o download dos pesos do modelo Cosmos:

PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. tipos de modelos e cenários de uso

O Cosmos oferece dois tipos principais de modelos:

Modelos básicos

Versões do modelo: escalas paramétricas 4B e 12B
Principais recursos: Suporte para geração de mundo analógico a partir de entradas de imagem/vídeo
Cenários aplicáveis: necessidade de estender e prever cenas com base no conteúdo visual existente

Modelo Video2World

Versões do modelo: escalas paramétricas 5B e 13B
Principais recursos: Suporte ao uso simultâneo de entradas de texto e imagem/vídeo para gerar simulações de mundo
Cenário: necessidade de geração direcionada e modificação de conteúdo visual com base em descrições textuais

4. capacidade de geração e indicadores de desempenho

Suporta a geração de sequências de vídeo de até 33 quadros
Suporte de entrada para uma única imagem ou 9 quadros de vídeo
Resolução fixada em 1024x640
Tempo de inferência em GPUs H100:
- Modelo 4B: aproximadamente 62 segundos
- Modelo 12B: aproximadamente 119 segundos
- Modelo 5B Video2World: aprox. 73 segundos
- Modelo 13B Video2World: aprox. 150 segundos

5. estratégias de otimização de memória

O Cosmos oferece uma variedade de opções de otimização de memória que podem ser usadas para reduzir o espaço de memória por meio de diferentes estratégias de descarregamento de modelos:

Sem estratégia de otimização: o modelo 4B requer 31,3 GB, o modelo 12B requer 47,5 GB
Estratégia totalmente otimizada: até 18,7 GB para modelos 4B e 27,4 GB para modelos 12B
O modelo Video2World também oferece opções de otimização semelhantes

6. funções de segurança

Sistema de proteção de segurança integrado e não desativável
Detecção automática e desfoque do conteúdo facial
A filtragem de segurança de conteúdo garante que os resultados gerados estejam em conformidade com os padrões de segurança

Recursos mais recentes de IA # Serviços abertos de IA # Projeto de código aberto AI Java

O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.

Leave a trace (WeChatMsg): ferramentas de exportação e análise de registros de bate-papo do WeChat

Recursos mais recentes de IA # Projeto de código aberto AI Java

12 meses atrás

02.2K

Fast-Agent: gramática declarativa e integração de MCP para criar rapidamente fluxos de trabalho corporais multiinteligentes

Recursos mais recentes de IA # Projeto de código aberto AI Java Estrutura de desenvolvimento do corpo inteligente #

5 meses atrás

01.2K

Kozy: uma ferramenta on-line para editar rapidamente vídeos curtos com descrições de texto

Recursos mais recentes de IA Editor de áudio/vídeo # AI

4 meses atrás

01.1K

Secret Tower Writing Cat: companheiro de escrita inteligente de IA, software veterano de assistência à escrita com IA

Recursos mais recentes de IA # AI Writing

12 meses atrás

01.9K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Cosmos: World Base Model, uma plataforma para criar modelos de base de IA do mundo físico

Introdução geral

Lista de funções