Step-Video-T2V: um modelo de vídeo de Vincennes que suporta entrada multilíngue e geração de vídeos longos

Recursos mais recentes de IAPublicado há 6 meses Círculo de compartilhamento de IA

1.8K 00

Introdução geral

O Step-Video-T2V é um modelo avançado de conversão de texto em vídeo da StepFun AI (Step Star). O modelo tem 3 bilhões de parâmetros e é capaz de gerar vídeos de até 204 fps. Com um Variable Auto-Encoder (VAE) profundamente compactado, o modelo alcança uma compactação espacial de 16x16 e uma compactação temporal de 8x, o que melhora a eficiência do treinamento e da inferência. O Step-Video-T2V tem um bom desempenho no campo da geração de vídeo, especialmente em termos de movimento e eficiência do vídeo. No entanto, ainda há alguns desafios para lidar com movimentos complexos. O modelo é de código aberto e os usuários podem acessar e contribuir com o código no GitHub.

Lista de funções

Geração de vídeo de alta qualidade: gere vídeos de até 204 fps usando 3 bilhões de parâmetros.
Técnica de compressão profunda: compressão espacial de 16x16 e compressão temporal de 8x usando um autocodificador variacional de compressão profunda.
Suporte bilíngue: oferece suporte a alertas de texto em inglês e chinês.
Código aberto e suporte da comunidade: modelos e conjuntos de dados de referência são de código aberto para promover a inovação e capacitar os criadores.

Usando a Ajuda

Processo de instalação

Clonagem de repositórios do GitHub:

git clone https://github.com/stepfun-ai/Step-Video-T2V.git

Vá para o catálogo de projetos:
```
cd Step-Video-T2V
```

Criar e ativar um ambiente virtual:

conda create -n stepvideo python=3.10
conda activate stepvideo

Instale a dependência:

pip install -e .
pip install flash-attn --no-build-isolation  ## flash-attn是可选的

Diretrizes para uso

Gerar vídeo

Preparar prompts de texto para serem salvos em um arquivo, por exemploprompt.txt::
```
飞机在蓝天中飞翔
```

Execute o script de geração de vídeo:

python generate_video.py --input prompt.txt --output video.mp4

Fluxo de operação detalhado da função

Gerar vídeo de alta qualidade::
- Entrada de texto: o usuário insere o texto que descreve o conteúdo do vídeo.
- Processamento do modelo: o modelo Step-Video-T2V analisa o texto e gera o vídeo.
- Saída de vídeo: o vídeo gerado é salvo no formato MP4, que pode ser visualizado e compartilhado pelos usuários a qualquer momento.
Tecnologia de compressão profunda::
- Compactação espacial: Aumente a eficiência da geração de vídeo por meio da tecnologia de compactação espacial 16x16.
- Compressão temporal: a velocidade e a qualidade da geração de vídeo são otimizadas ainda mais por meio da tecnologia de compressão temporal de 8x.
Suporte bilíngue::
- Suporte em inglês: os usuários podem inserir texto em inglês, e o modelo analisa e gera automaticamente o vídeo correspondente.
- Suporte em chinês: os usuários podem inserir texto em chinês, e o modelo também pode gerar o vídeo correspondente, para atender às necessidades de usuários multilíngues.
Código aberto e suporte da comunidade::
- Código-fonte aberto: os usuários podem acessar o código completo do modelo no GitHub para implementá-lo e modificá-lo por conta própria.
- Contribuição da comunidade: os usuários podem enviar contribuições de código para participar do aprimoramento e da otimização do modelo.

Inferência e quantificação em uma única GPU

O projeto Step-Video-T2V é compatível com a inferência e a quantificação de uma única GPU, reduzindo significativamente a quantidade de memória gráfica necessária. ConsulteExemplos relacionadosObter detalhes.

Configurações de raciocínio de melhores práticas

O Step-Video-T2V tem bom desempenho na configuração de inferência, gerando consistentemente vídeos dinâmicos e de alta fidelidade. No entanto, nossos experimentos mostram que as variações nos hiperparâmetros de inferência afetam a qualidade da geração.

Modelos	inferir_passos	cfg_scale	turno_de_tempo	num_frames
Step-Video-T2V	30-50	9.0	13.0	204
Step-Video-T2V-Turbo (etapa de inferência) Destilação)	10-15	5.0	17.0	204

Download do modelo

modelagem	Cara de abraço	🤖 Modelos de escopo
Step-Video-T2V	download	download
Step-Video-T2V-Turbo (Destilação por etapas de inferência)	download	download

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Inter AI - plataforma de desenho de IA, suporte a texto bilíngue em chinês e inglês para gerar imagens

Recursos mais recentes de IA

2 meses atrás

0864

Onlook: Cursor de código aberto para design de front-end, design e publicação de código em aplicativos React

Recursos mais recentes de IA # Projeto de código aberto AI Java # Design de página de IA

6 meses atrás

02.1K

Tabela de classificação do agente: Tabela de classificação da avaliação de desempenho do agente de IA

Recursos mais recentes de IA # Serviços abertos de IA

5 meses atrás

02.2K

Chatlog: ferramenta de código aberto para extrair e consultar os registros de bate-papo do WeChat

Recursos mais recentes de IA # Projeto de código aberto AI Java Serviços de MCP ## Extração e limpeza de documentos

4 meses atrás

02.3K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Step-Video-T2V: um modelo de vídeo de Vincennes que suporta entrada multilíngue e geração de vídeos longos

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Diretrizes para uso

Gerar vídeo

Fluxo de operação detalhado da função

Inferência e quantificação em uma única GPU

Configurações de raciocínio de melhores práticas

Download do modelo

OmniParser: capturas de tela da interface do usuário analisadas em elementos estruturados para facilitar a compreensão e a manipulação de modelos grandes

Bardeen AI: uma ferramenta de fluxo de trabalho de orquestração sem código focada em cenários de trabalho

Artigos relacionados

Inter AI - plataforma de desenho de IA, suporte a texto bilíngue em chinês e inglês para gerar imagens

Onlook: Cursor de código aberto para design de front-end, design e publicação de código em aplicativos React

Tabela de classificação do agente: Tabela de classificação da avaliação de desempenho do agente de IA

Chatlog: ferramenta de código aberto para extrair e consultar os registros de bate-papo do WeChat

Sem comentários

Últimas coleções

Artigos mais recentes

Step-Video-T2V: um modelo de vídeo de Vincennes que suporta entrada multilíngue e geração de vídeos longos

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Diretrizes para uso

Gerar vídeo

Fluxo de operação detalhado da função

Inferência e quantificação em uma única GPU

Configurações de raciocínio de melhores práticas

Download do modelo

OmniParser: capturas de tela da interface do usuário analisadas em elementos estruturados para facilitar a compreensão e a manipulação de modelos grandes

Bardeen AI: uma ferramenta de fluxo de trabalho de orquestração sem código focada em cenários de trabalho

Artigos relacionados

Inter AI - plataforma de desenho de IA, suporte a texto bilíngue em chinês e inglês para gerar imagens

Onlook: Cursor de código aberto para design de front-end, design e publicação de código em aplicativos React

Tabela de classificação do agente: Tabela de classificação da avaliação de desempenho do agente de IA

Chatlog: ferramenta de código aberto para extrair e consultar os registros de bate-papo do WeChat

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes