Introdução geral
O Step-Video-T2V é um modelo avançado de conversão de texto em vídeo da StepFun AI (Step Star). O modelo tem 3 bilhões de parâmetros e é capaz de gerar vídeos de até 204 fps. Com um Variable Auto-Encoder (VAE) profundamente compactado, o modelo alcança uma compactação espacial de 16x16 e uma compactação temporal de 8x, o que melhora a eficiência do treinamento e da inferência. O Step-Video-T2V tem um bom desempenho no campo da geração de vídeo, especialmente em termos de movimento e eficiência do vídeo. No entanto, ainda há alguns desafios para lidar com movimentos complexos. O modelo é de código aberto e os usuários podem acessar e contribuir com o código no GitHub.
Lista de funções
- Geração de vídeo de alta qualidade: gere vídeos de até 204 fps usando 3 bilhões de parâmetros.
- Técnica de compressão profunda: compressão espacial de 16x16 e compressão temporal de 8x usando um autocodificador variacional de compressão profunda.
- Suporte bilíngue: oferece suporte a alertas de texto em inglês e chinês.
- Código aberto e suporte da comunidade: modelos e conjuntos de dados de referência são de código aberto para promover a inovação e capacitar os criadores.
Usando a Ajuda
Processo de instalação
- Clonagem de repositórios do GitHub:
git clone https://github.com/stepfun-ai/Step-Video-T2V.git
- Vá para o catálogo de projetos:
cd Step-Video-T2V
- Criar e ativar um ambiente virtual:
conda create -n stepvideo python=3.10 conda activate stepvideo
- Instale a dependência:
pip install -e . pip install flash-attn --no-build-isolation ## flash-attn é opcional
Diretrizes para uso
Gerar vídeo
- Preparar prompts de texto para serem salvos em um arquivo, por exemplo
prompt.txt
::Aviões voando no céu azul
- Execute o script de geração de vídeo:
python generate_video.py --input prompt.txt --output video.mp4
Fluxo de operação detalhado da função
- Gerar vídeo de alta qualidade::
- Entrada de texto: o usuário insere o texto que descreve o conteúdo do vídeo.
- Processamento do modelo: o modelo Step-Video-T2V analisa o texto e gera o vídeo.
- Saída de vídeo: o vídeo gerado é salvo no formato MP4, que pode ser visualizado e compartilhado pelos usuários a qualquer momento.
- Tecnologia de compressão profunda::
- Compactação espacial: Aumente a eficiência da geração de vídeo por meio da tecnologia de compactação espacial 16x16.
- Compressão temporal: a velocidade e a qualidade da geração de vídeo são otimizadas ainda mais por meio da tecnologia de compressão temporal de 8x.
- Suporte bilíngue::
- Suporte em inglês: os usuários podem inserir texto em inglês, e o modelo analisa e gera automaticamente o vídeo correspondente.
- Suporte em chinês: os usuários podem inserir texto em chinês, e o modelo também pode gerar o vídeo correspondente, para atender às necessidades de usuários multilíngues.
- Código aberto e suporte da comunidade::
- Código-fonte aberto: os usuários podem acessar o código completo do modelo no GitHub para implementá-lo e modificá-lo por conta própria.
- Contribuição da comunidade: os usuários podem enviar contribuições de código para participar do aprimoramento e da otimização do modelo.
Inferência e quantificação em uma única GPU
O projeto Step-Video-T2V é compatível com a inferência e a quantificação de uma única GPU, reduzindo significativamente a quantidade de memória gráfica necessária. ConsulteExemplos relacionadosObter detalhes.
Configurações de raciocínio de melhores práticas
O Step-Video-T2V tem bom desempenho na configuração de inferência, gerando consistentemente vídeos dinâmicos e de alta fidelidade. No entanto, nossos experimentos mostram que as variações nos hiperparâmetros de inferência afetam a qualidade da geração.
Modelos | inferir_passos | cfg_scale | turno_de_tempo | num_frames |
---|---|---|---|---|
Step-Video-T2V | 30-50 | 9.0 | 13.0 | 204 |
Step-Video-T2V-Turbo (etapa de inferência) Destilação) | 10-15 | 5.0 | 17.0 | 204 |
Download do modelo
modelagem | Cara de abraço | 🤖 Modelos de escopo |
---|---|---|
Step-Video-T2V | download | download |
Step-Video-T2V-Turbo (Destilação por etapas de inferência) | download | download |