Aprendizagem pessoal com IA
e orientação prática
Recomendação de recursos 1

Step-Video-T2V: um modelo de vídeo de Vincennes que suporta entrada multilíngue e geração de vídeos longos

Introdução geral

O Step-Video-T2V é um modelo avançado de conversão de texto em vídeo da StepFun AI (Step Star). O modelo tem 3 bilhões de parâmetros e é capaz de gerar vídeos de até 204 fps. Com um Variable Auto-Encoder (VAE) profundamente compactado, o modelo alcança uma compactação espacial de 16x16 e uma compactação temporal de 8x, o que melhora a eficiência do treinamento e da inferência. O Step-Video-T2V tem um bom desempenho no campo da geração de vídeo, especialmente em termos de movimento e eficiência do vídeo. No entanto, ainda há alguns desafios para lidar com movimentos complexos. O modelo é de código aberto e os usuários podem acessar e contribuir com o código no GitHub.


 

Lista de funções

  • Geração de vídeo de alta qualidade: gere vídeos de até 204 fps usando 3 bilhões de parâmetros.
  • Técnica de compressão profunda: compressão espacial de 16x16 e compressão temporal de 8x usando um autocodificador variacional de compressão profunda.
  • Suporte bilíngue: oferece suporte a alertas de texto em inglês e chinês.
  • Código aberto e suporte da comunidade: modelos e conjuntos de dados de referência são de código aberto para promover a inovação e capacitar os criadores.

 

Usando a Ajuda

Processo de instalação

  1. Clonagem de repositórios do GitHub:
    git clone https://github.com/stepfun-ai/Step-Video-T2V.git
    
  2. Vá para o catálogo de projetos:
    cd Step-Video-T2V
    
  3. Criar e ativar um ambiente virtual:
    conda create -n stepvideo python=3.10
    conda activate stepvideo
    
  4. Instale a dependência:
    pip install -e .
    pip install flash-attn --no-build-isolation ## flash-attn é opcional
    

Diretrizes para uso

Gerar vídeo

  1. Preparar prompts de texto para serem salvos em um arquivo, por exemploprompt.txt::
    Aviões voando no céu azul
    
  2. Execute o script de geração de vídeo:
    python generate_video.py --input prompt.txt --output video.mp4
    

Fluxo de operação detalhado da função

  1. Gerar vídeo de alta qualidade::
    • Entrada de texto: o usuário insere o texto que descreve o conteúdo do vídeo.
    • Processamento do modelo: o modelo Step-Video-T2V analisa o texto e gera o vídeo.
    • Saída de vídeo: o vídeo gerado é salvo no formato MP4, que pode ser visualizado e compartilhado pelos usuários a qualquer momento.
  2. Tecnologia de compressão profunda::
    • Compactação espacial: Aumente a eficiência da geração de vídeo por meio da tecnologia de compactação espacial 16x16.
    • Compressão temporal: a velocidade e a qualidade da geração de vídeo são otimizadas ainda mais por meio da tecnologia de compressão temporal de 8x.
  3. Suporte bilíngue::
    • Suporte em inglês: os usuários podem inserir texto em inglês, e o modelo analisa e gera automaticamente o vídeo correspondente.
    • Suporte em chinês: os usuários podem inserir texto em chinês, e o modelo também pode gerar o vídeo correspondente, para atender às necessidades de usuários multilíngues.
  4. Código aberto e suporte da comunidade::
    • Código-fonte aberto: os usuários podem acessar o código completo do modelo no GitHub para implementá-lo e modificá-lo por conta própria.
    • Contribuição da comunidade: os usuários podem enviar contribuições de código para participar do aprimoramento e da otimização do modelo.

Inferência e quantificação em uma única GPU

O projeto Step-Video-T2V é compatível com a inferência e a quantificação de uma única GPU, reduzindo significativamente a quantidade de memória gráfica necessária. ConsulteExemplos relacionadosObter detalhes.

Configurações de raciocínio de melhores práticas

O Step-Video-T2V tem bom desempenho na configuração de inferência, gerando consistentemente vídeos dinâmicos e de alta fidelidade. No entanto, nossos experimentos mostram que as variações nos hiperparâmetros de inferência afetam a qualidade da geração.

Modelos inferir_passos cfg_scale turno_de_tempo num_frames
Step-Video-T2V 30-50 9.0 13.0 204
Step-Video-T2V-Turbo (etapa de inferência) Destilação) 10-15 5.0 17.0 204

Download do modelo

modelagem Cara de abraço 🤖 Modelos de escopo
Step-Video-T2V download download
Step-Video-T2V-Turbo (Destilação por etapas de inferência) download download
Conteúdo 2
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Step-Video-T2V: um modelo de vídeo de Vincennes que suporta entrada multilíngue e geração de vídeos longos

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil