Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

SkyReels V2: uma ferramenta de IA de código aberto para gerar vídeos de comprimento ilimitado

Introdução geral

O SkyReels-V2 é um modelo de geração de vídeo de código aberto desenvolvido pela SkyworkAI. Ele suporta a geração de vídeos de duração ilimitada por meio de técnicas avançadas de forçamento de difusão para tarefas de texto para vídeo (T2V) e imagem para vídeo (I2V). Os usuários podem gerar conteúdo de vídeo de alta qualidade e com qualidade de cinema usando descrições de texto ou imagens de entrada. O modelo tem um histórico sólido na comunidade de código aberto, com desempenho comparável ao de modelos comerciais como Kling e Runway-Gen4. Ele oferece padrões de inferência flexíveis adequados para desenvolvedores, criadores e pesquisadores, e o código e os pesos do modelo do SkyReels-V2 estão disponíveis publicamente no GitHub para facilitar o download e a implantação.

SkyReels V2: uma ferramenta de IA de código aberto para gerar vídeos de duração ilimitada-1


 

Lista de funções

  • Geração de vídeos com duração ilimitadaSuporte para geração de vídeos de qualquer tamanho, adequados para curtas-metragens e filmes completos.
  • Texto para vídeo (T2V)Geração de conteúdo de vídeo que corresponda à descrição por meio de prompts de texto.
  • Imagem para vídeo (I2V)Geração de vídeo dinâmico com base na imagem de entrada, mantendo as características da imagem.
  • suporte multimodalMLLM: Combinação de modelagem de linguagem em larga escala (MLLM) e aprendizado de reforço para melhorar a qualidade da geração de vídeo.
  • Geração de históriasGeração automática de storyboards de vídeo que se encaixam na lógica narrativa.
  • controle da câmeraPonto de vista do diretor: Fornece um ponto de vista do diretor com suporte para personalizar os ângulos e o movimento da câmera.
  • Coerência de vários assuntosSistema SkyReels-A2: Garanta a consistência visual em vídeos de múltiplas funções com o sistema SkyReels-A2.
  • Estrutura de raciocínio eficienteSuporte a raciocínio multi-GPU para otimizar a velocidade de geração e o uso de recursos.

 

Usando a Ajuda

Processo de instalação

O SkyReels-V2 é um projeto de código aberto baseado em Python. Você precisa configurar o ambiente localmente ou no servidor. Aqui estão as etapas detalhadas da instalação:

  1. armazém de clones
    Abra um terminal e execute o seguinte comando para obter o código SkyReels-V2:

    git clone https://github.com/SkyworkAI/SkyReels-V2
    cd SkyReels-V2
    
  2. Criação de um ambiente virtual
    Recomenda-se que você crie um ambiente virtual usando o Python 3.10.12 para evitar conflitos de dependência:

    conda create -n skyreels-v2 python=3.10
    conda activate skyreels-v2
    
  3. Instalação de dependências
    Instale as bibliotecas Python necessárias para o projeto e execute-o:

    pip install -r requirements.txt
    
  4. Download dos pesos do modelo
    Os pesos do modelo para o SkyReels-V2 estão hospedados no Hugging Face. Faça o download deles usando o seguinte comando:

    pip install -U "huggingface_hub[cli]"
    huggingface-cli download Skywork/SkyReels-V2 --local-dir ./models
    

    Certifique-se de que você tenha espaço suficiente em disco (os tamanhos dos modelos podem ser de dezenas de gigabytes).

  5. Requisitos de hardware
    • configuração mínimaRTX 4090 de bloco único (24 GB de VRAM) com suporte a FP8 para reduzir quantitativamente os requisitos de memória.
    • Configurações recomendadasGPUs: várias GPUs (por exemplo, 4-8 A100s) para dar suporte à inferência paralela eficiente.
    • Pelo menos 32 GB de memória do sistema e 100 GB de espaço em disco.

Uso

O SkyReels-V2 oferece duas funções principais: Texto para vídeo (T2V) e Imagem para vídeo (I2V). A seguir, o procedimento de operação específico:

Texto para vídeo (T2V)

  1. Preparação de dicas
    Escreva prompts de texto que descrevam o conteúdo do vídeo, por exemplo:

    A serene lake surrounded by towering mountains, with swans gliding across the water.
    

    Pistas negativas podem ser adicionadas para evitar elementos indesejados:

    low quality, deformation, bad composition
    
  2. Executar o script gerado
    modificações generate_video.py definindo resolução, taxa de quadros, etc:

    python generate_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-540P" --prompt "A serene lake surrounded by mountains" --num_frames 97 --fps 24 --outdir ./output
    
    • --model_idSelecione o modelo (por exemplo, 540P ou 720P).
    • --num_framesTaxa de quadros: Defina a taxa de quadros do vídeo (padrão 97).
    • --fpsTaxa de quadros: Taxa de quadros (padrão 24).
    • --outdirCaminho de salvamento do vídeo de saída.
  3. Exibir saída
    O vídeo gerado será salvo no formato MP4, por exemplo. output/serene_lake_42_0.mp4.

Imagem para vídeo (I2V)

  1. Preparação da imagem de entrada
    Forneça uma imagem de alta qualidade (por exemplo, PNG ou JPG), garantindo que a resolução corresponda ao modelo (padrão 960x544).
  2. Executar o script gerado
    existir generate_video.py Especifique o caminho da imagem no campo

    python generate_video.py --model_id "Skywork/SkyReels-V2-I2V-14B-540P" --prompt "A warrior fighting in a forest" --image ./input_image.jpg --num_frames 97 --fps 24 --outdir ./output
    
    • --imageDigite o caminho da imagem.
    • Outros parâmetros são semelhantes aos do T2V.
  3. Configurações de otimização
    • fazer uso de --guidance_scale(Padrão 6,0) Ajusta a intensidade da direção do texto.
    • fazer uso de --inference_steps(padrão 30) Controla a qualidade da geração; quanto mais etapas, maior a qualidade, mas mais tempo leva.
    • começar a usar --offload Uso otimizado da memória para dispositivos com pouca memória gráfica.

Operação da função em destaque

  1. Vídeo de duração ilimitada
    O SkyReels-V2 usa a tecnologia Diffusion Forcing para dar suporte à geração de vídeos muito longos. Execute scripts de inferência de vídeos longos:

    python inference_long_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-720P" --prompt "A sci-fi movie scene" --num_frames 1000
    
    • Recomenda-se gerá-los em segmentos de 97 a 192 quadros cada e, em seguida, uni-los com ferramentas de pós-produção.
  2. Geração de histórias
    Use o recurso Story Generation do sistema SkyReels-A2 para inserir uma descrição do enredo:

    A hero’s journey through a futuristic city, facing challenges.
    

    Em execução:

    python story_generate.py --prompt "A hero’s journey" --output story_video.mp4
    

    O sistema gerará vídeos contendo storyboards, organizando automaticamente cenas e tomadas.

  3. controle da câmera
    aprovar (um projeto de lei ou inspeção etc.) --camera_angle define a visualização da lente (por exemplo, "frontal" ou "perfil"):

    python generate_video.py --prompt "A car chase" --camera_angle "profile" --outdir ./output
    
  4. Coerência de vários assuntos
    O SkyReels-A2 suporta cenas com vários caracteres. Fornece várias imagens de referência para execução:

    python multi_subject.py --prompt "Two characters talking" --images "char1.jpg,char2.jpg" --outdir ./output
    

    Certifique-se de que os personagens sejam visualmente consistentes no vídeo.

Otimização e depuração

  • déficit de memória: Habilitar --quant Quantificação usando FP8, ou --offload Transferir alguns cálculos para a CPU.
  • Geração de qualidade: Aumentar --inference_steps(por exemplo, 50) ou ajustar --guidance_scale(por exemplo, 8.0).
  • Suporte à comunidadeVerifique se há problemas no GitHub Issues ou participe do grupo de discussão SkyReels Discussão na comunidade.

 

cenário do aplicativo

  1. Criação de vídeos curtos
    Os criadores podem usar o recurso T2V para gerar rapidamente clipes de vídeo curtos a partir do texto, adequados para a produção de conteúdo de mídia social.
  2. Pré-produção de filmes
    Os diretores podem usar os recursos de geração de histórias e vídeos de duração ilimitada para criar trailers de filmes ou filmes conceituais, reduzindo os custos iniciais.
  3. Vitrine virtual de comércio eletrônico
    Use a função I2V para transformar imagens de produtos em vídeos dinâmicos para mostrar como o produto é usado em uma cena virtual.
  4. Animação educacional
    Os professores podem gerar animações instrucionais a partir de descrições de texto para visualizar conceitos complexos, como o processo de um experimento científico.
  5. desenvolvimento de jogos
    Os desenvolvedores podem gerar cenas de jogos ou animações de personagens para serem usadas como material para protótipos ou transições.

 

QA

  1. Quais resoluções o SkyReels-V2 suporta?
    Atualmente, suporta 540P (960x544) e 720P (1280x720), com a possibilidade de expansão para resoluções mais altas no futuro.
  2. Quanta memória de vídeo é necessária para executá-lo?
    Uma única RTX 4090 (24 GB) pode executar o raciocínio básico, e as configurações de várias GPUs podem acelerar o vídeo bruto e o vídeo adulto.
  3. Como melhorar a qualidade dos vídeos gerados?
    Aumentar o número de etapas de raciocínio (--inference_steps), otimizar as palavras do prompt ou usar imagens de entrada de alta qualidade.
  4. Ele oferece suporte à geração em tempo real?
    Atualmente, a geração off-line, a geração em tempo real requer maior suporte de hardware e pode ser otimizada no futuro.
  5. Os pesos do modelo são gratuitos?
    Sim, o SkyReels-V2 é totalmente de código aberto e os pesos podem ser baixados gratuitamente do Hugging Face.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " SkyReels V2: uma ferramenta de IA de código aberto para gerar vídeos de comprimento ilimitado
pt_BRPortuguês do Brasil