Introdução geral
O SkyReels-V2 é um modelo de geração de vídeo de código aberto desenvolvido pela SkyworkAI. Ele suporta a geração de vídeos de duração ilimitada por meio de técnicas avançadas de forçamento de difusão para tarefas de texto para vídeo (T2V) e imagem para vídeo (I2V). Os usuários podem gerar conteúdo de vídeo de alta qualidade e com qualidade de cinema usando descrições de texto ou imagens de entrada. O modelo tem um histórico sólido na comunidade de código aberto, com desempenho comparável ao de modelos comerciais como Kling e Runway-Gen4. Ele oferece padrões de inferência flexíveis adequados para desenvolvedores, criadores e pesquisadores, e o código e os pesos do modelo do SkyReels-V2 estão disponíveis publicamente no GitHub para facilitar o download e a implantação.
Lista de funções
- Geração de vídeos com duração ilimitadaSuporte para geração de vídeos de qualquer tamanho, adequados para curtas-metragens e filmes completos.
- Texto para vídeo (T2V)Geração de conteúdo de vídeo que corresponda à descrição por meio de prompts de texto.
- Imagem para vídeo (I2V)Geração de vídeo dinâmico com base na imagem de entrada, mantendo as características da imagem.
- suporte multimodalMLLM: Combinação de modelagem de linguagem em larga escala (MLLM) e aprendizado de reforço para melhorar a qualidade da geração de vídeo.
- Geração de históriasGeração automática de storyboards de vídeo que se encaixam na lógica narrativa.
- controle da câmeraPonto de vista do diretor: Fornece um ponto de vista do diretor com suporte para personalizar os ângulos e o movimento da câmera.
- Coerência de vários assuntosSistema SkyReels-A2: Garanta a consistência visual em vídeos de múltiplas funções com o sistema SkyReels-A2.
- Estrutura de raciocínio eficienteSuporte a raciocínio multi-GPU para otimizar a velocidade de geração e o uso de recursos.
Usando a Ajuda
Processo de instalação
O SkyReels-V2 é um projeto de código aberto baseado em Python. Você precisa configurar o ambiente localmente ou no servidor. Aqui estão as etapas detalhadas da instalação:
- armazém de clones
Abra um terminal e execute o seguinte comando para obter o código SkyReels-V2:git clone https://github.com/SkyworkAI/SkyReels-V2 cd SkyReels-V2
- Criação de um ambiente virtual
Recomenda-se que você crie um ambiente virtual usando o Python 3.10.12 para evitar conflitos de dependência:conda create -n skyreels-v2 python=3.10 conda activate skyreels-v2
- Instalação de dependências
Instale as bibliotecas Python necessárias para o projeto e execute-o:pip install -r requirements.txt
- Download dos pesos do modelo
Os pesos do modelo para o SkyReels-V2 estão hospedados no Hugging Face. Faça o download deles usando o seguinte comando:pip install -U "huggingface_hub[cli]" huggingface-cli download Skywork/SkyReels-V2 --local-dir ./models
Certifique-se de que você tenha espaço suficiente em disco (os tamanhos dos modelos podem ser de dezenas de gigabytes).
- Requisitos de hardware
- configuração mínimaRTX 4090 de bloco único (24 GB de VRAM) com suporte a FP8 para reduzir quantitativamente os requisitos de memória.
- Configurações recomendadasGPUs: várias GPUs (por exemplo, 4-8 A100s) para dar suporte à inferência paralela eficiente.
- Pelo menos 32 GB de memória do sistema e 100 GB de espaço em disco.
Uso
O SkyReels-V2 oferece duas funções principais: Texto para vídeo (T2V) e Imagem para vídeo (I2V). A seguir, o procedimento de operação específico:
Texto para vídeo (T2V)
- Preparação de dicas
Escreva prompts de texto que descrevam o conteúdo do vídeo, por exemplo:A serene lake surrounded by towering mountains, with swans gliding across the water.
Pistas negativas podem ser adicionadas para evitar elementos indesejados:
low quality, deformation, bad composition
- Executar o script gerado
modificaçõesgenerate_video.py
definindo resolução, taxa de quadros, etc:python generate_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-540P" --prompt "A serene lake surrounded by mountains" --num_frames 97 --fps 24 --outdir ./output
--model_id
Selecione o modelo (por exemplo, 540P ou 720P).--num_frames
Taxa de quadros: Defina a taxa de quadros do vídeo (padrão 97).--fps
Taxa de quadros: Taxa de quadros (padrão 24).--outdir
Caminho de salvamento do vídeo de saída.
- Exibir saída
O vídeo gerado será salvo no formato MP4, por exemplo.output/serene_lake_42_0.mp4
.
Imagem para vídeo (I2V)
- Preparação da imagem de entrada
Forneça uma imagem de alta qualidade (por exemplo, PNG ou JPG), garantindo que a resolução corresponda ao modelo (padrão 960x544). - Executar o script gerado
existirgenerate_video.py
Especifique o caminho da imagem no campopython generate_video.py --model_id "Skywork/SkyReels-V2-I2V-14B-540P" --prompt "A warrior fighting in a forest" --image ./input_image.jpg --num_frames 97 --fps 24 --outdir ./output
--image
Digite o caminho da imagem.- Outros parâmetros são semelhantes aos do T2V.
- Configurações de otimização
- fazer uso de
--guidance_scale
(Padrão 6,0) Ajusta a intensidade da direção do texto. - fazer uso de
--inference_steps
(padrão 30) Controla a qualidade da geração; quanto mais etapas, maior a qualidade, mas mais tempo leva. - começar a usar
--offload
Uso otimizado da memória para dispositivos com pouca memória gráfica.
- fazer uso de
Operação da função em destaque
- Vídeo de duração ilimitada
O SkyReels-V2 usa a tecnologia Diffusion Forcing para dar suporte à geração de vídeos muito longos. Execute scripts de inferência de vídeos longos:python inference_long_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-720P" --prompt "A sci-fi movie scene" --num_frames 1000
- Recomenda-se gerá-los em segmentos de 97 a 192 quadros cada e, em seguida, uni-los com ferramentas de pós-produção.
- Geração de histórias
Use o recurso Story Generation do sistema SkyReels-A2 para inserir uma descrição do enredo:A hero’s journey through a futuristic city, facing challenges.
Em execução:
python story_generate.py --prompt "A hero’s journey" --output story_video.mp4
O sistema gerará vídeos contendo storyboards, organizando automaticamente cenas e tomadas.
- controle da câmera
aprovar (um projeto de lei ou inspeção etc.)--camera_angle
define a visualização da lente (por exemplo, "frontal" ou "perfil"):python generate_video.py --prompt "A car chase" --camera_angle "profile" --outdir ./output
- Coerência de vários assuntos
O SkyReels-A2 suporta cenas com vários caracteres. Fornece várias imagens de referência para execução:python multi_subject.py --prompt "Two characters talking" --images "char1.jpg,char2.jpg" --outdir ./output
Certifique-se de que os personagens sejam visualmente consistentes no vídeo.
Otimização e depuração
- déficit de memória: Habilitar
--quant
Quantificação usando FP8, ou--offload
Transferir alguns cálculos para a CPU. - Geração de qualidade: Aumentar
--inference_steps
(por exemplo, 50) ou ajustar--guidance_scale
(por exemplo, 8.0). - Suporte à comunidadeVerifique se há problemas no GitHub Issues ou participe do grupo de discussão SkyReels Discussão na comunidade.
cenário do aplicativo
- Criação de vídeos curtos
Os criadores podem usar o recurso T2V para gerar rapidamente clipes de vídeo curtos a partir do texto, adequados para a produção de conteúdo de mídia social. - Pré-produção de filmes
Os diretores podem usar os recursos de geração de histórias e vídeos de duração ilimitada para criar trailers de filmes ou filmes conceituais, reduzindo os custos iniciais. - Vitrine virtual de comércio eletrônico
Use a função I2V para transformar imagens de produtos em vídeos dinâmicos para mostrar como o produto é usado em uma cena virtual. - Animação educacional
Os professores podem gerar animações instrucionais a partir de descrições de texto para visualizar conceitos complexos, como o processo de um experimento científico. - desenvolvimento de jogos
Os desenvolvedores podem gerar cenas de jogos ou animações de personagens para serem usadas como material para protótipos ou transições.
QA
- Quais resoluções o SkyReels-V2 suporta?
Atualmente, suporta 540P (960x544) e 720P (1280x720), com a possibilidade de expansão para resoluções mais altas no futuro. - Quanta memória de vídeo é necessária para executá-lo?
Uma única RTX 4090 (24 GB) pode executar o raciocínio básico, e as configurações de várias GPUs podem acelerar o vídeo bruto e o vídeo adulto. - Como melhorar a qualidade dos vídeos gerados?
Aumentar o número de etapas de raciocínio (--inference_steps
), otimizar as palavras do prompt ou usar imagens de entrada de alta qualidade. - Ele oferece suporte à geração em tempo real?
Atualmente, a geração off-line, a geração em tempo real requer maior suporte de hardware e pode ser otimizada no futuro. - Os pesos do modelo são gratuitos?
Sim, o SkyReels-V2 é totalmente de código aberto e os pesos podem ser baixados gratuitamente do Hugging Face.