Introdução geral
O SkyReels-V1 é um projeto de código aberto desenvolvido pela equipe da SkyworkAI, focado na geração de conteúdo de vídeo de alta qualidade e centrado no ser humano. O projeto é baseado em HunyuanVídeo O SkyMovie é o primeiro modelo de base de vídeo de ação humana do mundo, criado pelo ajuste fino de dezenas de milhões de clipes de filmes e TV de alta qualidade. A natureza de código aberto do SkyReels-V1 faz com que ele se destaque de outras ferramentas de sua classe e o torna adequado para criadores, educadores e pesquisadores de IA para uso em esboços, animações ou exploração de tecnologia. O projeto está hospedado no GitHub. O projeto está hospedado no GitHub e fornece código detalhado, pesos de modelo e documentação para que os usuários possam começar rapidamente.
Lista de funções
- Texto para vídeo (T2V)Geração de vídeos animados com base em descrições textuais inseridas pelo usuário, como "Um gato usando óculos escuros trabalha como salva-vidas na piscina".
- Imagem para vídeo (I2V)Converta imagens estáticas em vídeo em movimento, preservando os recursos originais da imagem e adicionando movimento natural.
- Animação facial avançadaExpressões sutis: Suporta 33 expressões sutis e mais de 400 combinações de movimentos, reproduzindo com precisão as emoções humanas e a linguagem corporal.
- Imagem com qualidade de cinemaTreinamento com dados de alta qualidade de cinema e televisão para fornecer composição profissional, efeitos de iluminação e senso de câmera.
- Estrutura de raciocínio eficienteGeração rápida de vídeo por meio do SkyReelsInfer, com suporte à computação paralela multi-GPU para melhorar a eficiência da geração.
- Ajuste flexível de parâmetrosParâmetros definíveis pelo usuário, como resolução de vídeo (por exemplo, 544x960), taxa de quadros (por exemplo, 97 fps) e escala de guia.
- Ponderação de modelos de código aberto: Fornecer modelos pré-treinados para download direto e desenvolvimento secundário pelos desenvolvedores.
Usando a Ajuda
Processo de instalação
O SkyReels-V1 é uma ferramenta baseada em Python que requer algum suporte de ambiente de hardware e software. Veja a seguir as etapas detalhadas de instalação e uso:
Requisitos ambientais
- softwareRecomenda-se o uso de computadores com GPUs NVIDIA, como RTX 4090 ou A800, para garantir o suporte a CUDA.
- sistema operacionalWindows, Linux ou macOS (o último pode exigir configuração adicional).
- dependência de softwarePython 3.10+, CUDA 12.2, PyTorch, Git.
Etapas de instalação
- armazém de clones
Abra um terminal e digite o seguinte comando para fazer o download do código do projeto SkyReels-V1:
git clone https://github.com/SkyworkAI/SkyReels-V1.git
cd SkyReels-V1
Isso criará uma pasta de projeto localmente.
- Criação de um ambiente virtual(Opcional, mas recomendado)
Para evitar conflitos de dependência, recomenda-se um ambiente virtual:
conda create -n skyreels python=3.10
conda activate skyreels
- Instalação de dependências
O projeto oferece umrequisitos.txt
execute o seguinte comando para instalar as bibliotecas necessárias:
pip install -r requirements.txt
Certifique-se de que a rede esteja aberta, pois pode levar alguns minutos para concluir a instalação.
- Download dos pesos do modelo
Os pesos do modelo para o SkyReels-V1 estão hospedados no Hugging Face e podem ser baixados localmente manualmente ou especificando o caminho diretamente no código. Acesso Página de modelo do Hugging FaceBaixarSkyReels-V1-Hunyuan-T2V
colocada no diretório do projeto (por exemplo/path/to/SkyReels-V1/models
). - Verificar a instalação
Execute o comando de exemplo para testar se o ambiente está funcionando:
python3 video_generate.py ---model_id . /models/SkyReels-V1-Hunyuan-T2V --prompt "FPS-24, Um cachorro correndo em um parque"
Se nenhum erro for relatado e um vídeo for gerado, a instalação foi bem-sucedida.
Operação das principais funções
Texto para vídeo (T2V)
- Preparação de dicas
Escreva uma deixa que descreva o conteúdo do vídeo, que deve começar com "FPS-24", por exemplo:
FPS-24, Um gato usando óculos escuros e trabalhando como salva-vidas em uma piscina
- Execute o comando generate
Digite o seguinte comando no terminal:
python3 video_generate.py
---model_id /path/to/SkyReels-V1-Hunyuan-T2V
--guidance_scale 6.0
--height 544
--width 960
--num_frames 97
--prompt "FPS-24, Um gato usando óculos escuros e trabalhando como salva-vidas em uma piscina"
--embedded_guidance_scale 1.0
--quant --offload --high_cpu_memory
--gpu_num 1
--guidance_scale
Controle da intensidade da direção do texto; recomenda-se 6,0.--Altura
responder cantando--largura
Resolução de vídeo: define a resolução de vídeo, padrão 544x960.--num_frames
Gera quadros, 97 quadros equivalem a aproximadamente 4 segundos de vídeo (24 FPS).--quant
e-descarregar
Otimização do uso da memória para dispositivos de baixo custo.
- resultado de saída
O vídeo gerado será salvo no arquivoresultados/skyreels
com um nome de arquivo de palavra-chave + valor de semente, por exemplo.FPS-24_A_cat_wearing_sunglasses_42_0.mp4
.
Imagem para vídeo (I2V)
- Preparação da imagem
Faça upload de uma imagem estática (por exemplo, PNG ou JPG), certificando-se de que seja nítida, com uma resolução recomendada próxima a 544x960. - Executar comando
aumentar---task_type i2v
responder cantando--imagem
parâmetros, por exemplo:
python3 video_generate.py
--model_id /path/to/SkyReels-V1-Hunyuan-T2V
---task_type i2v
--guidance_scale 6.0
--height 544
--width 960
--num_frames 97
--prompt "FPS-24, Uma pessoa dançando"
--image . /input/cat_photo.png
--embedded_guidance_scale 1.0
- Exibir resultados
O vídeo de saída gerará conteúdo dinâmico com base na imagem, também salva no arquivoresultados/skyreels
Pasta.
Ajuste de parâmetros para otimizar os resultados
- Taxa de quadros e duração:: Modificações
--num_frames
responder cantando--fps
(padrão 24), ou 240 fps para vídeos de 10 segundos. - qualidade da imagem:: Aumentar
--num_inference_steps
(padrão 30), que melhora os detalhes, mas leva mais tempo. - Suporte a várias GPUs: Configurações
--gpu_num
para o número de GPUs disponíveis para acelerar o processamento.
Operação da função em destaque
Animação facial avançada
O destaque central do SkyReels-V1 é seu recurso de animação facial. A sugestão descreve uma expressão específica (por exemplo, "surpreso" ou "sorrindo") e o modelo gera automaticamente uma das 33 expressões com movimentos naturais. Por exemplo:
FPS-24, Uma mulher rindo alegremente em um café
Uma vez gerados, os personagens do vídeo exibem sorrisos realistas e micromovimentos corporais com detalhes comparáveis à ação ao vivo.
Gráficos com qualidade de cinema
Sem a necessidade de configuração adicional, o SkyReels-V1 produz um vídeo profissionalmente iluminado e composto por padrão. Adicione uma descrição da cena ao cue (por exemplo, "sob luzes de neon à noite") para obter uma aparência mais cinematográfica.
advertência
- Limitação de hardwareSe a memória da GPU for insuficiente (por exemplo, menos de 12 GB), é recomendável ativar a função
--quant
responder cantando-descarregar
ou reduzir a resolução para 512x320. - técnica de palavras-chaveDescrições concisas e específicas funcionam melhor, evite palavras vagas.
- Suporte à comunidadeVisite a página de problemas do GitHub para enviar comentários ou conferir as discussões da comunidade.
Com essas etapas, os usuários podem começar a usar facilmente o SkyReels-V1 e gerar conteúdo de vídeo de alta qualidade, seja para esboços curtos ou experimentos de animação.