Aprendizagem pessoal com IA
e orientação prática

STAR: Modelo de IA de aprimoramento de tempo espacial para melhorar a nitidez da resolução de vídeo

Introdução geral

O STAR (Spatial-Temporal Augmentation with Text-to-Video Models) é uma estrutura inovadora de super-resolução de vídeo desenvolvida em conjunto pela Nanjing University, ByteDance e Southwest University. O projeto se dedica a solucionar os principais problemas no processamento de super-resolução de vídeo do mundo real e alcança um aprimoramento de alta qualidade dos quadros de vídeo combinando o conhecimento a priori dos modelos de difusão de texto para vídeo (T2V). A característica distintiva do modelo STAR está em sua capacidade de manter simultaneamente a fidelidade dos detalhes espaciais e a consistência temporal, o que geralmente é difícil de conciliar com as abordagens tradicionais baseadas em GAN. O projeto oferece duas versões de implementação: um modelo de processamento de redução de qualidade leve e pesada com base no I2VGen-XL e um modelo de processamento de redução de qualidade pesada com base no CogVideoX-5B, que é capaz de se adaptar às necessidades de aprimoramento de vídeo em diferentes cenários.

STAR: Modelo de IA de aprimoramento de tempo espacial para nitidez de resolução de vídeo-1


 

Lista de funções

  • Oferece suporte à reconstrução de super-resolução para muitos tipos de processamento de degradação de vídeo (leve e pesado)
  • Geração automatizada de palavras-chave, suporte para geração de descrição de vídeo usando ferramentas como Pllava
  • Fornecimento de uma plataforma de demonstração on-line (HuggingFace Spaces)
  • Suporta processamento de entrada de vídeo com resolução de 720x480
  • Fornecer código de inferência completo e modelos pré-treinados
  • Integração do LIEM (Local Information Enhancement Module) para melhorar a qualidade da reconstrução detalhada da tela
  • Suporte ao processamento de vídeo em lote
  • Oferece opções flexíveis de ponderação de modelos

 

Usando a Ajuda

1. configuração ambiental

Primeiro, você precisa configurar o ambiente de tempo de execução da seguinte forma:

  1. Clonar o repositório de código:
git clone https://github.com/NJU-PCALab/STAR.git
cd STAR
  1. Crie e ative o ambiente conda:
conda create -n star python=3.10
conda activate star
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y

2. seleção e download de modelos

A STAR oferece duas versões do modelo:

  • Modelo baseado no I2VGen-XL:
    • light_deg.pt: para processamento de vídeo de degradação de luz
    • heavy_deg.pt: para processamento de vídeo com alta degradação
  • Modelo baseado no CogVideoX-5B:
    • Especificamente projetado para lidar com vídeos altamente degradados
    • Suporta somente entrada com resolução de 720x480

Baixe os pesos de modelo apropriados do HuggingFace e coloque-os no arquivopretrained_weight/Catálogo.

3. fluxo de processamento de vídeo

  1. Preparar dados de teste:
    • Coloque o vídeo a ser processado na seçãoentrada/vídeo/diretório (no disco rígido do computador)
    • Preparação da palavra-chave (três opções):
      • palavra não solicitada
      • Gerado automaticamente usando o Pllava
      • Escrever manualmente as descrições dos vídeos
  2. Configurar parâmetros de processamento:
    • modificaçõesvideo_super_resolution/scripts/inference_sr.shA configuração do caminho no
      • video_folder_path: caminho do vídeo de entrada
      • txt_file_path: caminho do arquivo de prompt
      • model_path: caminho do peso do modelo
      • save_dir: caminho para salvar a saída
  3. Iniciar o raciocínio:
bash video_super_resolution/scripts/inference_sr.sh

Observação: Se você encontrar um problema de estouro de memória (OOM), poderá adicionar um novo arquivo na pastainference_sr.shmidrange minor (em música)frame_lengthParâmetros.

4. configuração especial do modelo CogVideoX-5B

Se estiver usando o modelo CogVideoX-5B, são necessárias etapas adicionais:

  1. Crie um ambiente dedicado:
conda create -n star_cog python=3.10
conda activate star_cog
cd cogvideox-based/sat
pip install -r requirements.txt
  1. Faça o download de dependências adicionais:
  • Necessidade de fazer download do VAE e do codificador T5
  • atualizaçãocogvideox-based/sat/configs/cogvideox_5b/cogvideox_5b_infer_sr.yamlA configuração do caminho no
  • Substituindo o arquivo transformer.py
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " STAR: Modelo de IA de aprimoramento de tempo espacial para melhorar a nitidez da resolução de vídeo

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil