Aprendizagem pessoal com IA
e orientação prática

DisPose: geração de vídeos com controle preciso da postura humana, criando damas dançantes

Introdução geral

O DisPose é um projeto inovador de inteligência artificial de código aberto voltado para a geração controlada de animação de imagens de personagens. Desenvolvido por uma equipe de pesquisadores e com código aberto no GitHub, o projeto emprega técnicas avançadas de aprendizagem profunda para obter um controle preciso da animação de personagens por meio da decomposição das informações de pose do esqueleto. A principal inovação do DisPose é decompor as informações esparsas de pose do esqueleto em dois componentes principais, a saber, orientação de campo de movimento e correspondência de ponto-chave, e essa abordagem exclusiva resulta em uma animação mais natural e suave com maior controle. Essa abordagem exclusiva torna a animação gerada mais natural e suave, além de mais controlável. O projeto não apenas fornece uma implementação completa do código, mas também inclui modelos pré-treinados para permitir que pesquisadores e desenvolvedores implantem e usem essa tecnologia rapidamente.

Itens semelhantes:StableAnimator: gera animação de vídeo de alta qualidade que mantém as características do personagem.


DisPose: geração de vídeos com controle preciso da postura humana, criando damas dançantes-1

 

Lista de funções

  • Detecção de postura humana e extração de pontos-chave
  • Geração e controle de campos esportivos
  • Composição de animação de imagens de personagens
  • Controle preciso de várias articulações
  • Detalhamento do rosto e das mãos
  • Capacidade de processamento de vídeo em lote
  • Migração postural e redirecionamento de movimentos
  • Estimativa e rastreamento de atitude em tempo real
  • Ajuste do parâmetro de controle de animação personalizado
  • Saída de animação de alta qualidade

 

Usando a Ajuda

1. configuração ambiental

O DisPose requer a seguinte configuração básica do ambiente:

  • Python 3.10 ou superior
  • PyTorch 2.0.1 e superior
  • TorchVision 0.15.2 e superior
  • CUDA 12.4 (para aceleração de GPU)

Etapas de instalação:

# Criar ambiente conda
conda create -n dispose python==3.10
conda activate dispose
O # instala as dependências
pip install -r requirements.txt

2. preparação do modelo

  1. Faça o download do arquivo de pesos do modelo pré-treinado do Hugging Face:
    • Visite https://huggingface.co/lihxxx/DisPose
    • Faça o download do arquivo DisPose.pth
    • Coloque o arquivo no diretório . /pretrained_weights/

3. fluxos de uso da funcionalidade principal

3.1 Detecção de atitude

O sistema usa um detector DWPose para a detecção da postura humana que identifica os seguintes pontos-chave:

  • Pontos de articulação do esqueleto do corpo (18)
  • Pontos de características faciais (68)
  • Pontos principais da mão (21/mão)

3.2 Pré-processamento de imagens

# Processamento da imagem de referência
ref_image = load_image(image_path)
pose_img, ref_pose = get_image_pose(ref_image)

3.3 Processamento de vídeo

# Processamento de sequências de vídeo
video_pose, body_points, face_points = get_video_pose(
video_path=video_path, ref_image=ref_image, ref_image
ref_image=ref_image,
sample_stride=1
)

3.4 Controle de geração de animação

O sistema fornece vários parâmetros para controlar a geração de animação:

  • Regulamentação da intensidade do estádio
  • Os pontos-chave correspondem aos pesos
  • Grau de migração postural
  • Suavidade do tempo

4. descrição das funções avançadas

  1. Migração de postura:
    • Suporta a migração de pose do vídeo de origem para o personagem de destino
    • Manter a identidade do personagem inalterada
    • Adapta-se automaticamente a diferentes diferenças de tamanho corporal
  2. Editor de ações:
    • Apoio à modificação de ações locais
    • Fornecer a função de edição de quadro-chave
    • Velocidade e amplitude de movimento ajustáveis
  3. Capacidade de processamento em lote:
    • Suporte ao processamento de vídeo em lote
    • Oferece opções de processamento paralelo
    • Otimização automática do agendamento de recursos

5 Cuidados

  • Certifique-se de que a qualidade da imagem de entrada seja clara e que a pose da pessoa esteja totalmente visível
  • Recomenda-se que a memória de vídeo da GPU seja de pelo menos 8 GB ou mais
  • Ajuste o parâmetro sample_stride ao processar vídeo de alta resolução.
  • Verifique e atualize regularmente a versão dos pacotes de dependência
  • Recomenda-se a realização de testes em pequena escala antes de processar grandes quantidades de dados

6. resolução de problemas comuns

  1. Problemas de memória:
    • Liberar recursos não utilizados com release_memory()
    • Redimensione os lotes adequadamente
    • Testes com baixa resolução
  2. Otimização do desempenho:
    • Ativar a aceleração da GPU
    • Use o tamanho adequado da etapa de amostragem
    • Resolução de imagem de entrada otimizada
  3. Melhoria da qualidade:
    • Uso de imagens de referência de alta qualidade
    • Ajuste dos parâmetros do modelo
    • Realizar a otimização do pós-processamento
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " DisPose: geração de vídeos com controle preciso da postura humana, criando damas dançantes

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil