ConsisID: un mapa de referencia de retratos para generar vídeos coherentes con los personajes, rápida integración multiterminal

Introducción general

ConsisID es un proyecto de código abierto desarrollado por el grupo de Yuan Rong en la Universidad de Pekín, cuyo objetivo es lograr una generación de texto a vídeo coherente con la identidad (IPT2V) mediante técnicas de descomposición de frecuencias. El núcleo del proyecto es un modelo basado en DiT (Diffusion Transformer), capaz de mantener la coherencia de identidad de los caracteres al generar vídeos. El proyecto ConsisID no sólo proporciona el código y el conjunto de datos completos, sino que también incluye directrices detalladas de instalación y uso para facilitar a los usuarios una rápida puesta en marcha. Este proyecto es de gran importancia en el campo de la generación de vídeo, especialmente en escenarios de aplicación en los que es necesario mantener la coherencia de los caracteres, como la producción de cine y televisión, la realidad virtual, etc.

ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

 

ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

 

Lista de funciones

  • Generación de vídeo coherente con la identidadEl objetivo es generar vídeos coherentes con la descripción del texto de entrada y mantener la identidad de los caracteres mediante una técnica de descomposición de frecuencias.
  • Código fuente abierto y conjuntos de datosCódigo completo y conjuntos de datos parciales para facilitar el desarrollo secundario y la investigación.
  • Soporte multiplataforma: Soporte para funcionar en sistemas Windows y Linux , proporcionando Jupyter Notebook y extensiones ComfyUI .
  • Optimización para indicaciones de alta calidadOptimiza la introducción de palabras de texto utilizando GPT-4o para mejorar la calidad del vídeo generado.
  • Optimización de la memoria de la GPU: Ofrece diversas opciones de optimización de la memoria de la GPU para adaptarse a distintas configuraciones de hardware.
  • Contribuciones comunitariasSoporte para plugins y extensiones desarrollados por la comunidad que mejoran la funcionalidad y la experiencia de uso.

 

Utilizar la ayuda

Configuración del entorno

  1. Clona el código del proyecto:
   git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
  1. Crear y activar un entorno virtual:
   conda create -n consisid python=3.11.0
conda activate consisid
  1. Instale la dependencia:
   pip install -r requirements.txt

Descargar modelos de pesos

  1. Descargar pesos de HuggingFace:
   huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts
  1. O descárgalo de WiseModel:
   git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

ejemplo de funcionamiento

  1. Ejecute el ejemplo de interfaz web:
   python app.py
  1. Ejecuta el razonamiento de la línea de comandos:
   python infer.py --model_path BestWishYsh/ConsisID-preview

Optimización de las palabras clave

Utilice GPT-4o para optimizar la introducción de palabras de aviso de texto, por ejemplo Palabra de aviso original: "Un hombre está tocando la guitarra". Palabra optimizada: "El vídeo muestra a un hombre de pie junto a un avión, hablando por el móvil. Lleva gafas de sol, un top negro y una expresión seria. El avión tiene una franja verde en el lateral y un gran motor en la parte trasera".

Optimización de la memoria de la GPU

Si no tienes varias GPUs o suficiente memoria GPU, puedes activar las siguientes opciones:

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

Nota: La activación de estas opciones aumenta el tiempo de inferencia y puede reducir la calidad de la generación.

Preprocesamiento de datos

Consulte la guía de preprocesamiento de datos del proyecto para conocer los datos necesarios para entrenar ConsisID. Si necesita entrenar modelos de generación de texto a imagen y vídeo, deberá organizar el conjunto de datos en el siguiente formato:

datasets/
├── captions/
│   ├── dataname_1.json
│   ├── dataname_2.json
├── dataname_1/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── dataname_2/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── ...
├── total_train_data.txt

formación de modelos

  1. Establezca los hiperparámetros:
   bash train_single_rank.sh
  1. Iniciar la formación:
   bash train_multi_rank.sh

Contribuciones comunitarias

Gracias a los desarrolladores de la comunidad por los plugins y extensiones:

  • ComfyUI-ConsisIDWrapper
  • Jupyter-ConsisID
  • Windows-ConsisID

 

Integración rápida de ConsisID

Experiencia en línea:Cara de abrazo

Instalador de Windows:Cara de abrazoInicio Inteligencia AI

Nodo ComfyUI:ComfyUI-CogVideoXWrapper openart: https://openart.ai/workflows/TxIQ6lwGkRx2zQiYjvE5

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...