ConsisID: un mapa de referencia de retratos para generar vídeos coherentes con los personajes, rápida integración multiterminal

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

56.4K 00

Introducción general

ConsisID es un proyecto de código abierto desarrollado por el grupo de Yuan Rong en la Universidad de Pekín, cuyo objetivo es lograr una generación de texto a vídeo coherente con la identidad (IPT2V) mediante técnicas de descomposición de frecuencias. El núcleo del proyecto es un modelo basado en DiT (Diffusion Transformer), capaz de mantener la coherencia de identidad de los caracteres al generar vídeos. El proyecto ConsisID no sólo proporciona el código y el conjunto de datos completos, sino que también incluye directrices detalladas de instalación y uso para facilitar a los usuarios una rápida puesta en marcha. Este proyecto es de gran importancia en el campo de la generación de vídeo, especialmente en escenarios de aplicación en los que es necesario mantener la coherencia de los caracteres, como la producción de cine y televisión, la realidad virtual, etc.

Lista de funciones

Generación de vídeo coherente con la identidadEl objetivo es generar vídeos coherentes con la descripción del texto de entrada y mantener la identidad de los caracteres mediante una técnica de descomposición de frecuencias.
Código fuente abierto y conjuntos de datosCódigo completo y conjuntos de datos parciales para facilitar el desarrollo secundario y la investigación.
Soporte multiplataforma: Soporte para funcionar en sistemas Windows y Linux , proporcionando Jupyter Notebook y extensiones ComfyUI .
Optimización para indicaciones de alta calidadOptimiza la introducción de palabras de texto utilizando GPT-4o para mejorar la calidad del vídeo generado.
Optimización de la memoria de la GPU: Ofrece diversas opciones de optimización de la memoria de la GPU para adaptarse a distintas configuraciones de hardware.
Contribuciones comunitariasSoporte para plugins y extensiones desarrollados por la comunidad que mejoran la funcionalidad y la experiencia de uso.

Utilizar la ayuda

Configuración del entorno

Clona el código del proyecto:

   git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID

Crear y activar un entorno virtual:

   conda create -n consisid python=3.11.0
conda activate consisid

Instale la dependencia:

   pip install -r requirements.txt

Descargar modelos de pesos

Descargar pesos de HuggingFace:

   huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts

O descárgalo de WiseModel:

   git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

ejemplo de funcionamiento

Ejecute el ejemplo de interfaz web:

   python app.py

Ejecuta el razonamiento de la línea de comandos:

   python infer.py --model_path BestWishYsh/ConsisID-preview

Optimización de las palabras clave

Utilice GPT-4o para optimizar la introducción de palabras de aviso de texto, por ejemplo Palabra de aviso original: "Un hombre está tocando la guitarra". Palabra optimizada: "El vídeo muestra a un hombre de pie junto a un avión, hablando por el móvil. Lleva gafas de sol, un top negro y una expresión seria. El avión tiene una franja verde en el lateral y un gran motor en la parte trasera".

Optimización de la memoria de la GPU

Si no tienes varias GPUs o suficiente memoria GPU, puedes activar las siguientes opciones:

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

Nota: La activación de estas opciones aumenta el tiempo de inferencia y puede reducir la calidad de la generación.

Preprocesamiento de datos

Consulte la guía de preprocesamiento de datos del proyecto para conocer los datos necesarios para entrenar ConsisID. Si necesita entrenar modelos de generación de texto a imagen y vídeo, deberá organizar el conjunto de datos en el siguiente formato:

datasets/
├── captions/
│   ├── dataname_1.json
│   ├── dataname_2.json
├── dataname_1/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── dataname_2/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── ...
├── total_train_data.txt