ConsisID: un mapa de referencia de retratos para generar vídeos coherentes con los personajes, rápida integración multiterminal
Últimos recursos sobre IAPublicado hace 9 meses Círculo de intercambio de inteligencia artificial 12.2K 00
Introducción general
ConsisID es un proyecto de código abierto desarrollado por el grupo de Yuan Rong en la Universidad de Pekín, cuyo objetivo es lograr una generación de texto a vídeo coherente con la identidad (IPT2V) mediante técnicas de descomposición de frecuencias. El núcleo del proyecto es un modelo basado en DiT (Diffusion Transformer), capaz de mantener la coherencia de identidad de los caracteres al generar vídeos. El proyecto ConsisID no sólo proporciona el código y el conjunto de datos completos, sino que también incluye directrices detalladas de instalación y uso para facilitar a los usuarios una rápida puesta en marcha. Este proyecto es de gran importancia en el campo de la generación de vídeo, especialmente en escenarios de aplicación en los que es necesario mantener la coherencia de los caracteres, como la producción de cine y televisión, la realidad virtual, etc.


Lista de funciones
- Generación de vídeo coherente con la identidadEl objetivo es generar vídeos coherentes con la descripción del texto de entrada y mantener la identidad de los caracteres mediante una técnica de descomposición de frecuencias.
- Código fuente abierto y conjuntos de datosCódigo completo y conjuntos de datos parciales para facilitar el desarrollo secundario y la investigación.
- Soporte multiplataforma: Soporte para funcionar en sistemas Windows y Linux , proporcionando Jupyter Notebook y extensiones ComfyUI .
- Optimización para indicaciones de alta calidadOptimiza la introducción de palabras de texto utilizando GPT-4o para mejorar la calidad del vídeo generado.
- Optimización de la memoria de la GPU: Ofrece diversas opciones de optimización de la memoria de la GPU para adaptarse a distintas configuraciones de hardware.
- Contribuciones comunitariasSoporte para plugins y extensiones desarrollados por la comunidad que mejoran la funcionalidad y la experiencia de uso.
Utilizar la ayuda
Configuración del entorno
- Clona el código del proyecto:
git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
- Crear y activar un entorno virtual:
conda create -n consisid python=3.11.0
conda activate consisid
- Instale la dependencia:
pip install -r requirements.txt
Descargar modelos de pesos
- Descargar pesos de HuggingFace:
huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts
- O descárgalo de WiseModel:
git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git
ejemplo de funcionamiento
- Ejecute el ejemplo de interfaz web:
python app.py
- Ejecuta el razonamiento de la línea de comandos:
python infer.py --model_path BestWishYsh/ConsisID-preview
Optimización de las palabras clave
Utilice GPT-4o para optimizar la introducción de palabras de aviso de texto, por ejemplo Palabra de aviso original: "Un hombre está tocando la guitarra". Palabra optimizada: "El vídeo muestra a un hombre de pie junto a un avión, hablando por el móvil. Lleva gafas de sol, un top negro y una expresión seria. El avión tiene una franja verde en el lateral y un gran motor en la parte trasera".
Optimización de la memoria de la GPU
Si no tienes varias GPUs o suficiente memoria GPU, puedes activar las siguientes opciones:
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
Nota: La activación de estas opciones aumenta el tiempo de inferencia y puede reducir la calidad de la generación.
Preprocesamiento de datos
Consulte la guía de preprocesamiento de datos del proyecto para conocer los datos necesarios para entrenar ConsisID. Si necesita entrenar modelos de generación de texto a imagen y vídeo, deberá organizar el conjunto de datos en el siguiente formato:
datasets/
├── captions/
│ ├── dataname_1.json
│ ├── dataname_2.json
├── dataname_1/
│ ├── refine_bbox_jsons/
│ ├── track_masks_data/
│ ├── videos/
├── dataname_2/
│ ├── refine_bbox_jsons/
│ ├── track_masks_data/
│ ├── videos/
├── ...
├── total_train_data.txt
formación de modelos
- Establezca los hiperparámetros:
bash train_single_rank.sh
- Iniciar la formación:
bash train_multi_rank.sh
Contribuciones comunitarias
Gracias a los desarrolladores de la comunidad por los plugins y extensiones:
- ComfyUI-ConsisIDWrapper
- Jupyter-ConsisID
- Windows-ConsisID
Integración rápida de ConsisID
Experiencia en línea:Cara de abrazo
Instalador de Windows:Cara de abrazoInicio Inteligencia AI
Nodo ComfyUI:ComfyUI-CogVideoXWrapper openart: https://openart.ai/workflows/TxIQ6lwGkRx2zQiYjvE5
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...