Allgemeine Einführung
ConsisID ist ein Open-Source-Projekt, das von der Gruppe von Yuan Rong an der Universität Peking entwickelt wurde und darauf abzielt, identitätskonsistente Text-zu-Video-Generierung (IPT2V) durch Frequenzzerlegungstechniken zu erreichen. Das Kernstück des Projekts ist ein auf DiT (Diffusion Transformer) basierendes Modell, das in der Lage ist, die Identitätskonsistenz von Zeichen bei der Generierung von Videos aufrechtzuerhalten. Das ConsisID-Projekt stellt nicht nur den vollständigen Code und Datensatz zur Verfügung, sondern enthält auch detaillierte Installations- und Nutzungsrichtlinien, um den Benutzern den schnellen Einstieg zu erleichtern. Dieses Projekt ist von großer Bedeutung im Bereich der Videogenerierung, insbesondere in Anwendungsszenarien, in denen die Zeichenkonsistenz beibehalten werden muss, wie z. B. in der Film- und Fernsehproduktion, der virtuellen Realität usw.
Funktionsliste
- Identitätskonforme VideoerstellungEine Technik zur Frequenzzerlegung wird verwendet, um Videos zu erzeugen, die mit der Beschreibung des Eingabetextes übereinstimmen und die Identität der Zeichen beibehalten.
- Offener Quellcode und DatensätzeVollständiger Code und Teildatensätze werden zur Verfügung gestellt, um Sekundärentwicklung und Forschung zu erleichtern.
- Unterstützung mehrerer PlattformenUnterstützung für den Betrieb auf Windows- und Linux-Systemen, Bereitstellung von Jupyter Notebook und ComfyUI-Erweiterungen .
- Optimierung für hochwertige PromptsOptimieren Sie die Eingabe von Text-Prompt-Wörtern mit GPT-4o, um die Qualität des generierten Videos zu verbessern.
- GPU-SpeicheroptimierungBietet eine Vielzahl von Optionen zur Optimierung des GPU-Speichers für unterschiedliche Hardwarekonfigurationen.
- Beiträge der GemeinschaftUnterstützung für von der Community entwickelte Plugins und Erweiterungen, die die Funktionalität und das Nutzungserlebnis verbessern.
Hilfe verwenden
Umgebung Konfiguration
- Klonen Sie den Projektcode:
git clone --tiefe=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
- Erstellen und aktivieren Sie eine virtuelle Umgebung:
conda create -n consisid python=3.11.0
conda activate consisid
- Installieren Sie die Abhängigkeit:
pip install -r anforderungen.txt
Download Modellgewichte
- Gewichte von HuggingFace herunterladen:
huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts
- Oder laden Sie es von WiseModel herunter:
git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git
laufendes Beispiel
- Führen Sie das Web-UI-Beispiel aus:
python app.py
- Führen Sie die Befehlszeilenüberlegungen aus:
python infer.py --model_path BestWishYsh/ConsisID-preview
Stichwort Wortoptimierung
Verwenden Sie GPT-4o, um die Eingabe von Text-Prompt-Wörtern zu optimieren, z. B. Original-Prompt-Wort: "Ein Mann spielt Gitarre." Optimiertes Promptwort: "Das Video zeigt einen Mann, der neben einem Flugzeug steht und mit seinem Handy telefoniert. Er trägt eine Sonnenbrille, ein schwarzes Oberteil und einen ernsten Gesichtsausdruck. Das Flugzeug hat einen grünen Streifen an der Seite und einen großen Motor am Heck.
GPU-Speicheroptimierung
Wenn Sie nicht über mehrere GPUs oder genügend GPU-Speicher verfügen, können Sie die folgenden Optionen aktivieren:
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
Hinweis: Die Aktivierung dieser Optionen erhöht die Inferenzzeit und kann die Qualität der Generierung verringern.
Vorverarbeitung der Daten
Die für das Training von ConsisID benötigten Daten entnehmen Sie bitte der Anleitung zur Datenvorverarbeitung im Projekt. Wenn Sie Text-zu-Bild- und Videogenerierungsmodelle trainieren müssen, müssen Sie den Datensatz im folgenden Format organisieren:
datensätze/
├── captions/
│ ├── dataname_1.json
│ ├── dataname_2.json
├─ dataname_1/ ├─ captions/ │ ├─ refine_1.json
│ ├── refine_bbox_jsons/
│ ├── track_masks_data/ ├── track_masks_data/ ├── track_masks_data/
│ ├── Videos/
├── dataname_2/ │── refine_bbox_jsons/ ├── track_masks_data/
│ ├── refine_bbox_jsons/ │ ├── track_masks_data/ ├── videos/
│ ├── track_masks_data/ ├── videos/ ├── videos/
│ ├── videos/ ├── dataname_2/ │── refine_bbox_jsons/
├── ...
├─── total_train_data.txt
Modellschulung
- Setzen Sie die Hyperparameter:
bash train_single_rank.sh
- Ausbildung einleiten:
bash train_multi_rank.sh
Beiträge der Gemeinschaft
Vielen Dank an die Entwickler der Community für die Plugins und Erweiterungen:
- ComfyUI-ConsisIDWrapper
- Jupyter-ConsisID
- Windows-ConsisID
ConsisID Schnellintegration
Online-Erfahrung:Gesicht umarmen
Windows-Installationsprogramm:Gesicht umarmen Beginnende Intelligenz AI
ComfyUI-Knoten:ComfyUI-CogVideoXWrapper openart: https://openart.ai/workflows/TxIQ6lwGkRx2zQiYjvE5