AI Personal Learning
und praktische Anleitung

ConsisID: eine Porträt-Referenzkarte zur Erzeugung zeichenkonsistenter Videos, schnelle Integration mehrerer Terminals

Allgemeine Einführung

ConsisID ist ein Open-Source-Projekt, das von der Gruppe von Yuan Rong an der Universität Peking entwickelt wurde und darauf abzielt, identitätskonsistente Text-zu-Video-Generierung (IPT2V) durch Frequenzzerlegungstechniken zu erreichen. Das Kernstück des Projekts ist ein auf DiT (Diffusion Transformer) basierendes Modell, das in der Lage ist, die Identitätskonsistenz von Zeichen bei der Generierung von Videos aufrechtzuerhalten. Das ConsisID-Projekt stellt nicht nur den vollständigen Code und Datensatz zur Verfügung, sondern enthält auch detaillierte Installations- und Nutzungsrichtlinien, um den Benutzern den schnellen Einstieg zu erleichtern. Dieses Projekt ist von großer Bedeutung im Bereich der Videogenerierung, insbesondere in Anwendungsszenarien, in denen die Zeichenkonsistenz beibehalten werden muss, wie z. B. in der Film- und Fernsehproduktion, der virtuellen Realität usw.


 

 

Funktionsliste

  • Identitätskonforme VideoerstellungEine Technik zur Frequenzzerlegung wird verwendet, um Videos zu erzeugen, die mit der Beschreibung des Eingabetextes übereinstimmen und die Identität der Zeichen beibehalten.
  • Offener Quellcode und DatensätzeVollständiger Code und Teildatensätze werden zur Verfügung gestellt, um Sekundärentwicklung und Forschung zu erleichtern.
  • Unterstützung mehrerer PlattformenUnterstützung für den Betrieb auf Windows- und Linux-Systemen, Bereitstellung von Jupyter Notebook und ComfyUI-Erweiterungen .
  • Optimierung für hochwertige PromptsOptimieren Sie die Eingabe von Text-Prompt-Wörtern mit GPT-4o, um die Qualität des generierten Videos zu verbessern.
  • GPU-SpeicheroptimierungBietet eine Vielzahl von Optionen zur Optimierung des GPU-Speichers für unterschiedliche Hardwarekonfigurationen.
  • Beiträge der GemeinschaftUnterstützung für von der Community entwickelte Plugins und Erweiterungen, die die Funktionalität und das Nutzungserlebnis verbessern.

 

Hilfe verwenden

Umgebung Konfiguration

  1. Klonen Sie den Projektcode:
   git clone --tiefe=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
  1. Erstellen und aktivieren Sie eine virtuelle Umgebung:
   conda create -n consisid python=3.11.0
conda activate consisid
  1. Installieren Sie die Abhängigkeit:
   pip install -r anforderungen.txt

Download Modellgewichte

  1. Gewichte von HuggingFace herunterladen:
   huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts
  1. Oder laden Sie es von WiseModel herunter:
   git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

laufendes Beispiel

  1. Führen Sie das Web-UI-Beispiel aus:
   python app.py
  1. Führen Sie die Befehlszeilenüberlegungen aus:
   python infer.py --model_path BestWishYsh/ConsisID-preview

Stichwort Wortoptimierung

Verwenden Sie GPT-4o, um die Eingabe von Text-Prompt-Wörtern zu optimieren, z. B. Original-Prompt-Wort: "Ein Mann spielt Gitarre." Optimiertes Promptwort: "Das Video zeigt einen Mann, der neben einem Flugzeug steht und mit seinem Handy telefoniert. Er trägt eine Sonnenbrille, ein schwarzes Oberteil und einen ernsten Gesichtsausdruck. Das Flugzeug hat einen grünen Streifen an der Seite und einen großen Motor am Heck.

GPU-Speicheroptimierung

Wenn Sie nicht über mehrere GPUs oder genügend GPU-Speicher verfügen, können Sie die folgenden Optionen aktivieren:

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

Hinweis: Die Aktivierung dieser Optionen erhöht die Inferenzzeit und kann die Qualität der Generierung verringern.

Vorverarbeitung der Daten

Die für das Training von ConsisID benötigten Daten entnehmen Sie bitte der Anleitung zur Datenvorverarbeitung im Projekt. Wenn Sie Text-zu-Bild- und Videogenerierungsmodelle trainieren müssen, müssen Sie den Datensatz im folgenden Format organisieren:

datensätze/
├── captions/
│ ├── dataname_1.json
│ ├── dataname_2.json
├─ dataname_1/ ├─ captions/ │ ├─ refine_1.json
│ ├── refine_bbox_jsons/
│ ├── track_masks_data/ ├── track_masks_data/ ├── track_masks_data/
│ ├── Videos/
├── dataname_2/ │── refine_bbox_jsons/ ├── track_masks_data/
│ ├── refine_bbox_jsons/ │ ├── track_masks_data/ ├── videos/
│ ├── track_masks_data/ ├── videos/ ├── videos/
│ ├── videos/ ├── dataname_2/ │── refine_bbox_jsons/
├── ...
├─── total_train_data.txt

Modellschulung

  1. Setzen Sie die Hyperparameter:
   bash train_single_rank.sh
  1. Ausbildung einleiten:
   bash train_multi_rank.sh

Beiträge der Gemeinschaft

Vielen Dank an die Entwickler der Community für die Plugins und Erweiterungen:

  • ComfyUI-ConsisIDWrapper
  • Jupyter-ConsisID
  • Windows-ConsisID

 

ConsisID Schnellintegration

Online-Erfahrung:Gesicht umarmen

Windows-Installationsprogramm:Gesicht umarmen Beginnende Intelligenz AI

ComfyUI-Knoten:ComfyUI-CogVideoXWrapper openart: https://openart.ai/workflows/TxIQ6lwGkRx2zQiYjvE5

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " ConsisID: eine Porträt-Referenzkarte zur Erzeugung zeichenkonsistenter Videos, schnelle Integration mehrerer Terminals

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)