ConsisID: Eine Porträt-Referenzkarte zur Erzeugung zeichenkonsistenter Videos, schnelle Integration mehrerer Terminals

Neueste AI-RessourcenGeschrieben vor 8 Monaten AI-Austauschkreis

3.4K 00

Allgemeine Einführung

ConsisID ist ein Open-Source-Projekt, das von der Gruppe von Yuan Rong an der Universität Peking entwickelt wurde und darauf abzielt, identitätskonsistente Text-zu-Video-Generierung (IPT2V) durch Frequenzzerlegungstechniken zu erreichen. Das Kernstück des Projekts ist ein auf DiT (Diffusion Transformer) basierendes Modell, das in der Lage ist, die Identitätskonsistenz von Zeichen bei der Generierung von Videos aufrechtzuerhalten. Das ConsisID-Projekt stellt nicht nur den vollständigen Code und Datensatz zur Verfügung, sondern enthält auch detaillierte Installations- und Nutzungsrichtlinien, um den Benutzern den schnellen Einstieg zu erleichtern. Dieses Projekt ist von großer Bedeutung im Bereich der Videogenerierung, insbesondere in Anwendungsszenarien, in denen die Zeichenkonsistenz beibehalten werden muss, wie z. B. in der Film- und Fernsehproduktion, der virtuellen Realität usw.

Funktionsliste

Identitätskonforme VideoerstellungEine Technik zur Frequenzzerlegung wird verwendet, um Videos zu erzeugen, die mit der Beschreibung des Eingabetextes übereinstimmen und die Identität der Zeichen beibehalten.
Offener Quellcode und DatensätzeVollständiger Code und Teildatensätze werden zur Verfügung gestellt, um Sekundärentwicklung und Forschung zu erleichtern.
Unterstützung mehrerer PlattformenUnterstützung für den Betrieb auf Windows- und Linux-Systemen, Bereitstellung von Jupyter Notebook und ComfyUI-Erweiterungen .
Optimierung für hochwertige PromptsOptimieren Sie die Eingabe von Text-Prompt-Wörtern mit GPT-4o, um die Qualität des generierten Videos zu verbessern.
GPU-SpeicheroptimierungBietet eine Vielzahl von Optionen zur Optimierung des GPU-Speichers für unterschiedliche Hardwarekonfigurationen.
Beiträge der GemeinschaftUnterstützung von Plug-ins und Erweiterungen, die von der Community entwickelt wurden und die Funktionalität und Benutzerfreundlichkeit verbessern.

Hilfe verwenden

Umgebung Konfiguration

Klonen Sie den Projektcode:

   git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID

Erstellen und aktivieren Sie eine virtuelle Umgebung:

   conda create -n consisid python=3.11.0
conda activate consisid

Installieren Sie die Abhängigkeit:

   pip install -r requirements.txt

Download Modellgewichte

Gewichte von HuggingFace herunterladen:

   huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts

Oder laden Sie es von WiseModel herunter:

   git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

laufendes Beispiel

Führen Sie das Web-UI-Beispiel aus:

   python app.py

Führen Sie die Befehlszeilenüberlegungen aus:

   python infer.py --model_path BestWishYsh/ConsisID-preview

Stichwort Wortoptimierung

Verwenden Sie GPT-4o, um die Eingabe von Text-Prompt-Wörtern zu optimieren, z. B. Original-Prompt-Wort: "Ein Mann spielt Gitarre." Optimiertes Promptwort: "Das Video zeigt einen Mann, der neben einem Flugzeug steht und mit seinem Handy telefoniert. Er trägt eine Sonnenbrille, ein schwarzes Oberteil und einen ernsten Gesichtsausdruck. Das Flugzeug hat einen grünen Streifen an der Seite und einen großen Motor am Heck.

GPU-Speicheroptimierung

Wenn Sie nicht über mehrere GPUs oder genügend GPU-Speicher verfügen, können Sie die folgenden Optionen aktivieren:

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

Hinweis: Die Aktivierung dieser Optionen erhöht die Inferenzzeit und kann die Qualität der Generierung verringern.

Vorverarbeitung der Daten

Die für das Training von ConsisID benötigten Daten entnehmen Sie bitte der Anleitung zur Datenvorverarbeitung im Projekt. Wenn Sie Text-zu-Bild- und Video-Generierungsmodelle trainieren müssen, müssen Sie den Datensatz im folgenden Format organisieren:

datasets/
├── captions/
│   ├── dataname_1.json
│   ├── dataname_2.json
├── dataname_1/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── dataname_2/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── ...
├── total_train_data.txt