JoyGen: Audiogesteuerte 3D-Tiefenerkennung für sprechende Porträtvideos

Neueste AI-RessourcenGeschrieben vor 7 Monaten AI-Austauschkreis

1.8K 00

Allgemeine Einführung

JoyGen ist ein innovatives zweistufiges System zur Erzeugung von Videos mit sprechenden Gesichtern, das sich auf die Lösung des Problems der audiogesteuerten Erzeugung von Gesichtsausdrücken konzentriert. Das von einem Team von Jingdong Technology entwickelte Projekt nutzt fortschrittliche 3D-Rekonstruktionstechniken und Methoden zur Extraktion von Audiomerkmalen, um die Identitätsmerkmale und Ausdruckskoeffizienten des Sprechers für eine qualitativ hochwertige Lippensynchronisation und visuelle Synthese genau zu erfassen.JoyGen besteht aus zwei Hauptphasen: erstens der audiobasierten Erzeugung von Lippenbewegungen und zweitens der visuellen Synthese. Durch die Integration von Audiomerkmalen und Gesichtstiefenkarten bietet es eine umfassende Überwachung für eine genaue Lippensynchronisation. Das Projekt unterstützt nicht nur chinesische und englische Audiotreiber, sondern bietet auch eine vollständige Trainings- und Inferenzpipeline, was es zu einem leistungsstarken Open-Source-Tool macht.

Funktionsliste

Audiogesteuerte Erzeugung und Bearbeitung von 3D-Gesichtsausdrücken
Präzise lippensynchrone Audiotechnik
Unterstützt chinesische und englische Audioeingabe
Visuelle Synthese für 3D-Tiefenwahrnehmung
Funktion zur Wahrung der Gesichtsidentität
Hochwertige Funktionen für die Erstellung und Bearbeitung von Videos
Umfassende Schulung und Unterstützung des Argumentationsrahmens
Vorgefertigte Modelle unterstützen den schnellen Einsatz
Unterstützung für kundenspezifisches Dataset-Training
Detaillierte Tools für die Datenvorverarbeitung bereitstellen

Hilfe verwenden

1. ökologische Konfiguration

1.1 Anforderungen an die Infrastruktur

Unterstützte GPUs: V100, A800
Python Version: 3.8.19
System-Abhängigkeiten: ffmpeg

1.2 Installationsschritte

Erstellen und aktivieren Sie die conda-Umgebung:

conda create -n joygen python=3.8.19 ffmpeg
conda activate joygen
pip install -r requirements.txt

Installieren Sie die Nvdiffrast-Bibliothek:

git clone https://github.com/NVlabs/nvdiffrast
cd nvdiffrast
pip install .

Herunterladen des vortrainierten Modells
Aus dem mitgeliefertenDownload-LinkHolen Sie das trainierte Modell und legen Sie es entsprechend der angegebenen Verzeichnisstruktur im./pretrained_models/Katalog.

2. der Nutzungsablauf

2.1 Begründungsprozess

Führen Sie die gesamte Argumentationspipeline aus:

bash scripts/inference_pipeline.sh 音频文件 视频文件 结果目录

Führen Sie den Argumentationsprozess in Schritten aus:

Extraktion von Gesichtsausdruckskoeffizienten aus Audioaufnahmen:

python inference_audio2motion.py --a2m_ckpt ./pretrained_models/audio2motion/240210_real3dportrait_orig/audio2secc_vae --hubert_path ./pretrained_models/audio2motion/hubert --drv_aud ./demo/xinwen_5s.mp3 --seed 0 --result_dir ./results/a2m --exp_file xinwen_5s.npy

Rendert Tiefenkarten Frame für Frame mit neuen Expression-Koeffizienten:

python -u inference_edit_expression.py --name face_recon_feat0.2_augment --epoch=20 --use_opengl False --checkpoints_dir ./pretrained_models --bfm_folder ./pretrained_models/BFM --infer_video_path ./demo/example_5s.mp4 --infer_exp_coeff_path ./results/a2m/xinwen_5s.npy --infer_result_dir ./results/edit_expression

Generierung von Gesichtsanimationen auf der Grundlage von Audiomerkmalen und Tiefenkarten des Gesichts:

CUDA_VISIBLE_DEIVCES=0 python -u inference_joygen.py --unet_model_path pretrained_models/joygen --vae_model_path pretrained_models/sd-vae-ft-mse --intermediate_dir ./results/edit_expression --audio_path demo/xinwen_5s.mp3 --video_path demo/example_5s.mp4 --enable_pose_driven --result_dir results/talk --img_size 256 --gpu_id 0

2.2 Ausbildungsprozess

Vorverarbeitung der Daten:

python -u preprocess_dataset.py --checkpoints_dir ./pretrained_models --name face_recon_feat0.2_augment --epoch=20 --use_opengl False --bfm_folder ./pretrained_models/BFM --video_dir ./demo --result_dir ./results/preprocessed_dataset

Prüfen Sie vorverarbeitete Daten und erstellen Sie Trainingslisten:

python -u preprocess_dataset_extra.py data_dir

Beginn der Ausbildung:
Ändern Sie die Datei config.yaml und führen Sie sie aus:

accelerate launch --main_process_port 29501 --config_file config/accelerate_config.yaml train_joygen.py

Der Artikel ist urheberrechtlich geschützt und darf nicht ohne Genehmigung vervielfältigt werden.

Riveter: Schnelles Kommentieren, Verbessern und Analysieren von Daten mithilfe von Stichwörtern in Tabellen

Neueste AI-Ressourcen # AI-Datenanalyse

vor 6 Monaten

01.8K

HumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungen

Neueste AI-Ressourcen # AI Java Open Source Projekt # Visuelle Zielerfassung

vor 5 Monaten

01.2K

meso- (Chemie)GPT-5 - Das stärkste Sprachmodell, vorgestellt von OpenAI, Unified Intelligence System

Neueste AI-Ressourcen

vor 2 Tagen

0952

BEN2: Deep-Learning-Modell zur schnellen Hintergrundentfernung aus Bildern und Videos

Neueste AI-Ressourcen # AI Java Open Source Projekt # AI-Keying zum Ändern von Hintergründen

vor 2 Monaten

02.5K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

JoyGen: Audiogesteuerte 3D-Tiefenerkennung für sprechende Porträtvideos

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

1. ökologische Konfiguration

1.1 Anforderungen an die Infrastruktur

1.2 Installationsschritte

2. der Nutzungsablauf

2.1 Begründungsprozess

2.2 Ausbildungsprozess

VSR: KI-Technologie zur verlustfreien Entfernung von Video-Wasserzeichen und Software zur Erstellung von Untertiteln (Client zur Entfernung von Video-Wasserzeichen 7G+)

Aider: Open-Source-Programmierassistent, KI-Assistent zum Schreiben von Code und Bearbeiten von Dateien

Ähnliche Artikel

Riveter: Schnelles Kommentieren, Verbessern und Analysieren von Daten mithilfe von Stichwörtern in Tabellen

HumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungen

meso- (Chemie)GPT-5 - Das stärkste Sprachmodell, vorgestellt von OpenAI, Unified Intelligence System

BEN2: Deep-Learning-Modell zur schnellen Hintergrundentfernung aus Bildern und Videos

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

JoyGen: Audiogesteuerte 3D-Tiefenerkennung für sprechende Porträtvideos

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

1. ökologische Konfiguration

1.1 Anforderungen an die Infrastruktur

1.2 Installationsschritte

2. der Nutzungsablauf

2.1 Begründungsprozess

2.2 Ausbildungsprozess

VSR: KI-Technologie zur verlustfreien Entfernung von Video-Wasserzeichen und Software zur Erstellung von Untertiteln (Client zur Entfernung von Video-Wasserzeichen 7G+)

Aider: Open-Source-Programmierassistent, KI-Assistent zum Schreiben von Code und Bearbeiten von Dateien

Ähnliche Artikel

Riveter: Schnelles Kommentieren, Verbessern und Analysieren von Daten mithilfe von Stichwörtern in Tabellen

HumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungen

meso- (Chemie)GPT-5 - Das stärkste Sprachmodell, vorgestellt von OpenAI, Unified Intelligence System

BEN2: Deep-Learning-Modell zur schnellen Hintergrundentfernung aus Bildern und Videos

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel