DiffPortrait360 : Générer une vue de la tête à 360 degrés à partir d'un seul portrait

Dernières ressources sur l'IAPosté il y a 5 mois Cercle de partage de l'IA

18.6K 00

Introduction générale

DiffPortrait360 est un projet open source qui fait partie de l'article CVPR 2025 "DiffPortrait360 : Consistent Portrait Diffusion for 360 View Synthesis". Il génère une vue cohérente de la tête à 360 degrés à partir d'une seule photo de portrait, prenant en charge des humains réels, des images stylisées et des personnages anthropomorphes, et incluant même des détails tels que des lunettes et des chapeaux. Le projet est basé sur un modèle de diffusion (LDM), combiné à ControlNet et au module Dual Appearance pour générer des champs de radiation neuronaux (NeRF) de haute qualité qui peuvent être utilisés pour le rendu de vues libres en temps réel. Il convient à la téléprésence immersive et à la création de contenu personnalisé, et suscite déjà l'intérêt du monde universitaire et de la communauté des développeurs.

Liste des fonctions

Générer une vue de la tête à 360 degrés à partir d'une simple photo de portrait.
Permet de générer des êtres humains réels, des images stylisées et des personnages anthropomorphes.
Utilisez ControlNet pour générer des détails en arrière-plan afin d'obtenir une vue réaliste.
Production de modèles NeRF de haute qualité avec prise en charge du rendu en vue libre.
La cohérence des vues avant et arrière est assurée par le module d'apparence double.
Code d'inférence et modèles pré-entraînés en libre accès pour que les développeurs puissent les utiliser et les modifier.
Fournit des données de test capturées sur Internet avec Pexels et des milliers de portraits réels.

Utiliser l'aide

DiffPortrait360 est un outil destiné aux développeurs et aux chercheurs et nécessite une certaine base technique. Vous trouverez ci-dessous des instructions détaillées pour l'installation et l'utilisation.

Processus d'installation

Préparer le matériel et les systèmes
Vous aurez besoin d'un GPU NVIDIA avec support CUDA et d'un minimum de 30 Go de RAM (pour générer 32 images vidéo), 80 Go sont recommandés (par exemple A6000). Le système d'exploitation doit être Linux.
- Vérifiez la version de CUDA, la version 12.2 est recommandée :
```
nvcc --version
```
Créer l'environnement
Créer un environnement Python 3.9 avec Conda :

conda env create -n diffportrait360 python=3.9
conda activate diffportrait360

Clonage du code
Téléchargez le code du projet localement :

git clone https://github.com/FreedomGu/DiffPortrait360.git
cd DiffPortrait360/diffportrait360_release

Installation des dépendances
Offres de projets requirements.txtExécutez la commande suivante pour l'installer :

pip install -r requirements.txt

Si vous rencontrez un conflit de dépendance, mettez à jour le logiciel pip :
```
pip install --upgrade pip
```

Télécharger le modèle pré-entraîné
Téléchargez le modèle de Hugging Face :

entretiens Liens HF.
téléchargement PANO_HEAD_MODEL,Head_Back_MODEL répondre en chantant Diff360_MODEL.
Placer le modèle dans le chemin local et inference.sh Modifiez le chemin d'accès correspondant dans, par exemple :
```
PANO_HEAD_MODEL=/path/to/pano_head_model
```

Environnement de vérification
Vérifier si le GPU est disponible :

python -c "import torch; print(torch.cuda.is_available())"

exportations True Indique un environnement normal.

Fonctionnement des principales fonctions

Générer une vue d'en-tête à 360 degrés

Préparation de la saisie des données

Préparez une photo de face (JPEG ou PNG) avec une résolution recommandée de 512x512 ou plus.
Placez la photo dans le input_image/ (si ce dossier n'existe pas, créez-le manuellement).
gain dataset.json(informations sur l'appareil photo), voir Guide de recadrage de PanoHead Traitez vos propres photos.

Exécution de scripts d'inférence

Allez dans le répertoire du code :
```
cd diffportrait360_release/code
```
Raisonnement exécutif :
```
bash inference.sh
```
La sortie sera enregistrée dans le dossier spécifié (par défaut) output/).

Voir les résultats

Le résultat consiste en des images à angles multiples et des fichiers de modèle NeRF (.nerf (Format).
Chargement à l'aide d'un outil de rendu NeRF tel que NeRFStudio. .nerf ajuster l'angle de vue pour voir l'effet à 360 degrés.

Optimisation de l'arrière-train avec ControlNet

existent inference.sh Activer le module de génération de backside dans les paramètres de modification :

--use_controlnet

Après le fonctionnement, les détails du dos seront plus réalistes pour les scènes complexes.

Raisonnement sur les données personnalisées

Mise en place de photos personnalisées dans input_image/.
générant dataset.jsonAssurez-vous que les informations relatives à l'appareil photo sont correctes.
La course à pied :

bash inference.sh

mise en garde

Une mémoire GPU insuffisante peut entraîner une panne. Il est recommandé d'utiliser une carte graphique à mémoire élevée.
Le projet ne fournit pas de code d'entraînement et ne prend en charge que l'inférence. Suivez les mises à jour de GitHub pour connaître les derniers progrès.
Les données d'essai sont disponibles auprès de la Visage étreint Téléchargez avec Pexels et 1000 vrais portraits.

scénario d'application

Téléconférence immersive
Les utilisateurs peuvent générer une vue de tête à 360 degrés à partir d'une seule photo afin d'améliorer le réalisme des réunions virtuelles.
Conception de personnages de jeux
Les développeurs génèrent des modèles de tête en 3D à partir de dessins conceptuels afin d'accélérer le processus de développement des jeux.
Création d'art numérique
Les artistes l'utilisent pour créer des avatars stylisés pour le NFT ou les présentations sur les médias sociaux.

QA

Quelle est la configuration matérielle minimale requise ?
Requiert un GPU NVIDIA avec prise en charge CUDA, 30 Go de RAM au minimum, 80 Go recommandés.
Prend-il en charge les photos à faible résolution ?
Déconseillé. Les détails peuvent être perdus et les résultats peuvent se détériorer lorsque la résolution d'entrée est inférieure à 512x512.
Est-il possible de générer une vidéo ?
La version actuelle génère des séquences de vues statiques, qui peuvent être converties en vidéo par l'outil, mais ne permet pas la sortie directe de vidéos dynamiques.