PSHuman : Générer des modèles de portrait 3D réalistes, utiliser une photo pour générer une modélisation humaine 3D

Introduction générale

PSHuman est un outil de reconstruction de portraits en 3D à partir d'une seule image, basé sur la technologie de diffusion multi-vues. L'outil est capable de générer des structures géométriques détaillées et des modèles de portrait 3D réalistes à partir d'une seule photo d'une personne habillée. La technologie de base de PSHuman comprend la diffusion multi-vues à échelle croisée, qui est capable de générer des portraits 3D de haute qualité dans un court laps de temps. Développé par l'équipe pengHTYX, le projet vise à fournir aux utilisateurs une solution de modélisation de portraits en 3D efficace et facile à utiliser.

PSHuman:生成逼真3D人像模型,使用一张照片生成3D人建模

 

Liste des fonctions

  • Reconstruction de portraits en 3D à partir d'une seule image : générez des modèles 3D détaillés à partir d'une seule photo de portrait.
  • Diffusion multi-vues : générez des portraits 3D de haute qualité en utilisant la diffusion multi-vues à plusieurs échelles.
  • Version sans SMPL : génération de vues multiples sans condition SMPL, adaptée aux portraits à pose générale.
  • Suppression de l'arrière-plan : Prise en charge de la suppression de l'arrière-plan à l'aide de l'outil Clipdrop ou rembg.
  • Sortie structurée : les modèles 3D générés et les vidéos rendues sont enregistrés sous forme de fichiers structurés pour faciliter la visualisation et le partage.

 

Utiliser l'aide

Processus d'installation

  1. Créer un environnement virtuel et installer les dépendances :
    $ conda create -n pshuman python=3.10
    $ conda activate pshuman
    $ pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121
    $ pip install kaolin==0.17.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-2.1.0_cu121.html
    $ pip install -r requirements.txt
    
  2. Configurer le modèle associé :
    • Télécharger les modèles ECON et SIFU et les réorganiser en projets.

Processus d'utilisation

  1. Suppression des antécédentsPour la première fois, vous pouvez utiliser l'outil Clipdrop ou l'outil rembg pour supprimer l'arrière-plan d'une photo de portrait. Pour l'outil rembg, vous pouvez exécuter le script suivant :
    $ python utils/remove_bg.py --path $DATA_PATH$
    

    Placez l'image RGBA générée dans le fichier PSHuman:生成逼真3D人像模型,使用一张照片生成3D人建模 Catalogue.

  2. raisonnement en cours d'exécutionLe programme inference.py permet de générer le maillage de la texture et d'effectuer le rendu de la vidéo :
    $ CUDA_VISIBLE_DEVICES=$GPU python inference.py --config configs/inference-768-6view.yaml \
    pretrained_model_name_or_path='pengHTYX/PSHuman_Unclip_768_6views' \
    validation_dataset.crop_size=740 \
    with_smpl=false \
    validation_dataset.root_dir=$DATA_PATH$ \
    seed=600 \
    num_views=7 \
    save_mode='rgb'
    
  3. Paramètres de réglage: Ajustez crop_size (720 ou 740) et seed (42 ou 600) en fonction des besoins pour obtenir les meilleurs résultats.

Principales fonctions

  • Reconstruction de portraits en 3D à partir d'une seule imageL'utilisateur fournit une photo portrait et le système génère automatiquement un modèle 3D détaillé.
  • Technique de diffusion multi-vuesLa diffusion de portraits 3D de haute qualité à l'aide de techniques de diffusion multi-vues à échelles croisées.
  • Suppression des antécédentsSupport pour la suppression des arrière-plans à l'aide des outils Clipdrop ou rembg afin de simplifier le traitement ultérieur.
  • Sortie structuréeLes modèles 3D générés et les vidéos rendues sont enregistrés sous forme de fichiers structurés pour faciliter la visualisation et le partage.

Procédure d'utilisation détaillée

  1. Fournir des photos de portraitL'utilisateur fournit une photo de portrait et la traite à l'aide d'un outil de suppression de l'arrière-plan.
  2. Exécution de scripts d'inférenceLes modèles 3D et les vidéos de rendu sont générés en exécutant le script inference.py.
  3. Paramètres de réglageLes paramètres du script d'inférence doivent être ajustés en fonction des besoins pour obtenir les meilleurs résultats.
  4. Voir et partagerLes modèles 3D générés et les vidéos rendues sont sauvegardés sous forme de fichiers structurés qui peuvent être directement visualisés et partagés par les utilisateurs.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...