PhotoDoodle : outil d'IA permettant d'ajouter des gribouillis artistiques à des photos à l'aide de commandes textuelles

Dernières ressources sur l'IAPosté il y a 6 mois Cercle de partage de l'IA

Introduction générale

PhotoDoodle est un outil d'édition d'images open source, développé par ShowLab, qui se concentre sur l'édition artistique de photos grâce à la technologie de l'intelligence artificielle. Les utilisateurs peuvent ajouter un style de dessin animé, un effet 3D, un halo, des ailes et d'autres éléments décoratifs à des photos réelles en saisissant simplement des invites textuelles, générant ainsi une combinaison d'œuvres d'art réelles et virtuelles. Il est basé sur un puissant modèle d'apprentissage profond, prend en charge l'apprentissage par échantillonnage réduit et peut s'adapter rapidement au style personnalisé de l'utilisateur, ce qui le rend approprié pour les artistes, les concepteurs ou les utilisateurs ordinaires pour créer des œuvres créatives. Le projet est hébergé sur GitHub, qui fournit du code, des ensembles de données et des modèles pré-entraînés pour que les développeurs puissent les reproduire ou les développer deux fois. Sa fonction unique de "photo graffiti" comble les lacunes des logiciels d'édition traditionnels, en préservant l'intégrité de l'arrière-plan de la photo et en intégrant de manière transparente des éléments artistiques, ce qui a attiré l'attention du plus grand nombre.

Liste des fonctions

Édition d'œuvres d'art à partir de textesGénération automatique d'éléments de graffiti à partir d'une description textuelle (par exemple, "ajouter un monstre de dessin animé" ou "ajouter un effet de halo").
Soutien à l'apprentissage sans échantillonLe projet de loi sur l'éducation et la formation des adultes a été adopté par le Parlement européen en décembre 2007. Il s'agit d'un projet de loi sur l'éducation et la formation des adultes.
Fusion de haute qualité de la réalité et de la fictionLes éléments ajoutés doivent se fondre naturellement dans l'arrière-plan de la photo en termes de perspective, de lumière et d'ombre.
Ensembles de données et modèles ouvertsLe site Web de la Commission européenne : Il fournit des modèles pré-entraînés et des ensembles de données de styles différents pour permettre aux utilisateurs de les télécharger et de les utiliser directement.
Soutien à l'Open SourceLes développeurs peuvent modifier le code ou l'intégrer dans d'autres projets avec une grande flexibilité.
Capacité de traitement par lotsLa fonction d'édition : permet de modifier plusieurs images à la fois, pour plus d'efficacité.

Utiliser l'aide

PhotoDoodle est un projet open source basé sur GitHub, et les utilisateurs ont besoin d'une certaine base technique pour l'installer et l'utiliser. Ce qui suit est un guide d'installation et d'utilisation détaillé pour vous aider à démarrer rapidement.

Processus d'installation

Préparation de l'environnement
- Assurez-vous que Git, Python 3.11.10 et Conda sont installés sur votre ordinateur.
- Ouvrez un terminal et entrez la commande suivante pour cloner le projet localement :
```
git clone git@github.com:showlab/PhotoDoodle.git
cd PhotoDoodle
```
- Créer et activer un environnement virtuel :
```
conda create -n doodle python=3.11.10
conda activate doodle
```
Installation des dépendances
- Installez PyTorch (la version accélérée par CUDA est recommandée, si vous disposez d'un GPU) :
```
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
```
- Installer les autres dépendances :
```
pip install --upgrade -r requirements.txt
```
- Attendez la fin de l'installation et assurez-vous que le réseau est dégagé.
Télécharger le modèle pré-entraîné
- Le projet fournit plusieurs modèles pré-entraînés qui doivent être téléchargés manuellement. Visitez les pages GitHub Releases ou Hugging Face dataset de PhotoDoodle pour télécharger les fichiers de modèles (par ex. OmniEditor répondre en chantant EditLoRA).
- Placez les fichiers de modèle téléchargés dans le dossier spécifié dans le répertoire du projet (reportez-vous au fichier README pour la description du chemin, qui est généralement checkpoints/).
Vérifier l'installation
- Exécutez une commande de test (telle que l'exemple de script fourni dans le README) dans un terminal et vérifiez s'il y a des erreurs. S'il n'y a pas d'erreur, l'installation a réussi.

Utilisation

La fonctionnalité principale de PhotoDoodle est l'édition de photos par le biais de commandes textuelles, fonctionnant selon deux scénarios : l'utilisation directe de modèles pré-entraînés et l'entraînement personnalisé.

Retouche de photos à l'aide de modèles pré-entraînés

Préparer l'image
- Placez la photo à modifier (par ex. source.jpg) dans le répertoire du projet sous l'onglet input/ (si ce dossier n'existe pas, créez-le vous-même).
Exécuter la commande d'édition
- Entrez la commande suivante dans le terminal (en supposant qu'il soit activé) doodle (Environnement) :
```
python inference.py --source input/source.jpg --prompt "在照片上添加卡通风格的翅膀" --output output/result.jpg
```
- Paramètre Description :
  - --sourceSource : Source photo path.
  - --prompt: directive textuelle décrivant l'élément que vous souhaitez ajouter.
  - --output: Affiche le chemin d'accès au résultat.
- Après l'exécution, les résultats générés sont enregistrés dans le fichier output/result.jpg.
Voir les résultats
- spectacle (un billet) output/ pour vérifier les images générées. Les commandes d'ajustement (par exemple "Ajouter un effet d'ombre et de lumière") peuvent générer différents styles.

Formation sur mesure style personnalisation

Préparation d'ensembles de données appariées
- Créer un .jsonl (par exemple dataset.jsonl), en enregistrant une paire d'images et de descriptions par ligne :
```
{"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "添加蓝色光环"}
{"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "增加卡通怪物"}
```
- Préparez au moins 5 à 10 paires d'images qui reflètent vos besoins en matière de style.
Exécuter le script de formation
- commandant en chef (militaire) .jsonl dans le répertoire du projet et l'exécuter :
```
python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
```
- La durée de l'apprentissage dépend de la quantité de données et des performances du matériel (GPU recommandé). Une fois l'apprentissage terminé, le modèle est sauvegardé dans le fichier trained_model/.

Édition avec des modèles personnalisés

Inférence à l'aide de modèles formés :

python inference.py --source input/source.jpg --prompt "添加我的风格元素" --model trained_model/checkpoint.pth --output output/custom_result.jpg

Vérifier le résultat pour s'assurer qu'il est conforme aux attentes.

Détails du processus d'opération

édition par lots: Placer plusieurs images dans le input/ le script de modification prend en charge le traitement en boucle (par exemple, l'ajout de l'élément --batch se référer aux commentaires du code pour les détails de la mise en œuvre).
Effet d'ajustementSi le mélange n'est pas naturel, ajoutez des détails à l'indice (par exemple, "cohérent avec la lumière et l'ombre de l'arrière-plan") ou ajustez les paramètres du modèle (voir config/ (Documentation).
Problèmes de débogageSi quelque chose ne fonctionne pas, vérifiez la version de Python, les dépendances, ou consultez GitHub Issues pour obtenir l'aide de la communauté.

mise en garde

Configuration matérielle requise : il est recommandé d'utiliser un GPU (par exemple, NVIDIA CUDA) pour plus de rapidité ; le CPU peut fonctionner mais il est plus lent.
Qualité des données : plus la résolution de l'image d'entrée est élevée, meilleur est le résultat ; le jeu de données personnalisé doit être cohérent.
Expérience en ligne : certaines fonctionnalités peuvent être testées en ligne via Hugging Face Spaces sans installation locale.

Grâce à ces étapes, vous pouvez facilement ajouter un attrait artistique à vos photos avec PhotoDoodle, qu'il s'agisse d'un essai rapide ou d'une personnalisation approfondie.