PhotoDoodle : outil d'IA permettant d'ajouter des gribouillis artistiques à des photos à l'aide de commandes textuelles
Introduction générale
PhotoDoodle est un outil d'édition d'images open source, développé par ShowLab, qui se concentre sur l'édition artistique de photos grâce à la technologie de l'intelligence artificielle. Les utilisateurs peuvent ajouter un style de dessin animé, un effet 3D, un halo, des ailes et d'autres éléments décoratifs à des photos réelles en saisissant simplement des invites textuelles, générant ainsi une combinaison d'œuvres d'art réelles et virtuelles. Il est basé sur un puissant modèle d'apprentissage profond, prend en charge l'apprentissage par échantillonnage réduit et peut s'adapter rapidement au style personnalisé de l'utilisateur, ce qui le rend approprié pour les artistes, les concepteurs ou les utilisateurs ordinaires pour créer des œuvres créatives. Le projet est hébergé sur GitHub, qui fournit du code, des ensembles de données et des modèles pré-entraînés pour que les développeurs puissent les reproduire ou les développer deux fois. Sa fonction unique de "photo graffiti" comble les lacunes des logiciels d'édition traditionnels, en préservant l'intégrité de l'arrière-plan de la photo et en intégrant de manière transparente des éléments artistiques, ce qui a attiré l'attention du plus grand nombre.

Liste des fonctions
- Édition d'œuvres d'art à partir de textesGénération automatique d'éléments de graffiti à partir d'une description textuelle (par exemple, "ajouter un monstre de dessin animé" ou "ajouter un effet de halo").
- Soutien à l'apprentissage sans échantillonLe projet de loi sur l'éducation et la formation des adultes a été adopté par le Parlement européen en décembre 2007. Il s'agit d'un projet de loi sur l'éducation et la formation des adultes.
- Fusion de haute qualité de la réalité et de la fictionLes éléments ajoutés doivent se fondre naturellement dans l'arrière-plan de la photo en termes de perspective, de lumière et d'ombre.
- Ensembles de données et modèles ouvertsLe site Web de la Commission européenne : Il fournit des modèles pré-entraînés et des ensembles de données de styles différents pour permettre aux utilisateurs de les télécharger et de les utiliser directement.
- Soutien à l'Open SourceLes développeurs peuvent modifier le code ou l'intégrer dans d'autres projets avec une grande flexibilité.
- Capacité de traitement par lotsLa fonction d'édition : permet de modifier plusieurs images à la fois, pour plus d'efficacité.
Utiliser l'aide
PhotoDoodle est un projet open source basé sur GitHub, et les utilisateurs ont besoin d'une certaine base technique pour l'installer et l'utiliser. Ce qui suit est un guide d'installation et d'utilisation détaillé pour vous aider à démarrer rapidement.
Processus d'installation
- Préparation de l'environnement
- Assurez-vous que Git, Python 3.11.10 et Conda sont installés sur votre ordinateur.
- Ouvrez un terminal et entrez la commande suivante pour cloner le projet localement :
git clone git@github.com:showlab/PhotoDoodle.git cd PhotoDoodle
- Créer et activer un environnement virtuel :
conda create -n doodle python=3.11.10 conda activate doodle
- Installation des dépendances
- Installez PyTorch (la version accélérée par CUDA est recommandée, si vous disposez d'un GPU) :
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
- Installer les autres dépendances :
pip install --upgrade -r requirements.txt
- Attendez la fin de l'installation et assurez-vous que le réseau est dégagé.
- Installez PyTorch (la version accélérée par CUDA est recommandée, si vous disposez d'un GPU) :
- Télécharger le modèle pré-entraîné
- Le projet fournit plusieurs modèles pré-entraînés qui doivent être téléchargés manuellement. Visitez les pages GitHub Releases ou Hugging Face dataset de PhotoDoodle pour télécharger les fichiers de modèles (par ex.
OmniEditor
répondre en chantantEditLoRA
). - Placez les fichiers de modèle téléchargés dans le dossier spécifié dans le répertoire du projet (reportez-vous au fichier README pour la description du chemin, qui est généralement
checkpoints/
).
- Le projet fournit plusieurs modèles pré-entraînés qui doivent être téléchargés manuellement. Visitez les pages GitHub Releases ou Hugging Face dataset de PhotoDoodle pour télécharger les fichiers de modèles (par ex.
- Vérifier l'installation
- Exécutez une commande de test (telle que l'exemple de script fourni dans le README) dans un terminal et vérifiez s'il y a des erreurs. S'il n'y a pas d'erreur, l'installation a réussi.
Utilisation
La fonctionnalité principale de PhotoDoodle est l'édition de photos par le biais de commandes textuelles, fonctionnant selon deux scénarios : l'utilisation directe de modèles pré-entraînés et l'entraînement personnalisé.
Retouche de photos à l'aide de modèles pré-entraînés
- Préparer l'image
- Placez la photo à modifier (par ex.
source.jpg
) dans le répertoire du projet sous l'ongletinput/
(si ce dossier n'existe pas, créez-le vous-même).
- Placez la photo à modifier (par ex.
- Exécuter la commande d'édition
- Entrez la commande suivante dans le terminal (en supposant qu'il soit activé)
doodle
(Environnement) :python inference.py --source input/source.jpg --prompt "在照片上添加卡通风格的翅膀" --output output/result.jpg
- Paramètre Description :
--source
Source : Source photo path.--prompt
: directive textuelle décrivant l'élément que vous souhaitez ajouter.--output
: Affiche le chemin d'accès au résultat.
- Après l'exécution, les résultats générés sont enregistrés dans le fichier
output/result.jpg
.
- Entrez la commande suivante dans le terminal (en supposant qu'il soit activé)
- Voir les résultats
- spectacle (un billet)
output/
pour vérifier les images générées. Les commandes d'ajustement (par exemple "Ajouter un effet d'ombre et de lumière") peuvent générer différents styles.
- spectacle (un billet)
Formation sur mesure style personnalisation
- Préparation d'ensembles de données appariées
- Créer un
.jsonl
(par exempledataset.jsonl
), en enregistrant une paire d'images et de descriptions par ligne :{"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "添加蓝色光环"} {"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "增加卡通怪物"}
- Préparez au moins 5 à 10 paires d'images qui reflètent vos besoins en matière de style.
- Créer un
- Exécuter le script de formation
- commandant en chef (militaire)
.jsonl
dans le répertoire du projet et l'exécuter :python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
- La durée de l'apprentissage dépend de la quantité de données et des performances du matériel (GPU recommandé). Une fois l'apprentissage terminé, le modèle est sauvegardé dans le fichier
trained_model/
.
- commandant en chef (militaire)
- Édition avec des modèles personnalisés
- Inférence à l'aide de modèles formés :
python inference.py --source input/source.jpg --prompt "添加我的风格元素" --model trained_model/checkpoint.pth --output output/custom_result.jpg
- Vérifier le résultat pour s'assurer qu'il est conforme aux attentes.
- Inférence à l'aide de modèles formés :
Détails du processus d'opération
- édition par lots: Placer plusieurs images dans le
input/
le script de modification prend en charge le traitement en boucle (par exemple, l'ajout de l'élément--batch
se référer aux commentaires du code pour les détails de la mise en œuvre). - Effet d'ajustementSi le mélange n'est pas naturel, ajoutez des détails à l'indice (par exemple, "cohérent avec la lumière et l'ombre de l'arrière-plan") ou ajustez les paramètres du modèle (voir
config/
(Documentation). - Problèmes de débogageSi quelque chose ne fonctionne pas, vérifiez la version de Python, les dépendances, ou consultez GitHub Issues pour obtenir l'aide de la communauté.
mise en garde
- Configuration matérielle requise : il est recommandé d'utiliser un GPU (par exemple, NVIDIA CUDA) pour plus de rapidité ; le CPU peut fonctionner mais il est plus lent.
- Qualité des données : plus la résolution de l'image d'entrée est élevée, meilleur est le résultat ; le jeu de données personnalisé doit être cohérent.
- Expérience en ligne : certaines fonctionnalités peuvent être testées en ligne via Hugging Face Spaces sans installation locale.
Grâce à ces étapes, vous pouvez facilement ajouter un attrait artistique à vos photos avec PhotoDoodle, qu'il s'agisse d'un essai rapide ou d'une personnalisation approfondie.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...