PiT : outil permettant de reconstituer des images complètes à partir de parties d'images (non ouvert)
Introduction générale
PiT (Piece it Together) est un outil open source hébergé sur GitHub et développé par des chercheurs tels qu'Elad Richardson de l'Université de Tel Aviv. PiT élimine le besoin de descriptions textuelles, en utilisant les parties de l'image comme entrée, et s'appuie sur un modèle pré-entraîné, IP-Prior, pour remplir les pièces manquantes, et enfin rendre le résultat via SDXL. Cet outil convient aux concepteurs visuels ou aux chercheurs qui souhaitent rapidement rassembler des idées créatives. Le code et la description les plus récents de PiT, en date du 25 mars 2025, sont disponibles sur GitHub.

Liste des fonctions
- puzzleLe système de gestion de l'image : Il s'agit de saisir des parties d'images fragmentées pour générer une image complète.
- Le souci du détailLes images complémentaires restent cohérentes, en fonction des caractéristiques de la pièce.
- Entrée d'image pureLes images sont les seules à pouvoir être utilisées, sans qu'aucun texte ne soit nécessaire.
- Résultats multiplesLes images peuvent être composées de différents nombres de pièces, ce qui permet d'obtenir un large éventail d'images possibles.
- projet open sourceLe code est disponible publiquement sur GitHub et peut être librement téléchargé et modifié.
- Styles disponiblesLe système IP-LoRA permet de générer des images de style spécifiques en ajustant le système IP-LoRA.
- adaptation du domaineLes modèles IP-Prior : Différents modèles IP-Prior peuvent être utilisés pour générer des images adaptées à des sujets spécifiques.
Utiliser l'aide
PiT est un projet open source sur GitHub pour les utilisateurs ayant des compétences de base en programmation. Voici un guide d'installation et d'utilisation détaillé pour vous aider à démarrer rapidement.
Processus d'installation
- Préparation de l'environnement
- Assurez-vous que votre ordinateur dispose de Python 3.8 ou d'une version supérieure.
- Installation de Git (Windows à partir de
git-scm.com
Télécharger, Entrée Mac/Linuxgit --version
(Vérifier). - Il est recommandé d'utiliser un appareil doté d'un GPU (par exemple une carte graphique NVIDIA avec CUDA) pour accélérer la génération. Il est possible de l'utiliser sans GPU, mais il est plus lent.
- Télécharger le code
- Ouvrez un terminal ou une ligne de commande.
- Entrez la commande pour télécharger PiT :
git clone https://github.com/eladrich/PiT.git
- Allez dans le dossier du projet :
cd PiT
- Installation des dépendances
- Le projet nécessite des bibliothèques Python telles que
torch
,numpy
La liste est disponible à l'adresse suivanterequirements.txt
Au milieu. - Exécutez la commande d'installation :
pip install -r requirements.txt
- Si vous ne disposez pas de ce fichier, reportez-vous au README pour l'installer.
diffusers
,transformers
etc.
- Le projet nécessite des bibliothèques Python telles que
- Obtenir le modèle
- PiT s'appuie sur les modèles IP-Prior et IP-Adapter+, les liens de téléchargement se trouvent sur GitHub ou dans le document (https://arxiv.org/abs/2503.10365).
- Placer le modèle dans le répertoire spécifié (par ex.
models/
), voir le README pour le chemin d'accès.
- Installation de SDXL
- PiT rend les images avec SDXL. Installation
diffusers
: :pip install diffusers
- Téléchargez le modèle SDXL à partir de Hugging Face et enregistrez-le localement.
- PiT rend les images avec SDXL. Installation
Utilisation
- Préparer les pièces
- Il est recommandé de rassembler les parties de l'image (par exemple les oreilles, les logos) au format PNG avec des arrière-plans propres.
- Dans le dossier d'entrée du projet (par ex.
input/
).
- programme de course
- Entrez dans le répertoire PiT dans le terminal.
- Exécuter le script (en supposant que
generate.py
(voir README pour plus de détails) :python generate.py --input_dir input/ --output_dir output/
- Paramètre Description :
--input_dir
: Dossier de pièces détachées.--output_dir
Les résultats sont enregistrés dans le dossier.
- Le programme génère l'image complète avec la pièce.
- Voir l'image
- Après la génération, ouvrez le
output/
Vue du dossier. - Si vous n'êtes pas satisfait, ajoutez des pièces ou modifiez l'image claire.
- Après la génération, ouvrez le
Fonction en vedette Fonctionnement
- Nombre de pièces
Vous pouvez saisir 1 ou plusieurs parties. Par exemple, donnez "patte" et "queue" pour générer un animal complet. Il est préférable d'avoir le même style de parties. - le stylisme
Des indices de style peuvent être ajoutés avec IP-LoRA. Exemple :python generate.py --input_dir input/ --output_dir output/ --prompt "卡通风格"
Il est alors possible de générer des images caricaturales.
- (math.) modèle de domaine commutatif
PiT prend en charge différents modèles IP-Prior (par exemple, les jouets, les créatures). Le fichier modèle correspondant est chargé lors de la commutation, voir le README pour le fonctionnement. - Résultats de l'optimisation
Si l'image est floue, vérifiez si la pièce est claire ou ajoutez des paramètres :python generate.py --input_dir input/ --steps 50
mise en garde
- Les parties doivent être claires et éviter d'être trop petites ou encombrées.
- Le premier passage est lent, les suivants seront rapides.
- En cas d'erreur, installez les bibliothèques manquantes comme demandé.
Ces étapes vous aideront à composer une image complète avec le PiT. L'opération nécessite une programmation, mais le processus est simple.
scénario d'application
- Inspiration du design
Les concepteurs saisissent des pièces (ailes, chapeaux, etc.) pour composer des personnages complets et tester rapidement des idées. - Concept de produit
Les développeurs utilisent des pièces (par exemple, des boutons, des formes) pour générer de nouvelles images de produits et explorer des directions de conception. - Apprentissage technique
Les chercheurs ont utilisé le PiT pour tester la façon dont l'IA peut reconstituer des pièces pour comprendre les principes de la génération d'images.
QA
- Quelle est la différence entre le PiT et d'autres outils ?
PiT est un puzzle direct avec des parties d'images, sans texte, adapté à la création visuelle. - Faut-il former le modèle ?
Ce n'est pas nécessaire, il existe des modèles officiels pré-entraînés, mais vous pouvez les entraîner et les ajuster vous-même. - Est-il rapide à générer ?
Il n'est pas rapide, il prend de quelques secondes à quelques minutes en fonction de l'appareil.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...