PiT : outil permettant de reconstituer des images complètes à partir de parties d'images (non ouvert)

Dernières ressources sur l'IAPosté il y a 6 mois Cercle de partage de l'IA

Introduction générale

PiT (Piece it Together) est un outil open source hébergé sur GitHub et développé par des chercheurs tels qu'Elad Richardson de l'Université de Tel Aviv. PiT élimine le besoin de descriptions textuelles, en utilisant les parties de l'image comme entrée, et s'appuie sur un modèle pré-entraîné, IP-Prior, pour remplir les pièces manquantes, et enfin rendre le résultat via SDXL. Cet outil convient aux concepteurs visuels ou aux chercheurs qui souhaitent rapidement rassembler des idées créatives. Le code et la description les plus récents de PiT, en date du 25 mars 2025, sont disponibles sur GitHub.

Liste des fonctions

puzzleLe système de gestion de l'image : Il s'agit de saisir des parties d'images fragmentées pour générer une image complète.
Le souci du détailLes images complémentaires restent cohérentes, en fonction des caractéristiques de la pièce.
Entrée d'image pureLes images sont les seules à pouvoir être utilisées, sans qu'aucun texte ne soit nécessaire.
Résultats multiplesLes images peuvent être composées de différents nombres de pièces, ce qui permet d'obtenir un large éventail d'images possibles.
projet open sourceLe code est disponible publiquement sur GitHub et peut être librement téléchargé et modifié.
Styles disponiblesLe système IP-LoRA permet de générer des images de style spécifiques en ajustant le système IP-LoRA.
adaptation du domaineLes modèles IP-Prior : Différents modèles IP-Prior peuvent être utilisés pour générer des images adaptées à des sujets spécifiques.

Utiliser l'aide

PiT est un projet open source sur GitHub pour les utilisateurs ayant des compétences de base en programmation. Voici un guide d'installation et d'utilisation détaillé pour vous aider à démarrer rapidement.

Processus d'installation

Préparation de l'environnement
- Assurez-vous que votre ordinateur dispose de Python 3.8 ou d'une version supérieure.
- Installation de Git (Windows à partir de git-scm.com Télécharger, Entrée Mac/Linux git --version (Vérifier).
- Il est recommandé d'utiliser un appareil doté d'un GPU (par exemple une carte graphique NVIDIA avec CUDA) pour accélérer la génération. Il est possible de l'utiliser sans GPU, mais il est plus lent.
Télécharger le code
- Ouvrez un terminal ou une ligne de commande.
- Entrez la commande pour télécharger PiT :
```
git clone https://github.com/eladrich/PiT.git
```
- Allez dans le dossier du projet :
```
cd PiT
```
Installation des dépendances
- Le projet nécessite des bibliothèques Python telles que torch,numpyLa liste est disponible à l'adresse suivante requirements.txt Au milieu.
- Exécutez la commande d'installation :
```
pip install -r requirements.txt
```
- Si vous ne disposez pas de ce fichier, reportez-vous au README pour l'installer. diffusers,transformers etc.
Obtenir le modèle
- PiT s'appuie sur les modèles IP-Prior et IP-Adapter+, les liens de téléchargement se trouvent sur GitHub ou dans le document (https://arxiv.org/abs/2503.10365).
- Placer le modèle dans le répertoire spécifié (par ex. models/), voir le README pour le chemin d'accès.
Installation de SDXL
- PiT rend les images avec SDXL. Installation diffusers: :
```
pip install diffusers
```
- Téléchargez le modèle SDXL à partir de Hugging Face et enregistrez-le localement.

Utilisation

Préparer les pièces
- Il est recommandé de rassembler les parties de l'image (par exemple les oreilles, les logos) au format PNG avec des arrière-plans propres.
- Dans le dossier d'entrée du projet (par ex. input/).
programme de course
- Entrez dans le répertoire PiT dans le terminal.
- Exécuter le script (en supposant que generate.py(voir README pour plus de détails) :
```
python generate.py --input_dir input/ --output_dir output/
```
- Paramètre Description :
  - --input_dir: Dossier de pièces détachées.
  - --output_dirLes résultats sont enregistrés dans le dossier.
- Le programme génère l'image complète avec la pièce.
Voir l'image
- Après la génération, ouvrez le output/ Vue du dossier.
- Si vous n'êtes pas satisfait, ajoutez des pièces ou modifiez l'image claire.

Fonction en vedette Fonctionnement

Nombre de pièces
Vous pouvez saisir 1 ou plusieurs parties. Par exemple, donnez "patte" et "queue" pour générer un animal complet. Il est préférable d'avoir le même style de parties.
le stylisme
Des indices de style peuvent être ajoutés avec IP-LoRA. Exemple :
```
python generate.py --input_dir input/ --output_dir output/ --prompt "卡通风格"
```
Il est alors possible de générer des images caricaturales.
(math.) modèle de domaine commutatif
PiT prend en charge différents modèles IP-Prior (par exemple, les jouets, les créatures). Le fichier modèle correspondant est chargé lors de la commutation, voir le README pour le fonctionnement.
Résultats de l'optimisation
Si l'image est floue, vérifiez si la pièce est claire ou ajoutez des paramètres :
```
python generate.py --input_dir input/ --steps 50
```

mise en garde

Les parties doivent être claires et éviter d'être trop petites ou encombrées.
Le premier passage est lent, les suivants seront rapides.
En cas d'erreur, installez les bibliothèques manquantes comme demandé.

Ces étapes vous aideront à composer une image complète avec le PiT. L'opération nécessite une programmation, mais le processus est simple.

scénario d'application

Inspiration du design
Les concepteurs saisissent des pièces (ailes, chapeaux, etc.) pour composer des personnages complets et tester rapidement des idées.
Concept de produit
Les développeurs utilisent des pièces (par exemple, des boutons, des formes) pour générer de nouvelles images de produits et explorer des directions de conception.
Apprentissage technique
Les chercheurs ont utilisé le PiT pour tester la façon dont l'IA peut reconstituer des pièces pour comprendre les principes de la génération d'images.

QA

Quelle est la différence entre le PiT et d'autres outils ?
PiT est un puzzle direct avec des parties d'images, sans texte, adapté à la création visuelle.
Faut-il former le modèle ?
Ce n'est pas nécessaire, il existe des modèles officiels pré-entraînés, mais vous pouvez les entraîner et les ajuster vous-même.
Est-il rapide à générer ?
Il n'est pas rapide, il prend de quelques secondes à quelques minutes en fonction de l'appareil.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Tencent Smart Shadow : Outil de création vidéo intelligent | AI Digital Man, Anime Generation Kit

Dernières ressources sur l'IA # AI Rédaction # AI Digital Man # AI text to video

il y a 1 an

021.8K

L'essaim : un outil très efficace pour exploiter les relations du réseau de l'équipe

Dernières ressources sur l'IA # Outils de productivité professionnels

il y a 5 mois

018.5K

PodLM : Générer des podcasts audio multilingues de dialogues, de pages web ou de textes longs (payant)

Dernières ressources sur l'IA # Synthèse vocale AI

Il y a 11 mois

018.3K

GLM-4.5V - Modèle de raisonnement visuel multimodal Open Source par Smart Spectrum

Dernières ressources sur l'IA

Il y a 1 mois

022.1K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

PiT : outil permettant de reconstituer des images complètes à partir de parties d'images (non ouvert)

Introduction générale

Liste des fonctions