PhotoDoodle: herramienta de AI para añadir garabatos artísticos a fotos con comandos de texto

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

Introducción general

PhotoDoodle es una herramienta de edición de imágenes de código abierto, desarrollada por ShowLab, que se centra en la edición artística de fotos mediante tecnología de inteligencia artificial. Los usuarios pueden añadir estilo de dibujos animados, efecto 3D, halo, alas y otros elementos decorativos a fotos reales simplemente introduciendo sencillas indicaciones de texto, generando una combinación de obras de arte reales y virtuales. Se basa en un potente modelo de aprendizaje profundo, admite menos muestras de aprendizaje y puede adaptarse rápidamente al estilo personalizado del usuario, por lo que resulta adecuado para que artistas, diseñadores o usuarios normales creen obras creativas. El proyecto está alojado en GitHub, proporcionando código, conjuntos de datos y modelos preentrenados para que los desarrolladores los reproduzcan o desarrollen dos veces. Su exclusiva función de "grafiti fotográfico" llena el vacío existente en el software de edición tradicional, preservando la integridad del fondo de la foto e integrando a la perfección elementos artísticos, lo que ha atraído una amplia atención.

Lista de funciones

Edición artística basada en textoGeneración automática de elementos de graffiti mediante descripción de texto (por ejemplo, "añadir monstruo de dibujos animados" o "añadir efecto halo").
Muestra menos apoyo al aprendizaje: Aprender y generar un estilo de edición personalizado con sólo una pequeña cantidad de datos de emparejamiento proporcionados por el usuario.
Fusión de alta calidad de realidad y ficciónEl objetivo es que los nuevos elementos añadidos se integren de forma natural con el fondo de la foto en términos de perspectiva, luces y sombras.
Conjuntos de datos y modelos abiertos: Proporciona modelos preentrenados y conjuntos de datos de diversos estilos para facilitar la descarga y el uso directos por parte del usuario.
Soporte de código abiertoPermite a los desarrolladores modificar el código o integrarlo en otros proyectos con gran flexibilidad.
Procesamiento por lotes: Admite la edición de varias imágenes a la vez para mayor eficacia.

Utilizar la ayuda

PhotoDoodle es un proyecto de código abierto basado en GitHub, y los usuarios necesitan una cierta base técnica para instalarlo y utilizarlo. A continuación encontrarás una guía detallada de instalación y uso que te ayudará a empezar rápidamente.

Proceso de instalación

Preparación medioambiental
- Asegúrate de que tienes Git, Python 3.11.10 y Conda instalados en tu ordenador.
- Abra un terminal e introduzca el siguiente comando para clonar el proyecto localmente:
```
git clone git@github.com:showlab/PhotoDoodle.git
cd PhotoDoodle
```
- Crear y activar un entorno virtual:
```
conda create -n doodle python=3.11.10
conda activate doodle
```
Instalación de dependencias
- Instala PyTorch (se recomienda la versión acelerada por CUDA, si tienes una GPU):
```
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
```
- Instale otras dependencias:
```
pip install --upgrade -r requirements.txt
```
- Espere a que finalice la instalación y asegúrese de que la red está libre.
Descargar modelo preentrenado
- El proyecto proporciona varios modelos preentrenados que deben descargarse manualmente. Visite las páginas GitHub Releases o Hugging Face dataset de PhotoDoodle para descargar los archivos de los modelos (p. ej. OmniEditor responder cantando EditLoRA).
- Coloque los archivos de modelo descargados en la carpeta especificada en el directorio del proyecto (consulte el archivo README para obtener la descripción de la ruta, que suele ser checkpoints/).
Verificar la instalación
- Ejecute un comando de prueba (como el script de ejemplo proporcionado en el README) en el terminal y compruebe si hay errores. Si no hay errores, la instalación se ha realizado correctamente.

Utilización

La funcionalidad principal de PhotoDoodle es la edición de fotos mediante comandos de texto, operando en dos escenarios: uso directo de modelos preentrenados y entrenamiento personalizado.

Edición de fotos con modelos preentrenados

Preparar la imagen
- Coloque la foto que desea editar (por ejemplo source.jpg) en el directorio del proyecto bajo el input/ (si esta carpeta no existe, créela usted mismo).
Ejecute el comando de edición
- Introduzca el siguiente comando en el terminal (suponiendo que esté activado) doodle (Medio Ambiente):
```
python inference.py --source input/source.jpg --prompt "在照片上添加卡通风格的翅膀" --output output/result.jpg
```
- Descripción de los parámetros:
  - --source: Fuente ruta de fotos.
  - --prompt: Una directiva de texto que describe el elemento que desea añadir.
  - --outputSalida de la ruta resultante.
- Tras la ejecución, los resultados generados se guardan en el archivo output/result.jpg.
Ver resultados
- espectáculo (una entrada) output/ para comprobar las imágenes generadas. Los comandos de ajuste (por ejemplo, "Añadir efecto de luces y sombras") pueden generar diferentes estilos.

Estilo de personalización de la formación

Preparación de conjuntos de datos emparejados
- Crear un .jsonl Archivos (por ejemplo dataset.jsonl), registrando un par de imágenes y descripciones por línea:
```
{"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "添加蓝色光环"}
{"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "增加卡通怪物"}
```
- Prepare al menos 5-10 pares de imágenes que reflejen sus necesidades de estilo.
Ejecutar el script de entrenamiento
- comandante en jefe (militar) .jsonl en el directorio del proyecto y ejecútelo:
```
python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
```
- El tiempo de entrenamiento depende de la cantidad de datos y del rendimiento del hardware (se recomienda GPU), y una vez completado el modelo se guarda en el archivo trained_model/.

Edición con modelos personalizados

Inferencia mediante modelos entrenados:

python inference.py --source input/source.jpg --prompt "添加我的风格元素" --model trained_model/checkpoint.pth --output output/custom_result.jpg

Compruebe el resultado para confirmar que cumple las expectativas.

Detalles del proceso operativo

edición por lotes: Coloca varias imágenes en el input/ el script de modificación admite el procesamiento en bucle (por ejemplo, la adición de la carpeta --batch consulte los comentarios del código para conocer los detalles de la implementación).
Efecto de ajusteSi la mezcla no es natural, añada detalles a la indicación (por ejemplo, "coherente con la iluminación del fondo") o ajuste los parámetros del modelo (véase config/ (Documentación).
Problemas de depuraciónSi algo va mal, comprueba la versión de Python, las dependencias o busca ayuda de la comunidad en GitHub Issues.

advertencia

Requisitos de hardware: se recomienda una GPU (por ejemplo, compatible con NVIDIA CUDA) para mayor velocidad; la CPU puede funcionar pero es más lenta.
Calidad de los datos: cuanto mayor sea la resolución de la imagen de entrada, mejor será el resultado; el conjunto de datos personalizado debe ser coherente.
Experiencia en línea: algunas funciones pueden probarse en línea a través de Hugging Face Spaces sin necesidad de instalación local.

Con estos pasos, podrás añadir fácilmente un atractivo artístico a tus fotos con PhotoDoodle, tanto si se trata de una prueba rápida como de una personalización en profundidad.