PhotoDoodle: herramienta de AI para añadir garabatos artísticos a fotos con comandos de texto
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 1.9K 00
Introducción general
PhotoDoodle es una herramienta de edición de imágenes de código abierto, desarrollada por ShowLab, que se centra en la edición artística de fotos mediante tecnología de inteligencia artificial. Los usuarios pueden añadir estilo de dibujos animados, efecto 3D, halo, alas y otros elementos decorativos a fotos reales simplemente introduciendo sencillas indicaciones de texto, generando una combinación de obras de arte reales y virtuales. Se basa en un potente modelo de aprendizaje profundo, admite menos muestras de aprendizaje y puede adaptarse rápidamente al estilo personalizado del usuario, por lo que resulta adecuado para que artistas, diseñadores o usuarios normales creen obras creativas. El proyecto está alojado en GitHub, proporcionando código, conjuntos de datos y modelos preentrenados para que los desarrolladores los reproduzcan o desarrollen dos veces. Su exclusiva función de "grafiti fotográfico" llena el vacío existente en el software de edición tradicional, preservando la integridad del fondo de la foto e integrando a la perfección elementos artísticos, lo que ha atraído una amplia atención.

Lista de funciones
- Edición artística basada en textoGeneración automática de elementos de graffiti mediante descripción de texto (por ejemplo, "añadir monstruo de dibujos animados" o "añadir efecto halo").
- Muestra menos apoyo al aprendizaje: Aprender y generar un estilo de edición personalizado con sólo una pequeña cantidad de datos de emparejamiento proporcionados por el usuario.
- Fusión de alta calidad de realidad y ficciónEl objetivo es que los nuevos elementos añadidos se integren de forma natural con el fondo de la foto en términos de perspectiva, luces y sombras.
- Conjuntos de datos y modelos abiertos: Proporciona modelos preentrenados y conjuntos de datos de diversos estilos para facilitar la descarga y el uso directos por parte del usuario.
- Soporte de código abiertoPermite a los desarrolladores modificar el código o integrarlo en otros proyectos con gran flexibilidad.
- Procesamiento por lotes: Admite la edición de varias imágenes a la vez para mayor eficacia.
Utilizar la ayuda
PhotoDoodle es un proyecto de código abierto basado en GitHub, y los usuarios necesitan una cierta base técnica para instalarlo y utilizarlo. A continuación encontrarás una guía detallada de instalación y uso que te ayudará a empezar rápidamente.
Proceso de instalación
- Preparación medioambiental
- Asegúrate de que tienes Git, Python 3.11.10 y Conda instalados en tu ordenador.
- Abra un terminal e introduzca el siguiente comando para clonar el proyecto localmente:
git clone git@github.com:showlab/PhotoDoodle.git cd PhotoDoodle
- Crear y activar un entorno virtual:
conda create -n doodle python=3.11.10 conda activate doodle
- Instalación de dependencias
- Instala PyTorch (se recomienda la versión acelerada por CUDA, si tienes una GPU):
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
- Instale otras dependencias:
pip install --upgrade -r requirements.txt
- Espere a que finalice la instalación y asegúrese de que la red está libre.
- Instala PyTorch (se recomienda la versión acelerada por CUDA, si tienes una GPU):
- Descargar modelo preentrenado
- El proyecto proporciona varios modelos preentrenados que deben descargarse manualmente. Visite las páginas GitHub Releases o Hugging Face dataset de PhotoDoodle para descargar los archivos de los modelos (p. ej.
OmniEditor
responder cantandoEditLoRA
). - Coloque los archivos de modelo descargados en la carpeta especificada en el directorio del proyecto (consulte el archivo README para obtener la descripción de la ruta, que suele ser
checkpoints/
).
- El proyecto proporciona varios modelos preentrenados que deben descargarse manualmente. Visite las páginas GitHub Releases o Hugging Face dataset de PhotoDoodle para descargar los archivos de los modelos (p. ej.
- Verificar la instalación
- Ejecute un comando de prueba (como el script de ejemplo proporcionado en el README) en el terminal y compruebe si hay errores. Si no hay errores, la instalación se ha realizado correctamente.
Utilización
La funcionalidad principal de PhotoDoodle es la edición de fotos mediante comandos de texto, operando en dos escenarios: uso directo de modelos preentrenados y entrenamiento personalizado.
Edición de fotos con modelos preentrenados
- Preparar la imagen
- Coloque la foto que desea editar (por ejemplo
source.jpg
) en el directorio del proyecto bajo elinput/
(si esta carpeta no existe, créela usted mismo).
- Coloque la foto que desea editar (por ejemplo
- Ejecute el comando de edición
- Introduzca el siguiente comando en el terminal (suponiendo que esté activado)
doodle
(Medio Ambiente):python inference.py --source input/source.jpg --prompt "在照片上添加卡通风格的翅膀" --output output/result.jpg
- Descripción de los parámetros:
--source
: Fuente ruta de fotos.--prompt
: Una directiva de texto que describe el elemento que desea añadir.--output
Salida de la ruta resultante.
- Tras la ejecución, los resultados generados se guardan en el archivo
output/result.jpg
.
- Introduzca el siguiente comando en el terminal (suponiendo que esté activado)
- Ver resultados
- espectáculo (una entrada)
output/
para comprobar las imágenes generadas. Los comandos de ajuste (por ejemplo, "Añadir efecto de luces y sombras") pueden generar diferentes estilos.
- espectáculo (una entrada)
Estilo de personalización de la formación
- Preparación de conjuntos de datos emparejados
- Crear un
.jsonl
Archivos (por ejemplodataset.jsonl
), registrando un par de imágenes y descripciones por línea:{"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "添加蓝色光环"} {"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "增加卡通怪物"}
- Prepare al menos 5-10 pares de imágenes que reflejen sus necesidades de estilo.
- Crear un
- Ejecutar el script de entrenamiento
- comandante en jefe (militar)
.jsonl
en el directorio del proyecto y ejecútelo:python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
- El tiempo de entrenamiento depende de la cantidad de datos y del rendimiento del hardware (se recomienda GPU), y una vez completado el modelo se guarda en el archivo
trained_model/
.
- comandante en jefe (militar)
- Edición con modelos personalizados
- Inferencia mediante modelos entrenados:
python inference.py --source input/source.jpg --prompt "添加我的风格元素" --model trained_model/checkpoint.pth --output output/custom_result.jpg
- Compruebe el resultado para confirmar que cumple las expectativas.
- Inferencia mediante modelos entrenados:
Detalles del proceso operativo
- edición por lotes: Coloca varias imágenes en el
input/
el script de modificación admite el procesamiento en bucle (por ejemplo, la adición de la carpeta--batch
consulte los comentarios del código para conocer los detalles de la implementación). - Efecto de ajusteSi la mezcla no es natural, añada detalles a la indicación (por ejemplo, "coherente con la iluminación del fondo") o ajuste los parámetros del modelo (véase
config/
(Documentación). - Problemas de depuraciónSi algo va mal, comprueba la versión de Python, las dependencias o busca ayuda de la comunidad en GitHub Issues.
advertencia
- Requisitos de hardware: se recomienda una GPU (por ejemplo, compatible con NVIDIA CUDA) para mayor velocidad; la CPU puede funcionar pero es más lenta.
- Calidad de los datos: cuanto mayor sea la resolución de la imagen de entrada, mejor será el resultado; el conjunto de datos personalizado debe ser coherente.
- Experiencia en línea: algunas funciones pueden probarse en línea a través de Hugging Face Spaces sin necesidad de instalación local.
Con estos pasos, podrás añadir fácilmente un atractivo artístico a tus fotos con PhotoDoodle, tanto si se trata de una prueba rápida como de una personalización en profundidad.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...