PhotoDoodle：文字指令为照片添加艺术涂鸦的AI工具

68.6K 00

综合介绍

PhotoDoodle 是一个开源的图像编辑工具，由 ShowLab 开发，专注于通过人工智能技术实现照片的艺术化编辑。用户只需输入简单的文本提示词，就能为真实照片添加卡通风格、3D效果、光环、翅膀等装饰元素，生成虚实结合的艺术作品。它基于强大的深度学习模型，支持少样本学习，能快速适应用户个性化风格，适合艺术家、设计师或普通用户进行创意创作。项目托管于 GitHub，提供代码、数据集和预训练模型，方便开发者复现或二次开发。其独特的“照片涂鸦”功能填补了传统编辑软件的空白，既保留照片背景完整性，又能无缝融入艺术元素，广受关注。

功能列表

文本驱动的艺术编辑：通过文字描述（如“添加卡通怪物”或“增加光环效果”），自动生成相应的涂鸦元素。
少样本学习支持：只需少量用户提供的配对数据，就能学习并生成个性化编辑风格。
高质量虚实融合：确保新添加的元素与照片背景在视角、光影上自然融合。
数据集与模型开放：提供预训练模型和多样化风格数据集，支持用户直接下载使用。
开源代码支持：允许开发者修改代码或集成到其他项目中，灵活性高。
批量处理能力：支持一次性编辑多张图片，提高效率。

使用帮助

PhotoDoodle 是一个基于 GitHub 的开源项目，用户需要一定的技术基础来安装和使用。以下是详细的安装与使用指南，帮助你快速上手。

安装流程

环境准备
- 确保你的电脑已安装 Git、Python 3.11.10 和 Conda。
- 打开终端，输入以下命令克隆项目到本地：
```
git clone git@github.com:showlab/PhotoDoodle.git
cd PhotoDoodle
```
- 创建并激活虚拟环境：
```
conda create -n doodle python=3.11.10
conda activate doodle
```

安装依赖

安装 PyTorch（建议使用 CUDA 加速版本，若有 GPU）：

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124

安装其他依赖：

pip install --upgrade -r requirements.txt

等待安装完成，确保网络畅通。

下载预训练模型
- 项目提供了多个预训练模型，需手动下载。访问 PhotoDoodle 的 GitHub Releases 或 Hugging Face 数据集页面，下载模型文件（如 OmniEditor 和 EditLoRA）。
- 将下载的模型文件放入项目目录下的指定文件夹（参考 README 中的路径说明，通常为 checkpoints/）。
验证安装
- 在终端运行测试命令（如 README 中提供的示例脚本），检查是否报错。若无错误，安装成功。

使用方法

PhotoDoodle 的核心功能是通过文本指令编辑照片，操作分为两种场景：直接使用预训练模型和自定义训练。

使用预训练模型编辑照片

准备图片
- 将需要编辑的照片（如 source.jpg）放入项目目录下的 input/ 文件夹（若无此文件夹，自行创建）。
运行编辑命令
- 在终端输入以下命令（假设已激活 doodle 环境）：
```
python inference.py --source input/source.jpg --prompt "在照片上添加卡通风格的翅膀" --output output/result.jpg
```
- 参数说明：
  - --source：源照片路径。
  - --prompt：文本指令，描述想要添加的元素。
  - --output：输出结果路径。
- 运行后，生成的结果会保存在 output/result.jpg。
查看结果
- 打开 output/ 文件夹，检查生成的图片。调整指令（如“增加光影效果”）可生成不同风格。

自定义训练个性化风格

准备配对数据集

创建一个 .jsonl 文件（如 dataset.jsonl），每行记录一对图片和描述：

{"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "添加蓝色光环"}
{"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "增加卡通怪物"}

至少准备 5-10 对图片，反映你的风格需求。

运行训练脚本
- 将 .jsonl 文件放入项目目录，然后执行：
```
python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
```
- 训练时间取决于数据量和硬件性能（GPU 推荐），完成后模型保存在 trained_model/。

使用自定义模型编辑

使用训练好的模型进行推理：

python inference.py --source input/source.jpg --prompt "添加我的风格元素" --model trained_model/checkpoint.pth --output output/custom_result.jpg

检查输出结果，确认是否符合预期。

操作流程详解

批量编辑：将多张图片放入 input/ 文件夹，修改脚本支持循环处理（如添加 --batch 参数，具体实现参考代码注释）。
调整效果：若融合不自然，可在提示词中加入细节描述（如“与背景光影一致”），或调整模型参数（见 config/ 文件）。
调试问题：若运行出错，检查 Python 版本、依赖是否完整，或查看 GitHub Issues 寻求社区帮助。

注意事项

硬件要求：建议使用 GPU（如 NVIDIA CUDA 支持）以提升速度，CPU 也可运行但较慢。
数据质量：输入图片分辨率越高，效果越好；自定义数据集需保持一致性。
在线体验：部分功能可通过 Hugging Face Spaces 在线测试，无需本地安装。

通过以上步骤，你可以轻松使用 PhotoDoodle 为照片增添艺术魅力，无论是快速试用还是深度定制，都能满足需求。

最新AI资源 # AI图像编辑 # AI开源项目

文章版权归 AI分享圈所有，未经允许请勿转载。

OpenCharacter：开源无审查的Character.AI替代品

最新AI资源 # AI开源项目 # AI角色扮演

1年前

0112.5K

UGCGenerator：AI生成个性内容视频广告，轻松实现病毒式传播

最新AI资源 # AI营销 # AI视频生成工具

1年前

059K

FinRobot：提升金融数据分析效率和投资研究的的智能体

最新AI资源 # AI开源项目 # AI金融数据分析

1年前

072.6K

Zed：Rust开发的高性能多人协作代码编辑器

最新AI资源 # AI IDE # AI开源项目 # AI编程

1年前

063.2K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

PhotoDoodle：文字指令为照片添加艺术涂鸦的AI工具

综合介绍

功能列表

使用帮助

安装流程

使用方法

使用预训练模型编辑照片

自定义训练个性化风格

操作流程详解

注意事项

DiffRhythm(谛韵)：10秒内生成最长4分45秒的歌曲

Foudinge Scrub：从餐厅评论中构建知识图谱

相关文章

OpenCharacter：开源无审查的Character.AI替代品

UGCGenerator：AI生成个性内容视频广告，轻松实现病毒式传播

FinRobot：提升金融数据分析效率和投资研究的的智能体

Zed：Rust开发的高性能多人协作代码编辑器

暂无评论

最新收录

最新文章

PhotoDoodle：文字指令为照片添加艺术涂鸦的AI工具

综合介绍

功能列表

使用帮助

安装流程

使用方法

使用预训练模型编辑照片

自定义训练个性化风格

操作流程详解

注意事项

DiffRhythm(谛韵)：10秒内生成最长4分45秒的歌曲

Foudinge Scrub：从餐厅评论中构建知识图谱

相关文章

OpenCharacter：开源无审查的Character.AI替代品

UGCGenerator：AI生成个性内容视频广告，轻松实现病毒式传播

FinRobot：提升金融数据分析效率和投资研究的的智能体

Zed：Rust开发的高性能多人协作代码编辑器

暂无评论

AI工具精选

最新收录

最新文章