综合介绍
One-Prompt-One-Story (1Prompt1Story) 是一个创新的文本到图像生成工具,旨在通过单一提示实现一致性图像生成。该项目由刘涛等人在ICLR 2025会议上提出,采用了一种无需训练的方法,能够在保持角色身份一致性的同时生成高质量的图像。1Prompt1Story 适用于所有基于文本嵌入的文本到图像模型,并支持多角色生成、ControlNet 引导生成和个性化生成。该工具通过单一提示输入,结合奇异值重加权和身份保持交叉注意力技术,确保生成的图像与输入描述高度一致。
功能列表
- 一致性身份图像生成:通过单一提示输入,生成保持角色身份一致的图像。
- Gradio 演示:提供在线演示,方便用户体验和测试。
- Consistory+ 基准测试:包含200个提示集,每个提示集中包含5到10个提示,分为8个超类。
- 多角色生成:支持生成包含多个角色的图像。
- ControlNet 引导生成:通过ControlNet技术引导生成过程。
- 个性化生成:支持根据用户需求生成个性化的真实图像。
使用帮助
安装流程
- 克隆此存储库:
git clone https://github.com/byliutao/1Prompt1Story
- 进入存储库目录:
cd 1Prompt1Story
- 创建并激活虚拟环境:
conda create --name 1p1s python=3.10
conda activate 1p1s
- 安装依赖项:
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install conda-forge::transformers
conda install -c conda-forge diffusers
pip install opencv-python scipy gradio==4.44.1 sympy==1.13.1
使用流程
- 运行示例代码:
python main.py
- 运行 Gradio 演示:
python app.py
- 运行 Consistory+ 基准测试:
python -m resource.gen_benchmark --save_dir ./result/benchmark --benchmark_path ./resource/consistory+.yaml
主要功能操作流程
- 一致性身份图像生成:在输入框中输入描述角色身份和场景的单一提示,点击生成按钮,即可获得保持角色身份一致的图像。
- 多角色生成:在提示中包含多个角色描述,工具会自动生成包含所有角色的图像。
- ControlNet 引导生成:在提示中加入ControlNet相关描述,生成过程会根据ControlNet技术进行引导,确保图像与描述高度一致。
- 个性化生成:根据用户输入的个性化描述,生成符合需求的真实图像。