FireRed-Image-Edit - 小红书团队开源的通用图像编辑模型

36.8K 00

FireRed-Image-Edit是什么

FireRed-Image-Edit 是小红书 Super Intelligence 团队开源的通用图像编辑模型，基于扩散 Transformer 架构，在 GEdit、ImgEdit 等多个权威评测集上取得 SOTA 成绩，效果可媲美闭源方案。模型支持文本引导的图像编辑、多图融合（如虚拟试穿）、文字风格保留、老照片修复等核心功能，原生支持中英文提示词。技术上采用区域感知机制、多阶段训练策略（基于 16 亿样本语料）及非对称梯度优化，在 REDEdit-Bench 文字编辑任务中得分高达 4.97。模型采用 Apache 2.0 协议开源，适用于电商内容创作、广告设计、老照片修复等场景，同时提供 Hugging Face 在线体验和商用 API 服务。

FireRed-Image-Edit的功能特色

文本引导图像编辑：通过自然语言指令精确控制图像修改，支持替换物体、调整风格、改变背景等操作。
多图融合编辑：支持同时上传多张参考图（如人物+服装），通过"Figure 1"、"Figure 2"等方式引用，实现虚拟试穿等复杂场景。
文字风格保留：高保真维持图像中原有文字的结构、字体和样式，文字编辑得分达 4.97（REDEdit Bench）。
老照片修复：支持对破损、褪色或低质量照片进行智能修复，包括去噪、上色、清晰度增强。
双语支持：原生支持中英文提示词，在 GEdit 等基准测试中双语表现均衡。

FireRed-Image-Edit的核心优势

区域感知机制：通过视觉语言模型与扩散模型结合，精准锁定编辑区域，避免非目标区域语义漂移。
多阶段训练策略：基于 16 亿样本语料（9 亿文生图 + 7 亿编辑对），经过预训练、监督微调和强化学习三阶段优化。
非对称梯度优化：在 DPO 强化学习阶段强化正样本反馈，提升编辑稳定性。
布局感知 OCR 奖励：针对文字编辑任务，惩罚字符错位和布局崩坏，确保文字渲染质量。

FireRed-Image-Edit官网是什么

GitHub仓库：https://github.com/FireRedTeam/FireRed-Image-Edit
技术论文：https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf
在线体验Demo：https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0