FireRed-Image-Edit - 小红书团队开源的通用图像编辑模型

最新AI资源17小时前发布 AI分享圈
2.6K 00
堆友AI

FireRed-Image-Edit是什么

FireRed-Image-Edit 是小红书 Super Intelligence 团队开源的通用图像编辑模型,基于扩散 Transformer 架构,在 GEdit、ImgEdit 等多个权威评测集上取得 SOTA 成绩,效果可媲美闭源方案。模型支持文本引导的图像编辑、多图融合(如虚拟试穿)、文字风格保留、老照片修复等核心功能,原生支持中英文提示词。技术上采用区域感知机制、多阶段训练策略(基于 16 亿样本语料)及非对称梯度优化,在 REDEdit-Bench 文字编辑任务中得分高达 4.97。模型采用 Apache 2.0 协议开源,适用于电商内容创作、广告设计、老照片修复等场景,同时提供 Hugging Face 在线体验和商用 API 服务。

FireRed-Image-Edit - 小红书团队开源的通用图像编辑模型

FireRed-Image-Edit的功能特色

  • 文本引导图像编辑:通过自然语言指令精确控制图像修改,支持替换物体、调整风格、改变背景等操作。
  • 多图融合编辑:支持同时上传多张参考图(如人物+服装),通过"Figure 1"、"Figure 2"等方式引用,实现虚拟试穿等复杂场景。
  • 文字风格保留:高保真维持图像中原有文字的结构、字体和样式,文字编辑得分达 4.97(REDEdit Bench)。
  • 老照片修复:支持对破损、褪色或低质量照片进行智能修复,包括去噪、上色、清晰度增强。
  • 双语支持:原生支持中英文提示词,在 GEdit 等基准测试中双语表现均衡。

FireRed-Image-Edit的核心优势

  • 区域感知机制:通过视觉语言模型与扩散模型结合,精准锁定编辑区域,避免非目标区域语义漂移。
  • 多阶段训练策略:基于 16 亿样本语料(9 亿文生图 + 7 亿编辑对),经过预训练、监督微调和强化学习三阶段优化。
  • 非对称梯度优化:在 DPO 强化学习阶段强化正样本反馈,提升编辑稳定性。
  • 布局感知 OCR 奖励:针对文字编辑任务,惩罚字符错位和布局崩坏,确保文字渲染质量。

FireRed-Image-Edit官网是什么

  • GitHub仓库:https://github.com/FireRedTeam/FireRed-Image-Edit
  • 技术论文:https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf
  • 在线体验Demo:https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0

FireRed-Image-Edit的适用人群

  • 电商运营与设计师:快速生成商品主图、模特换装、背景替换,大幅降低拍摄和后期成本。
  • 广告创意人员:根据文案快速迭代品牌视觉,精准修改画面元素提升投放效率。
  • 摄影师与修图师:批量处理老照片修复、去噪上色、清晰度增强等专业修图需求。
  • 自媒体与内容创作者:制作封面图、配图编辑,支持双语提示词降低使用门槛。
  • UI/UX 设计师:精准修改海报或界面中的文字内容,同时保持原始字体和布局风格。
  • 开发者与技术团队:基于 Apache 2.0 开源协议二次开发,集成到自有产品或工作流中。
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...