云栈社区»论坛 › 开源实战「 OpenSource 」 › 小红书FireRed-Image-Edit 1.1开源：全栈人像一致性增强、多元素 ...

发回帖发新帖

5624 积分	0 好友	754 主题

发消息

[Python] 小红书FireRed-Image-Edit 1.1开源：全栈人像一致性增强、多元素融合与美妆Lora训练

发表于 2026-3-18 04:44:11 | 查看: 135| 回复: 0

FireRed-Image-Edit项目主题图

图像编辑领域迎来新突破，小红书基础模型 FireRed-Image-Edit 亮相 GitHub。作为小红书 Super Intelligence Team 在图像生成与人工智能编辑领域的一次重要探索，该模型在处理复杂编辑指令、风格化转换及高精度文字编辑方面展现出更强实力。对比结果显示，FireRed-Image-Edit 凭借更精准的理解力、更强的 ID 保持度及高效的架构，在多项权威测试中脱颖而出，在多个榜单中取得了SOTA，达到业界领先水平。目前，该项目代码、技术报告、模型参数、训练蒸馏推理框架均已开源。

主要内容包括以下几个部分：

RedEdit Bench
数据构造与模型训练
核心能力展示
用户的 Aha时刻-魔法数字

3 月 2 日，模型迎来了一次重磅升级！针对用户关心的性能问题， FireRed-Image-Edit 最新推出了优化脚本：

新功能效果

大幅强化 ID 一致性，人物身份保持能力开源 SOTA。
多元素融合，自由组合 10 种以上元素。
美妆，各类美妆效果：精修美化、黄皮显白底妆、万圣节女巫妆等几十种不同妆容
文字风格参考的强化功能

极致的性能体验

Lora 训练代码开源，定制你想要的任意风格的 Lora，支持相同任务、尺寸、输入图数 Sampler，榨干显卡最后一点计算性能。
Agent，再也不用担心提示词过短模型不听指挥了，支持多图自动裁切拼接，组合任意元素。
支持蒸馏、量化、静态编译等工程加速、显存优化全家桶，只要 30GB VRAM，端到端速度 4.5s🚀。
支持 ComfyUI、GGUF 各种轻量化模型格式。

同时，步数蒸馏模型和 cfg 蒸馏模型同样即将开源。

GitHub: GitHub - FireRedTeam/FireRed-Image-Edit
技术报告: https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf
体验Demo: https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0

主流榜单和自建评测集上的指标对比

人工评估胜出率

01 RedEdit Bench

针对现有基准测试无法满足用户复杂需求的问题，RedEdit Bench 提供了包含 15 个子任务的深度评测方案。除常规的增删改外，该评测集还前瞻性地纳入了人像美化、低画质增强等高频实战场景。唯有通过更难、更真实的测评考核，才能筛选出真正卓越的模型。对比实验表明，该 Bench 对编辑模型通用能力的评估精度优于 ImgEdit 和 GEdit。该 Bench 会随后开源，以期为开源社区对图像编辑模型的评估建立新维度的标准。

RedEdit Bench饼图

02 数据构造与模型训练

数据引擎：FireRed-Image-Edit 构建了一套图像编辑数据生产引擎，从“快速、可控、精准”出发，将复杂编辑需求拆解为可组合的子任务，并通过三条路径规模化产出训练对：指令控制的专家模型合成、结构化控制（如分割/关键点/深度等）的专家模型合成，以及模型无关的模板化合成（如 3D/布局/文字）。针对长尾编辑任务样本稀缺，采用“检查—补齐”的定向补数流程，由引擎快速生成针对性数据，并配合三层级去重、十余种质量清洗算子与严格一致性守门员，确保数据的指令遵循、视觉自然度与内容一致性。

合成专家模型的方法流程图

模型训练：当前模型框架参考主流编辑模型框架，模型通过三阶段训练来完成能力的进阶。预训练阶段通过多条件感知桶采样来平衡不同的编辑任务，并通过随机动态指令来提升模型的指令泛化理解能力，并通过前置的 embedding 抽取来提升训练效率。微调阶段通过高质量数据的引入，来提升模型表现。最后在强化学习阶段，通过非对称梯度优化来强化正样本反馈，基于 OCR 奖励的 diffusionNFT 来提升文字编辑准确性。

多模态任务处理流程图

03 核心能力展示

FireRed-Image-Edit 的强大，源于对“编辑”二字的深度理解。它不是简单的重绘，而是精准的控制，其核心能力提升如下。

指令遵循一致性：模型引入随机指令对齐的机制，通过随机打乱和动态重组 prompt，来使模型能真正理解语义与图像的对应关系，而非死记硬背。

将图 2 的男人，穿着图 2 的黑色"New York Bears"棒球夹克和迷彩裤子和蓝黑配色的 AJ1 高帮球鞋，在图 1 的空旷的橄榄球场上。球场阳光明媚，他戴着图 2 的帽子，帽檐是红色，夹克上的白色条纹在暗光中格外醒目。他的左肩随意地挎着图 3 那只复古棕色皮质旅行包，包口微微敞开，露出里面图 3 那个磨损的棕色橄榄球。右手则轻松地拖着图 3 的白色滑板，板底那威武的黑色狮子图腾在草地映衬下如同猛兽。

图 3 那只壮实的深棕色斗牛犬安静地蹲坐在他脚边的阴影里，忠诚地望向主人。男人脖子上挂着图 2 那副黑色 Beats 耳机，地上放着图 3 那座复古的青铜奖杯，在阳光下下泛着胜利的光芒。整个场景融合了街头潮流与竞技体育的质感，空旷球场、皮革装备的温润光泽、以及滑板带来的街头气息，共同构成了一个关于青春、热爱与赛后孤独的静谧时刻。

多元素融合编辑结果

1. 变装能力

把图 1 中的模特换成图 2 图 3 里的长裙和高帮帆布鞋，保持原有姿态和配饰，整体风格统一。

变装能力展示-长裙与帆布鞋

把图 1 中的绿色长袖上衣和牛仔裤换成图 2 图 3 图 4 里的浅色牛仔短袖衬衫、白色亮片背心和同色牛仔短裤，保持帽子、背包和姿势不变，整体风格更清爽休闲。

变装能力展示-夏日休闲装

把图 1 中的白色衬衫和棕色半裙，换成图 2 图 3 图 4 图 5 里的灰褐色连帽卫衣、黑色侧边条纹裤、卡其色工装靴和同色云朵包，保持模特姿态和背景不变。

变装能力展示-休闲运动装

把图 1 中的模特换成图 2 的红色露肩连衣裙，搭配图 3 图 4 图 5 图 6 图 7 中的卡其色棒球帽、猫眼眼镜、银色链条项链、白色厚底运动鞋和棕色绒面手提包，保持模特姿态和背景不变。

变装能力展示-连衣裙与配饰

2. 根据参考中的封面效果将用户图生成封面

请在图 1 添加主标题文本 “谁说我们丑了”，字体样式参考图 2 中主标题《人！给我开个罐罐》；主标题整体采用横向排版多行错落（非严格对齐），置于图片左下角；在狗狗右下方、贴近前爪附近添加一个手绘“爱心”涂鸦贴纸；增加鱼眼镜头效果。

为宠物图片添加封面文字

请在图 1 添加主标题文本 “崽子第一次玩冰”，副标题“坐标：东南休闲公园”，主标题和副标题的字体样式参考图 2 中主标题“无露营不冬天”，主标题整体采用横向排版多行，主标题添加在画面左侧上方；副标题添加在画面左侧下方，字的层级更小，避免修改和遮挡图 1 主体关键信息（人物/核心景物）和画面中心。

为亲子雪景图添加封面文字

请在图 1 添加主标题文本 “暑假大理旅行穿什么☁️”，文本样式参考图 2 中“冰镇式露营说明书”，主标题放置在图 1 画面左上区域；在图1添加副标题文本“Vol.3 {穿搭灵感指南}”，字体样式参考图 2 中《Vol.5 {打水仗的夏天}》，层级明显低于主标题，紧贴主标题右下方。

为旅行人像添加封面文字

请在图 1 添加主标题文本 “我的城里，灯火绚烂”，文本样式参考图 2 中主标题“邂逅一场夜樱盛宴”。

为夜景图添加封面文字

3. 纠正图像错误

请修正图像中的错误。

修正镜面反射错误（时钟）

修正画笔颜色错误

4. 文字编辑

FireRed-Image-Edit 创新性地提出了 Layout-Aware OCR-based Reward。我们在强化学习阶段，不仅惩罚错别字，还惩罚字符的错位、大小异常和布局崩坏。这使得模型在进行海报修改、文字替换时，能更准确地编辑并保持原始文字风格。

将海报上右下角的文字“ programme”修改为“program ongoing”，保持字体和风格一致。

修改海报中的文字

用参考图的玩偶作为画面主角，衣服上面印着“FireRed-Image-Edit”字样，站在童话感花园草地中，周围有精致小花和柔和建筑背景，整体风格温暖梦幻，超清细节，商业级摄影质感。小红薯正对镜头，自信可爱地站立，身后是一块黑板，用白色粉笔清晰写着： “FireRed-Image-Edit 三大绝活：文字艺术家：中英文字体排版专业稳定，视觉风格统一时光修复师：老照片修复细节丰富，呈现自然真实造型设计师：智能换装精准自然，多风格服饰一键切换”，文字为白色粉笔手写体。画面光线柔和自然光，浅景深，背景轻微虚化，色彩明亮饱满，高清8K，真实摄影风格，细节锐利，无噪点，无畸变。

创意文字生成与排版展示