找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4905

积分

0

好友

672

主题
发表于 4 小时前 | 查看: 4| 回复: 0

GitHub:
https://github.com/FireRedTeam/FireRed-Image-Edit

技术报告:
https://arxiv.org/abs/2602.13344

体验Demo:
https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.1

图像编辑领域迎来重要更新。在 1.0 版本发布不到一个月后,小红书 Super Intelligence 团队正式推出了 FireRed-Image-Edit v1.1。

作为团队在图像生成与编辑领域的又一次深度探索,新版本在处理 ID 一致性编辑、多元素融合、人像美妆、字体风格参考等方面展现出更强的实力。同时,该版本提供了完整的训练与部署优化方案,端到端生成耗时约 4.5 秒,显存占用仅需 30GB。目前,该项目已完全开源,包括代码、技术报告、模型参数以及训练、蒸馏、推理的全套框架。

FireRed-Image-Edit v1.1 版本核心升级点

优秀的编辑性能

  • 前沿的 ID 一致性:具备开源领域优秀的角色身份保持技术,确保人物主体在经历复杂编辑后依然可识别。
  • 多元素融合:支持自由组合 10 余种元素,配备 Agent 智能自动裁剪与拼接功能。
  • 全面的人像美妆:涵盖数十种风格,从专业级美颜精修、黄皮/橄榄皮提亮,到各类创意妆容。
  • 字体风格参考:保持高保真排版与风格化文字渲染,效果媲美闭源解决方案。
  • 专业级照片修复:支持高质量老照片修复与增强,具备卓越的细节还原能力。

极致的工程优化

  • 开放的 LoRA 训练生态:开源完整训练代码,支持自定义风格创作。
  • 极限速度优化:集成模型蒸馏、量化与静态编译技术,实现 4.5 秒端到端生成。
  • 智能 Agent 工作流:自动多图处理流程,轻松应对虚拟试穿等复杂构图场景。
  • 全平台部署支持:提供原生 ComfyUI 节点支持与 GGUF 轻量级格式兼容。
  • 高效的训练方式:提前离线抽取特征,大幅提升模型训练速度。

T2I骨干网络原生的编辑能力

采用骨干无关的架构设计:基于 Qwen-Image 的文生图模型通过完整的预训练→SFT→RL 流程注入编辑能力,该能力可迁移至其他文生图(T2I)基础模型。

FireRed-Image-Edit v1.1 Show Case 效果演示

多元素融合与一致性编辑示例

编辑指令:将图2的男人,穿着图2的黑色“New York Bears”棒球夹克和迷彩裤子和蓝黑配色的 AJ1 高帮球鞋,在图1的空旷的橄榄球场上。球场阳光明媚,他带着图2黑色的帽子,帽檐是红色,夹克上的白色条纹在暗光中格外醒目。他的左肩随意地挎着图3那只复古棕色皮质旅行包,包口微微敞开,露出里面图3那个磨损的棕色橄榄球。右手则轻松地拖着图3的白色滑板,板底那威武的黑色狮子图腾在草地映衬下如同猛兽。

图3那只壮实的深棕色斗牛犬安静地蹲坐在他脚边的阴影里,忠诚地望向主人。男人脖子上挂着图2那副黑色 Beats 耳机,地上放着图3那座复古的青铜奖杯,在阳光下下泛着胜利的光芒。

多元素融合编辑输入素材

人像编辑与 ID 保持示例

编辑指令:将背景换为带自然光效的浅蓝色,身穿浅米色蕾丝领上衣,将发型改为右侧佩戴精致珍珠发夹,同时单手向前抬起握着一把宝剑,另一只手自然摆放。面部微笑。

输入
人像编辑输入原图
人像编辑输入参考图

Ours
FireRed-Image-Edit v1.1 编辑效果1
FireRed-Image-Edit v1.1 编辑效果2
FireRed-Image-Edit v1.1 编辑效果3

其他模型对比 (Qwen-2511, Longcat, Flux2 Dev)

编辑指令:替换背景为盛开的樱花树场景;更换衣服为黑色西装,为人物添加单肩蓝色书包,单手抓住包带。头发变为高马尾。色调明亮。蹲下。

输入
人像换装输入原图
人像换装输入参考图

Ours
FireRed-Image-Edit v1.1 换装效果1
FireRed-Image-Edit v1.1 换装效果2
FireRed-Image-Edit v1.1 换装效果3

其他模型对比 (Qwen-2511, Flux2 Dev, Nano Pro)

编辑指令:改变背景为粉色,移除所有竹叶;将人物姿态改为趴在粉色毛绒篮子内,双手撑在下巴下,头部和身体正对镜头,人物位于画面中心,眼神看向前方;更换帽子为带有粉色花朵和粉色耳朵的发带;更换服装为米色毛绒衣物;移除熊猫玩偶;调整面部表情为张嘴笑。

输入
婴儿照片编辑输入
婴儿风格参考图

Ours
婴儿照片编辑效果1
婴儿照片编辑效果2
婴儿照片编辑效果3

其他模型对比 (Qwen-2511, Flux2 Dev, Nano Pro)

编辑指令:将背景替换为室外湖泊和树木场景;人物身体正向镜头,头部略微偏向画面的左侧,双臂交叉并用右手以及左胳肢窝抱持一个红色小鼓;拉近相机视角。

输入
古风人像编辑输入
古风道具参考图

Ours
古风人像编辑效果1
古风人像编辑效果2
古风人像编辑效果3

其他模型对比 (Qwen-2511, Flux2 Dev, Nano Pro)

编辑指令:替换背景为户外场景(包含现代建筑、绿树、水池、金属栏杆);调整人物为站姿,双手自然下垂。

输入
毕业照编辑输入
户外背景参考图

Ours
毕业照编辑效果1
毕业照编辑效果2
毕业照编辑效果3

其他模型对比 (Qwen-2511, Flux2 Dev, Nano Pro)

编辑指令:替换背景为带有白色墙面、镜子、木质装饰和红色袋子的室内环境;将人物穿着改为浅蓝色衬衫和条纹长裤;为人物添加红色肩带、白色帆布包(包上有红色标志);调整人物姿态使其身体侧向画面的右侧;头部略微向画面右侧倾斜;双手手持一束粉色和白色玫瑰(带有绿色叶子和白色丝带)以及一部手机;拉远相机视角。

输入
穿搭编辑输入原图
穿搭与背景参考图

Ours
穿搭编辑效果1
穿搭编辑效果2
穿搭编辑效果3

其他模型对比 (Qwen-2511, Flux2 Dev, Nano Pro)

OOTD虚拟试穿与风格融合

编辑指令:把图1中的模特换成图2里的长裙和高帮帆布鞋,保持原有姿态和配饰,整体风格统一。

图1 OOTD试穿原图
图2 服饰参考图

Ours
OOTD试穿效果1
OOTD试穿效果2
OOTD试穿效果3
OOTD试穿效果4

其他模型对比 (Qwen-2511, Seedream5.0 Lite, Nano Pro)

编辑指令:把图1中的白色衬衫和棕色半裙,换成图2里的灰褐色连帽卫衣、黑色侧边条纹裤、卡其色工装靴和同色云朵包,保持模特姿态和背景不变。

图1 休闲装编辑原图
图2 休闲装单品参考

Ours
休闲装编辑效果1
休闲装编辑效果2
休闲装编辑效果3
休闲装编辑效果4

其他模型对比 (Qwen-2511, Seedream5.0 Lite, Nano Pro)

编辑指令:把图1中的模特换成图2的红色露肩连衣裙,搭配图3中的卡其色棒球帽、猫眼眼镜、银色链条项链、白色厚底运动鞋和棕色绒面手提包,保持模特姿态和背景不变。

自定义LoRA功能:美妆与封面制作

模型还提供了支持用户自主创作的 LoRA,包括支持自定义上妆的 makeuplora 和支持根据参考封面创造自定义封面效果的 covercraftlora

美妆LoRA示例指令:使用象牙白哑光粉底均匀肤色,为眉毛填充浅棕色,眼部晕染浅棕色眼影并加深眼尾,画出自然黑色眼线,粘贴浓密假睫毛,用浅棕色眼影提亮卧蚕;涂抹豆沙色哑光口红并勾勒唇形,在两颊扫上浅粉色腮红,在鼻梁和颧骨处轻扫高光,在面部轮廓处轻扫阴影。

输入
美妆编辑输入原图
美妆编辑输入参考图

Ours
美妆编辑效果1
美妆编辑效果2
美妆编辑效果3

其他模型对比 (Qwen-2511, Seedream5.0 Lite, Nano Pro)

封面制作LoRA示例指令:请在图1添加主标题文本 “谁说我们丑了”,字体样式参考图2中主标题《人!给我开个罐罐》;主标题整体采用横向排版多行错落(非严格对齐),置于图片左下角;在狗狗右下方、贴近前爪附近添加一个手绘“爱心”涂鸦贴纸;增加鱼眼镜头效果。

输入1 封面制作输入图1
输入2 封面风格参考图

Ours
封面制作效果1
封面制作效果2
封面制作效果3
封面制作效果4

其他模型对比 (Qwen-2511, Seedream5.0 Lite, Nano Pro)

封面制作LoRA示例指令:请在图1添加主标题文本 “崽子第一次玩冰”,副标题“坐标:东南休闲公园”,主标题和副标题的字体样式参考图2中主标题“无露营不冬天”,主标题整体采用横向排版多行,主标题添加在画面左侧上方;副标题添加在画面左侧下方,字的层级更小,避免修改和遮挡图1主体关键信息(人物/核心景物)和画面中心。

输入1 封面制作输入图1
输入2 封面风格参考图2

Ours
封面制作效果1
封面制作效果2
封面制作效果3
封面制作效果4

其他模型对比 (Qwen-2511, Seedream5.0 Lite, Nano Pro)

封面制作LoRA示例指令:请在图1添加主标题文本 “暑假大理旅行穿什么☁️”,文字样式和排版参考图2中《冰镇式露营说明书》,主标题放置在图1画面中央区域,主标题环绕人物头部布局;在图1添加副标题文本“Vol.3 {穿搭灵感指南}”,文字样式和颜色参考图2中《Vol.5 {打水仗的夏天}》,层级明显低于主标题,位于主标题右下方。

输入1 封面制作输入图1
输入2 封面风格参考图2

Ours
封面制作效果1
封面制作效果2
封面制作效果3
封面制作效果4

其他模型对比 (Qwen-2511, Seedream5.0 Lite, Nano Pro)

封面制作LoRA示例指令:请在图1添加主标题文本 “我的城里,灯火绚烂”,文本样式参考图2中主标题“邂逅一场夜樱盛宴”。

输入1 封面制作输入图1
输入2 封面风格参考图2

Ours
封面制作效果1
封面制作效果2
封面制作效果3
封面制作效果4

其他模型对比 (Qwen-2511, Seedream5.0 Lite, Nano Pro)

榜单成绩

在多个权威评测榜单中,FireRed-Image-Edit v1.1 均达到了当前最先进的(SoTA)水平。

FireRed-Image-Edit v1.1 在多个评测榜单的SoTA成绩

FireRed 团队介绍

FireRed 是小红书 Super Intelligence 团队的模型系列名,包含 FireRed-ASR、FireRed-TTS、FireRed-Chat、FireRed-OCR、FireRed-Image、FireRed-OpenStoryline 等多个模型。该团队由 Audio Lab、Vision Lab、Foundation Lab 等基础技术实验室构成。

Super Intelligence 团队是小红书公司面向未来内容形态与通用智能的重要技术引擎,其目标是构建业界领先的多模态基础大模型体系,并形成可持续演进的通用智能能力。团队主要负责小红书创作与发布相关的核心技术研发,并向公司多条业务线输出关键智能能力。过去两年,团队在学术与产业两端同步推进,累计发表30余篇顶级会议与期刊论文,并成功孵化了多项站内爆款功能。

欢迎对通用智能、前沿模型与真实产品影响力有长期追求的技术同仁关注与交流。更多技术讨论和开源项目,也可以前往云栈社区进行探索。

END




上一篇:30B开源模型REDSearcher:深度搜索Agent低成本训练框架详解
下一篇:Claude Code插件完整指南:从安装到开发自定义扩展
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-17 05:11 , Processed in 1.001805 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表