找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4306

积分

0

好友

596

主题
发表于 4 小时前 | 查看: 3| 回复: 0

FireRed-Image-Edit项目主题图

图像编辑领域迎来新突破,小红书基础模型 FireRed-Image-Edit 亮相 GitHub。作为小红书 Super Intelligence Team 在图像生成与人工智能编辑领域的一次重要探索,该模型在处理复杂编辑指令、风格化转换及高精度文字编辑方面展现出更强实力。对比结果显示,FireRed-Image-Edit 凭借更精准的理解力、更强的 ID 保持度及高效的架构,在多项权威测试中脱颖而出,在多个榜单中取得了SOTA,达到业界领先水平。目前,该项目代码、技术报告、模型参数、训练蒸馏推理框架均已开源。

主要内容包括以下几个部分:

  1. RedEdit Bench
  2. 数据构造与模型训练
  3. 核心能力展示
  4. 用户的 Aha时刻-魔法数字

3 月 2 日,模型迎来了一次重磅升级!针对用户关心的性能问题, FireRed-Image-Edit 最新推出了优化脚本:

新功能效果

  • 大幅强化 ID 一致性,人物身份保持能力开源 SOTA。
  • 多元素融合,自由组合 10 种以上元素。
  • 美妆,各类美妆效果:精修美化、黄皮显白底妆、万圣节女巫妆等几十种不同妆容
  • 文字风格参考的强化功能

极致的性能体验

  • Lora 训练代码开源,定制你想要的任意风格的 Lora,支持相同任务、尺寸、输入图数 Sampler,榨干显卡最后一点计算性能。
  • Agent,再也不用担心提示词过短模型不听指挥了,支持多图自动裁切拼接,组合任意元素。
  • 支持蒸馏、量化、静态编译等工程加速、显存优化全家桶,只要 30GB VRAM,端到端速度 4.5s🚀。
  • 支持 ComfyUI、GGUF 各种轻量化模型格式。

同时,步数蒸馏模型和 cfg 蒸馏模型同样即将开源。

主流榜单和自建评测集上的指标对比

人工评估胜出率

01 RedEdit Bench

针对现有基准测试无法满足用户复杂需求的问题,RedEdit Bench 提供了包含 15 个子任务的深度评测方案。除常规的增删改外,该评测集还前瞻性地纳入了人像美化、低画质增强等高频实战场景。唯有通过更难、更真实的测评考核,才能筛选出真正卓越的模型。对比实验表明,该 Bench 对编辑模型通用能力的评估精度优于 ImgEdit 和 GEdit。该 Bench 会随后开源,以期为开源社区对图像编辑模型的评估建立新维度的标准。

RedEdit Bench饼图

02 数据构造与模型训练

数据引擎:FireRed-Image-Edit 构建了一套图像编辑数据生产引擎,从“快速、可控、精准”出发,将复杂编辑需求拆解为可组合的子任务,并通过三条路径规模化产出训练对:指令控制的专家模型合成、结构化控制(如分割/关键点/深度等)的专家模型合成,以及模型无关的模板化合成(如 3D/布局/文字)。针对长尾编辑任务样本稀缺,采用“检查—补齐”的定向补数流程,由引擎快速生成针对性数据,并配合三层级去重、十余种质量清洗算子与严格一致性守门员,确保数据的指令遵循、视觉自然度与内容一致性。

合成专家模型的方法流程图

模型训练:当前模型框架参考主流编辑模型框架,模型通过三阶段训练来完成能力的进阶。预训练阶段通过多条件感知桶采样来平衡不同的编辑任务,并通过随机动态指令来提升模型的指令泛化理解能力,并通过前置的 embedding 抽取来提升训练效率。微调阶段通过高质量数据的引入,来提升模型表现。最后在强化学习阶段,通过非对称梯度优化来强化正样本反馈,基于 OCR 奖励的 diffusionNFT 来提升文字编辑准确性。

多模态任务处理流程图

03 核心能力展示

FireRed-Image-Edit 的强大,源于对“编辑”二字的深度理解。它不是简单的重绘,而是精准的控制,其核心能力提升如下。

指令遵循一致性:模型引入随机指令对齐的机制,通过随机打乱和动态重组 prompt,来使模型能真正理解语义与图像的对应关系,而非死记硬背。

将图 2 的男人,穿着图 2 的黑色"New York Bears"棒球夹克和迷彩裤子和蓝黑配色的 AJ1 高帮球鞋,在图 1 的空旷的橄榄球场上。球场阳光明媚,他戴着图 2 的帽子,帽檐是红色,夹克上的白色条纹在暗光中格外醒目。他的左肩随意地挎着图 3 那只复古棕色皮质旅行包,包口微微敞开,露出里面图 3 那个磨损的棕色橄榄球。右手则轻松地拖着图 3 的白色滑板,板底那威武的黑色狮子图腾在草地映衬下如同猛兽。

图 3 那只壮实的深棕色斗牛犬安静地蹲坐在他脚边的阴影里,忠诚地望向主人。男人脖子上挂着图 2 那副黑色 Beats 耳机,地上放着图 3 那座复古的青铜奖杯,在阳光下下泛着胜利的光芒。整个场景融合了街头潮流与竞技体育的质感,空旷球场、皮革装备的温润光泽、以及滑板带来的街头气息,共同构成了一个关于青春、热爱与赛后孤独的静谧时刻。

多元素融合编辑结果

1. 变装能力

把图 1 中的模特换成图 2 图 3 里的长裙和高帮帆布鞋,保持原有姿态和配饰,整体风格统一。

变装能力展示-长裙与帆布鞋

把图 1 中的绿色长袖上衣和牛仔裤换成图 2 图 3 图 4 里的浅色牛仔短袖衬衫、白色亮片背心和同色牛仔短裤,保持帽子、背包和姿势不变,整体风格更清爽休闲。

变装能力展示-夏日休闲装

把图 1 中的白色衬衫和棕色半裙,换成图 2 图 3 图 4 图 5 里的灰褐色连帽卫衣、黑色侧边条纹裤、卡其色工装靴和同色云朵包,保持模特姿态和背景不变。

变装能力展示-休闲运动装

把图 1 中的模特换成图 2 的红色露肩连衣裙,搭配图 3 图 4 图 5 图 6 图 7 中的卡其色棒球帽、猫眼眼镜、银色链条项链、白色厚底运动鞋和棕色绒面手提包,保持模特姿态和背景不变。

变装能力展示-连衣裙与配饰

2. 根据参考中的封面效果将用户图生成封面

请在图 1 添加主标题文本 “谁说我们丑了”,字体样式参考图 2 中主标题《人!给我开个罐罐》;主标题整体采用横向排版多行错落(非严格对齐),置于图片左下角;在狗狗右下方、贴近前爪附近添加一个手绘“爱心”涂鸦贴纸;增加鱼眼镜头效果。

为宠物图片添加封面文字

请在图 1 添加主标题文本 “崽子第一次玩冰”,副标题“坐标:东南休闲公园”,主标题和副标题的字体样式参考图 2 中主标题“无露营不冬天”,主标题整体采用横向排版多行,主标题添加在画面左侧上方;副标题添加在画面左侧下方,字的层级更小,避免修改和遮挡图 1 主体关键信息(人物/核心景物)和画面中心。

为亲子雪景图添加封面文字

请在图 1 添加主标题文本 “暑假大理旅行穿什么☁️”,文本样式参考图 2 中“冰镇式露营说明书”,主标题放置在图 1 画面左上区域;在图1添加副标题文本“Vol.3 {穿搭灵感指南}”,字体样式参考图 2 中《Vol.5 {打水仗的夏天}》,层级明显低于主标题,紧贴主标题右下方。

为旅行人像添加封面文字

请在图 1 添加主标题文本 “我的城里,灯火绚烂”,文本样式参考图 2 中主标题“邂逅一场夜樱盛宴”。

为夜景图添加封面文字

3. 纠正图像错误

请修正图像中的错误。

修正镜面反射错误(时钟)

修正画笔颜色错误

4. 文字编辑

FireRed-Image-Edit 创新性地提出了 Layout-Aware OCR-based Reward。我们在强化学习阶段,不仅惩罚错别字,还惩罚字符的错位、大小异常和布局崩坏。这使得模型在进行海报修改、文字替换时,能更准确地编辑并保持原始文字风格。

将海报上右下角的文字“ programme”修改为“program ongoing”,保持字体和风格一致。

修改海报中的文字

用参考图的玩偶作为画面主角,衣服上面印着“FireRed-Image-Edit”字样,站在童话感花园草地中,周围有精致小花和柔和建筑背景,整体风格温暖梦幻,超清细节,商业级摄影质感。 小红薯正对镜头,自信可爱地站立,身后是一块黑板,用白色粉笔清晰写着: “FireRed-Image-Edit 三大绝活:文字艺术家:中英文字体排版专业稳定,视觉风格统一 时光修复师:老照片修复细节丰富,呈现自然真实 造型设计师:智能换装精准自然,多风格服饰一键切换”,文字为白色粉笔手写体。 画面光线柔和自然光,浅景深,背景轻微虚化,色彩明亮饱满,高清8K,真实摄影风格,细节锐利,无噪点,无畸变。

创意文字生成与排版展示

5. 创意与多图生成

同时依赖于强大的模型架构能力, FireRed-Image-Edit 支持了创造力场景生成和多参考图生成的能力,支持风格迁移或多图融合。

模特穿上图 1 服饰,版型宽松。搭配黑色、材质为氨纶、纯色、紧身、长度至大腿中部的骑行短裤,再搭配金色圆环耳环。

创意穿搭生成

一瓶香水放居中,香水瓶放在水面上,透明方形瓶身搭配金色金属瓶盖,极简而现代。晶莹的水花如爆炸般环绕瓶身绽放开,无数水滴在空中定格,折射出梦幻的光彩。底部水波涟漪层层扩散,与飞溅的水花形成动静交织的视觉张力。清凉活力与高端奢华并存,仿佛将夏日清泉的瞬息灵动永久封存。透过瓶身能看到香水背后的说明书。

创意产品图生成

将这张图变成游戏 CG 风格,极具艺术感,震撼人心,超高清。落叶飞溅,前景落叶虚化,动态模糊,背景动态虚化,阳光灿烂,蓝天白云,光影交错,仰拍特写镜头,突出速度感和视觉冲击力,强透视。

风格转换-游戏CG风格

将这张图变成游戏 CG 风格,极具艺术感,震撼人心

风格转换-真人转游戏CG

设计一张 A6 折叠卡:打开时显示图片中的小屋。

创意设计-立体贺卡生成

画质修复,细节重现:除了通用编辑,实际应用中,用户经常面临照片模糊、低分辨率、曝光不足或画质受损的问题。FireRed-Image-Edit 将超分、去模糊、去噪及光影增强等底层视觉任务统一纳入了指令微调的范畴。让用户可以一键画质调整。

修复并上色这张老照片,使其看起来像是用现代相机拍摄的。

老照片修复与上色

将这张模糊的图像增强清晰度,使其极为清晰且高质量。

图像去模糊与增强

将背景换为带自然光效的浅蓝色,身穿浅米色蕾丝领上衣,将发型改为右侧佩戴精致珍珠发夹,同时单手向前抬起握着一把宝剑,另一只手自然摆放。面部微笑。

人像编辑-背景、发型与动作修改

替换背景为盛开的樱花树场景;更换衣服为黑色西装,为人物添加单肩蓝色书包,单手抓住包带。头发变为高马尾。色调明亮。蹲下。

人像编辑-多属性修改对比

改变背景为粉色,移除所有竹叶;将人物姿态改为趴在粉色毛绒篮子内,双手撑在下巴下,头部和身体正对镜头,人物位于画面中心,眼神看向前方;更换帽子为带有粉色花朵和粉色耳朵的发带;更换服装为米色毛绒衣物;移除熊猫玩偶;调整面部表情为张嘴笑。

婴儿摄影风格编辑

将背景替换为室外湖泊和树木场景;人物身体正向镜头,头部略微偏向画面的左侧,双臂交叉并用右手以及左胳肢窝抱持一个红色小鼓;拉近相机视角。

民族服饰人像编辑

替换背景为户外场景(包含现代建筑、绿树、水池、金属栏杆);调整人物为站姿,双手自然下垂

毕业袍人像背景替换

替换背景为带有白色墙面、镜子、木质装饰和红色袋子的室内环境;将人物穿着改为浅蓝色衬衫和条纹长裤;为人物添加红色肩带、白色帆布包(包上有红色标志);调整人物姿态使其身体侧向画面的右侧;头部略微向画面右侧倾斜;双手手持一束粉色和白色玫瑰(带有绿色叶子和白色丝带)以及一部手机;拉远相机视角

人像多属性编辑(服装、姿态、背景)

此外我们还提供了两类支持用户自主创作的 lora,一款是 makeuplora,支持自定义上妆功能,一款是 covercraftlora,支持根据参考封面创造自定义封面效果。showcase 如下。

使用象牙白哑光粉底均匀肤色,为眉毛填充浅棕色,眼部晕染浅棕色眼影并加深眼尾,画出自然黑色眼线,粘贴浓密假睫毛,用浅棕色眼影提亮卧蚕;涂抹豆沙色哑光口红并勾勒唇形,在两颊扫上浅粉色腮红,在鼻梁和颧骨处轻扫高光,在面部轮廓处轻扫阴影。

美妆Lora效果-自然妆容

为人物添加纯欲厌世妆:使用冷白皮哑光粉底均匀肤色,描绘细挑的灰黑色野生眉,眼部晕染浅灰调眼影并加深眼尾,画出上扬的黑色眼线,粘贴浓密卷翘的假睫毛,在眼头和卧蚕处提亮,涂抹深紫调哑光口红并勾勒唇形,在颧骨处扫上浅粉腮红,鼻梁和眉骨处打高光,下颌线处轻扫阴影。

美妆Lora效果-个性妆容

FireRed-Image-Edit 通过开源实战,希望为社区提供一个高效、可控、高质量的基座。后续将会进一步提升基础模型在人像美化,一致性,文字上的编辑能力,在未来几个月内持续开源更新版本和文生图基座模型。欢迎大家下载体验,在 GitHub 上点亮 Star 🌟!

如果你对这类前沿的AIGC技术和开源项目感兴趣,欢迎到云栈社区与其他开发者交流讨论。




上一篇:Agentic AI如何终结安全验证割裂,实现持续智能防护
下一篇:段永平的职场减法哲学:真正的高手,一生都在做减法
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-18 09:02 , Processed in 0.496535 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表