找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

975

积分

0

好友

139

主题
发表于 5 天前 | 查看: 14| 回复: 0

美团LongCat-Image开源模型

继在文本、音频、视频领域开源模型后,美团再次开源了其图像生成模型:LongCat-Image

模型核心亮点

该模型主打两大核心能力:高质量中文文本渲染高度可控的单图编辑

模型效果展示1
模型效果展示2
模型效果展示3

模型在社区获得了不错的初期评价,本文将对其进行实际效果测试与分析。

实测界面
实测案例概览

在展示实测效果前,先快速了解模型的更多技术信息。

模型介绍

LongCat-Image 是一个中英双语图像生成模型,参数量为 6B。除了突出的中文渲染和编辑能力,它还重点优化了图像写实性、部署效率及开发者友好性等关键问题。

模型跑分概览

基准评测表现

基准评测成绩

在图像编辑基准测试集 ImgEdit 上,LongCat-Image 取得了开源模型第一的成绩。在 GEdit-EN 和 GEdit-CN 数据集上的表现,已接近闭源SOTA模型水平。

其在中文文字生成任务 ChineseWord 上的表现尤为突出,得分高达 90.7,大幅领先第二名超过30分。

技术亮点

LongCat-Image 采用了文生图与图像编辑同源的统一架构设计。

模型架构图

结合渐进式训练策略,该模型在仅6B参数规模下实现了开源SOTA性能,尤其在指令遵循精度、图像生成质量和文字渲染能力上表现卓越,展现了高效模型设计的潜力。

下面通过一系列实测案例来具体展示其能力。

实测案例分析

中文文本渲染能力

首先测试其得分最高的中文文本渲染能力。

手写书法生成

提示词:用行书写一幅竖排书法作品,内容是“落霞与孤鹜齐飞,秋水共长天一色”,落款“王勃”。

生成效果:
书法生成效果

整体表现良好,提示词中的文本能被正确识别并渲染。但仔细观察,如“鹜”等笔画较多的字,在局部细节上渲染清晰度略有不足。

繁体字海报生成

针对笔画复杂的繁体字进行进一步测试。
繁体字提示词

经过几次尝试后,得到以下效果:
繁体字海报效果

艺术风格符合“块面感”要求,繁体字的渲染准确无误。

店铺门头图生成

目前外卖平台店铺头像的AI设计已形成一定产业。我们测试LongCat-Image在此场景下的应用,并特意使用包含生僻字的店名。

提示词1:餐饮店门头,店内店外有顾客,色调温馨,店名是莜麦栲栳小铺
店铺门头效果1

提示词2:餐饮店门头,店内店外有顾客,色调温馨,店名是饸饹巷面馆
店铺门头效果2

即使是“莜”、“栳”、“饸”、“饹”这类生僻字也能正确渲染。不过生成的店铺普遍存在窗户表现不明确的问题。
窗户细节

电商营销应用

模型内置了电商营销风格,可用于快速生成营销素材。

电商营销风格选项

美妆电商海报

提示词:电商营销风格,高质量产品图,一瓶精华液,液体呈淡金色,瓶身有精致雕花,背景是柔光,突出产品高级感,旁边有“璀璨修护 焕活肌底”字样
美妆海报效果

海报质感高级,但未在提示词中指定的英文字样出现了渲染混乱的情况。

双十二促销海报

提示词:电商营销风格,双十二促销活动海报,背景红色喜庆,中央有“年终盛典 限时直降”大字,下方有小字“跨店每满300减40”,有礼品盒、购物车图标点缀
双十二海报效果1
双十二海报效果2

在指令清晰的情况下,即使文字内容较多,模型也能进行正确渲染。

照片写实性测试

人物摄影

提示词:人像摄影佳作,强透视,混暗调风格,特写魅力。暗漫背景下,白皙皮肤的女性闭眸,嘴唇微张,表情平静,精致五官若隐若现,头发遮脸,神秘安静氛围拉满,光影交错,细节动人,杰作。
人像摄影效果

光影层次、面部细节、嘴唇纹理都呈现出较高的写实度,避免了部分AI生成图像常见的“塑料感”

食物特写

提示词:一碗红烧牛肉面特写,面条根根分明,上面铺着大块炖煮软烂的牛肉,汤汁浓郁红亮,撒有翠绿的葱花和香菜,碗边放着一双木质筷子,背景是简约的深色木质桌面,光线从斜上方打下来,形成柔和的光影,突出食物的光泽和层次感,整体色调温暖
食物特写效果

图像编辑能力

连续指令编辑

1. 去除挂件
原图:
原图1
编辑指令:去掉背包上的挂件
编辑后:
编辑效果1
模型能准确定位并自然移除指定元素。

2. 添加外套
在原图基础上继续编辑。
编辑指令:给她穿上黑色皮夹克
编辑后:
编辑效果2
模型在人物已有背包的情况下,正确生成了外套。但手部姿势从插裤兜变成了插外套口袋。

追加指令:给她穿上黑色皮夹克,手依然插在裤兜里
编辑后:
编辑效果3

3. 替换地面
继续对上一张图进行环境编辑。
编辑指令:把地面换成积雪覆盖的样子
编辑后:
编辑效果4
场景一致性保持良好。但观察到图像模型的一个常见现象:多次编辑后,画面整体色调会略显灰暗,如同叠加了一层浅色滤镜。

材质替换

将针织材质改为玻璃材质:
原图(针织玩偶):
原图2
编辑后(玻璃材质):
材质编辑效果1

再将玻璃材质改为毛绒材质:
编辑后(毛绒材质):
材质编辑效果2

文字修改

快速修改图片中的文字内容。
编辑指令:将图片中的文字“他强任他强 清风拂山岗”改成“大雪压青松 青松挺且直”
原图:
文字原图
编辑后:
文字编辑效果

中文表情包制作

制作《疯狂动物城》Judy的多格表情包。
提示词:四格漫画,表情包风格,兔子警官朱迪,四个表情分别是:震惊、无语、偷笑、点赞,配对应文字
生成效果:
表情包效果

更多风格示例

模型提供了多种风格预设,以下是部分效果展示。
风格列表

赛博朋克风格

赛博朋克风的Judy与Nick:
赛博朋克效果1
赛博朋克效果2

对单张图片进行风格转换:
原图:
原图3
转换指令:赛博朋克风格
转换后:
赛博朋克效果3

中国风

提示词:幽蓝色背景中,万里江山图用纵向彩色流畅曲线呈现山峦,塔楼,瀑布,溪流,树木,花草,小村落的单边轮廓(细线),采用极简主义的一笔画形式,大师级排版
生成效果:
中国风效果1

提示词:采用北宋《清明上河图》工笔淡彩古画风格(做旧浅棕褐色调、线条细腻、淡设色质感),背景为高饱和度暖橙色纯色;画面主体:4位身着宋代平民服饰的人物(古画质感),围绕中药台进行中医药材制作:1人端盛有药材的陶碗、1人在木桌上操作器具、1人手持中药、1人整理中药;周围散落古画风格的中式厨具(陶罐、陶碗)与盛放的中药材
生成效果:
中国风效果2

卡通风格

提示词:以玄幻风格呈现的古代玄猫的特写,风云构成猫头,云雾缭绕且凶猛翻滚,猫长相狰狞,低下头俯视着,夸张惊悚恐怖的压抑的气氛。
生成效果:
卡通风格效果

总结

美团在模型开源上节奏迅速,从今年九月初开源LongCat-Flash文本模型至今,已在文本、音频、视频、图像领域完成了开源布局。

LongCat系列模型

LongCat-Image作为一个参数量仅6B的开源模型,其整体表现超出了预期。最突出的两点在于:一是对汉字(包括生僻字和繁体字)的渲染准确性大幅提升,改变了以往AI生图在中文文本上的弱势,尽管在未指定语种时仍可能出现乱码;二是其图像编辑功能实用性强,支持通过自然语言进行连续编辑,为实际业务中的素材快速处理提供了新工具。

感兴趣的开发者可通过以下链接体验或获取模型:

体验页面




上一篇:最新四阶段java高手养成计划课程 覆盖Java核心、Web、高级框架与微服务架构
下一篇:JVM 内存与垃圾回收篇+字节码与类的加载篇+性能监控与调优篇 体系化深度解析
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-17 16:02 , Processed in 0.140175 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表