Qwen-Image-2.0 现已正式推出。用户可以直接访问千问官方网站,点击“+”号并选择“生成图像”功能,输入提示词即可免费体验这一2.0版本模型。
https://chat.qwen.ai/
本次 2.0 版本的核心亮点之一,无疑是其大幅增强的文字渲染能力。无论是生成高级信息图、中英文海报、专业幻灯片,还是对《兰亭集序》这类全文进行精准还原,它都能轻松应对。

核心参数与架构
Qwen-Image-2.0 支持长达 1K token 的指令输入,并能输出高达 2K 分辨率的图片,在语义遵循方面表现更为出色。模型采用了 7B 参数的架构,更为轻量,生成效率也得到了提升。
与此同时,字节跳动也推出了 Seedream 5.0 Preview 模型。官方宣传称其具备更智能的推理能力、更强大的设计水平、多语言准确性以及更出色的参考控制能力。

我们对 Qwen-Image-2.0 和 Seedream 5.0 Preview 进行了一系列的对比测试,重点考察了它们的文字渲染、语义理解和多场景生成能力。
实拍照片中的文字渲染
第一个测试任务是要求生成一张模拟真实白板书写效果的照片。Qwen-Image-2.0 生成的图片中,所有文字内容都完全正确,包括中文标点、英文大小写和换行位置。

而 Seedream 5.0 的输出则出现了错别字,例如标点符号描述中的“点”字写错,英文“Case Sensitive”中的“写”被渲染成了“马”。此外,经过多次测试,Seedream 生成的文字下方常出现类似白色涂改液的痕迹,仿佛先涂抹再重写。在此任务上,Qwen-Image-2.0 的表现明显更优。

现代杂志内页
接着,我们让两个模型生成一张现代杂志内页的写实风格排版图。Qwen-Image-2.0 生成的图片背景具有非常逼真的纸张质感。

Seedream 的表现则稍逊一筹。仔细观察,其图片中“柏油路”的“油”字渲染错误,“一扇半掩的窗”中的“掩”字也存在问题。而 Qwen-Image-2.0 的文字完全准确。

另外,提示词中要求“墨迹要微微渗透真实”,Qwen-Image-2.0 准确呈现了墨迹晕开的效果,而 Seedream 的图片中完全没有体现这一点。

写实棚拍场景
我们要求生成一个写实的棚拍场景,风扇底座需有特定文字内容的黑底白字产品铭牌。

Qwen-Image-2.0 生成的铭牌为银色底配黑色字体,非常接近真实产品的质感——尽管提示要求是“黑字白底”,略有偏差但视觉效果不错。

但 Seedream 的问题更为严重:铭牌上的文字完全扭曲,无法辨认。在这个任务上,仍然是 Qwen-Image-2.0 表现更好。

PPT 信息图
我们提供了一段关于 Qwen3-Coder-Next 模型的介绍文字,要求生成一张 PPT 风格的信息图。

Qwen-Image-2.0 准确地把握了模型特点,生成的背景和页面文字都相当不错。

放大观察 Seedream 生成的图片,可以发现不少文字问题:“长程”的“程”字有误,“持续”上方的两点模糊,“智能体”的“能”字写成了类似“熊”的字形,右侧的“部署”两字也出错了。

日常中,我们虽然常使用 NanoBanana Pro,但其每张图 0.14 美元的成本是明显短板。随着 Qwen-Image-2.0 的免费推出,它将成为生成各类信息图和海报的绝佳选择。待其 API 正式开放后,必然会在日常工作中得到更频繁的调用。
多宫格漫画
Qwen-Image-2.0 还支持在单张图片内展示多宫格漫画。我们参考官方示例,用 AI 编写了一个关于小羊和小兔的友谊故事作为提示词。

仔细观察生成图,每一个对话框内的文字渲染都正确无误,位置居中且没有溢出。

详细比对了提示词和输出内容,至少有 90% 能够准确对应,这证明了 Qwen-Image-2.0 具备出色的语义理解能力。而使用相同的提示词让 Seedream 生成多宫格漫画时,它却默认生成了多张独立的图片。

网页设计
我们让两个模型生成一个高端风格的理发店网站页面。Qwen-Image-2.0 生成的画面风格比较简约现代。

而 Seedream 虽然收到的是中文提示,却生成了一个英文页面,且整体样式也较为简单。

红烧肉菜谱
我们要求模型生成一张包含详细步骤的红烧肉菜谱图。Qwen-Image-2.0 生成的图片风格高级,右侧清晰地列出了5个步骤,内容准确无误。

Seedream 则生成了多张分步图,放大观察可以发现“捞出沥干”这几个字中出现了错误。

拍立得照片墙
我们上传了一张参考图,要求生成一面贴满24张拍立得照片(4×6排列)的墙,每张照片下方需有指定的英文手写备注。

Qwen-Image-2.0 生成的24张拍立得基本都附有文字,尽管第14和第15张的文字出现了重复,但整体完成度很高。

Seedream 方面则遇到一些问题:首先,它不能稳定理解“4×6”的排列要求,有时生成4×4,有时是4×5;其次,它也没有遵循“每张照片都有英文备注”的指令,只在其中一处添加了文字。

实验记录本
我们要求生成一张写实的竖版方格纸实验记录本页面,顶部有标题,中间需有一段包含特定化学符号的中文记录。

Qwen-Image-2.0 生成的文字基本准确,纸张质感非常真实,右侧还呈现了墨迹晕染效果,放大后能清晰看到方格纹理。

Seedream 的图片同样能看到方格,但纸张的真实感稍弱。不过,由于提示词较为开放,Seedream 在内容组织上反而更有条理——它用步骤1到5清晰标注了不同阶段,并展示了对应的时间。

相比之下,Qwen-Image-2.0 生成的图片中步骤存在重复,且所有的“观察”和“时间”内容都一致,在逻辑严谨性上略有不足。
总结
以上就是对 Qwen-Image-2.0 文字渲染与多场景生成能力的全面体验。可以明显看到,Qwen-Image-2.0 在文字渲染的准确性和细节还原上有了巨大提升,非常推荐大家将其用于PPT制作、海报设计、漫画创作等对文字保真度要求较高的场景。
建议大家直接访问 Qwen Chat 平台体验图片生成功能,输出质量很高,下载的图片通常在5-6MB,清晰度极佳。
https://chat.qwen.ai/
总而言之,对于需要在图像中精准嵌入文字的用户,例如制作信息图、宣传物料或创意内容,Qwen-Image-2.0 提供了一个强大且免费的解决方案。如果你对这类Transformer驱动的多模态AI应用感兴趣,欢迎到云栈社区交流探讨,获取更多技术资源和实践经验分享。