云栈社区»论坛 › 开发者广场「Dev Plaza」 › Qwen3.5-Plus深度评测：原生多模态AI巨模型实测解析 ...

发回帖发新帖

5678 积分	0 好友	731 主题

发消息

Qwen3.5-Plus深度评测：原生多模态AI巨模型实测解析

发表于 2026-2-17 04:49:57 | 查看: 1089| 回复: 0

通义千问正式发布了其最新一代模型 Qwen3.5，并开源了旗舰模型 Qwen3.5-397B-A17B，即我们可以在官网体验的 Qwen3.5-Plus。

Qwen3.5 原生多模态智能体开源发布海报

官方博客：https://qwen.ai/blog?id=qwen3.5
体验地址：https://chat.qwen.ai/

在官方界面中，Qwen3.5-Plus 提供了“自动”、“思考”、“快速”三种响应模式供用户选择。

Qwen3.5-Plus 应用界面截图

从官方发布的基准测试图表来看，Qwen3.5-Plus 在指令跟随、渐进式推理、智能体工具使用、多模态理解及代码能力等多个维度均表现优异，综合实力处于第一梯队。

多模型基准测试性能对比图表

技术层面，Qwen3.5 采用了混合架构，融合了线性注意力与 MoE（混合专家）技术，基于高效的 Qwen3-Next 架构，带来了显著的推理效率提升。解码吞吐量对比显示，在 32K 和 256K 上下文长度下，其性能远超前代模型。

Qwen系列模型解码吞吐量对比图

作为对比，Qwen3-Next 架构的模型因其出色的生成效果和速度，也备受开发者青睐，常被用于本地部署。

模型管理界面截图，展示多个Qwen系列模型

除了性能，Qwen3.5-Plus 的定价策略也极具吸引力。其输入 Token 价格低至每百万 0.8 元，输出为每百万 2.4 元，并提供了阶梯计费、缓存、批量处理等灵活选项。根据官方信息，其价格仅为 GPT-5.2 的 1/15，Gemini-3-Pro 的 1/18，性价比突出。

Qwen3.5-Plus 模型价格配置界面（输入≤128k）
Qwen3.5-Plus 模型价格配置界面（128k<输入≤256k）

价格详情页：https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3.5-plus

多模态能力实测

为了更直观地展示，笔者通过 API 将 Qwen3.5-Plus 接入了自建的 Web 对话应用进行测试。首先询问其基本信息，模型回复称其知识截止时间更新至 2026 年，原生支持 256K 上下文，并在视觉深度解析、OCR 文字识别及智能体自主规划等方面具备卓越能力。

Qwen3.5-Plus 自我介绍对话截图

视觉理解与图表分析
首轮测试聚焦于其升级后的多模态能力。上传一张来自 Qwen3-Coder-Next 论文的散点图，图中展示了多个模型在 SWE-bench 性能与参数量关系上的分布，但并未直接标注具体分数。

大模型SWE基准性能与参数量关系解读图

模型展现了强大的空间理解能力，准确识别出“Qwen3-Coder-Next (3B active)”位于帕累托前沿区域，并估算其性能约为 44.5%，同时指出“Claude-Sonnet-4.5”性能约 44%。经肉眼比对原图，其估算结果相当可靠。

精确测量与OCR识别
接着测试其精确测量能力。给定一个装有红色液体的烧杯图片，模型通过观察刻度，估算液体容量大约在 230ml 到 240ml 之间，与人工观察结果一致。

烧杯液体容量估算图片

在 OCR 文字识别方面，给予一张展示“铅活字拣字盘”的图片，图中文字为反写状态。Qwen3.5-Plus 成功识别出这是用于印刷孙中山《建国方略》的老宋体铅活字，并能辨识出“世界”、“人类”、“文明”等关键词，表现优于以往许多模型。

铅活字拣字盘实物照片

其 OCR 能力确实有了可见提升。例如，在面对一份复杂的视觉语言模型性能对比表格时，此前有模型会漏识别个别字母，而 Qwen3.5-Plus 此次完整、正确地识别了所有内容，包括“Open LVLM”等字段。

视觉语言模型性能对比表格截图

复杂场景与模糊文字处理
挑战一张内容模糊的收银小票，其中包含繁体字“無”，且“美团”字样因模糊易被误识。模型对上半部分模糊字体的识别整体较好，虽在“总计件数 1”的排版对应上出现小瑕疵，但综合表现可评 4.5 分。

MUJI收据OCR识别截图

面对反光严重的文物修复说明图，其能力令人印象深刻。图片包含大段介绍文字、多行小字以及反光严重的“擦”字。Qwen3.5-Plus 不仅保持了原文的排版结构，还成功识别出了所有小字和反光文字，OCR 识别精度极高。

清代瓷器修复过程展览图文
博物馆展板修复术语解释图

梗图理解与幽默解析
模型在理解网络梗图方面也颇有建树。给出一张 Elon Musk 与 Tibo 在 X（原 Twitter）上的趣味对话截图。

马斯克推特对话截图

Qwen3.5-Plus 对图片进行了详细解读：Tibo 引用马斯克的招聘推文来宣传自己的项目“Codex”，形成一种友好的竞争氛围。随后对话被 Heiner 和 Tibo 引向关于披萨的争论，马斯克突然加入，开始比较披萨质量，并最终抛出一个“上帝认证美味”的夸张比喻。

马斯克推特趣谈分析截图

模型进一步分析了其中的幽默点：对话从谈论“创业原则”、“改变世界”等高格局话题，陡然滑向争论“披萨面团发酵时间”和“厨师水平”，这种巨大的落差和马斯克一本正经的夸张修辞，共同制造了喜剧效果。

推理与知识应用测试

接下来考验模型的指令遵循与推理能力。要求其用恰好 40 个字写一段安慰加班夜归人的话，需包含“咖啡”和“地铁”，且语气温柔不鸡汤，并在最后标明字数。

写作任务与思考过程截图

通过查看思考过程，发现模型在严谨地数字数，并调整用词以避免“鸡汤”感。最终输出“凌晨风凉，咖啡暖手。地铁已停，归途不远。回家睡吧，休息最要紧，辛苦啦，睡个好觉。（40字）”，完美符合要求。

在知识抽象与规则制定方面，要求模型将“春节红包礼仪”抽象成一套不少于10条带优先级的规则，并对具体案例给出建议。

春节红包礼仪规则抽象表示意图

模型总结了12条诸如“长幼有序原则”、“同等一致原则”、“隐私保护原则”、“首次加重视原则”等规则，与现实社会礼仪高度吻合。针对“长辈坚持不要红包”的案例，它建议可改为赠送等值礼品，并给出话术：“这是专门为您挑的，不是钱，您不收就是嫌弃我挑的东西不好啦。祝您身体硬朗，吃嘛嘛香！”，非常贴合实际场景。

春节红包礼仪案例判定表示意图

复杂任务规划能力
测试其复杂任务规划能力，要求为8人家庭设计一份预算600元的江浙风味年夜饭方案，需包含菜单、采购清单、出菜时间线、菜品寓意及备选方案。

模型出色地完成了任务，列出了10道寓意吉祥的菜品，并给出了从采购到烹饪的详细时间线，负责人分配合理（如妈妈负责备菜，爸爸负责主菜，全家协作），还特别考虑到了海鲜过敏和控糖家人的需求，体现了细致的关怀。

江浙风味年夜饭菜单方案
年夜饭出菜顺序与时间线安排
年夜饭备选方案与特别照顾建议

多语言翻译与逻辑推理
在专业领域，测试其产品文案的多语言本地化能力。要求将一段关于“Privacy-first Export”的英文文案，准确翻译成斯瓦希里语、豪萨语、阿姆哈拉语、阿拉伯语、法语、印地语和日语共7种语言，并保留专有名词。

产品文案七语种本地化示例

模型生成的翻译结果经其他主流模型（Gemini 3 Pro）核验，被评价为准确无误。

多语言翻译一致性验证截图

最后进行高难度逻辑推理测试。要求模型扮演产品政策审核员，对一组给定的“退款与访问规则”进行自洽性检查、案例判定，并自行设计一个能暴露规则灰色地带的边界案例。

产品政策规则自洽性检查思考过程

模型迅速发现了规则集中的两处关键漏洞：

R2规则（14天内使用少于60分钟可无条件退款）与R8规则（若已导出则R2不适用）存在条件冲突，导致“无条件”表述存歧义。
R9规则对“重大故障”的定义（要求核心功能中至少两项不可用）存在逻辑死角，例如仅“登录”功能故障可能导致“同步”、“导出”连带失效，但技术上只算一项故障。

随后，它对12个预设案例做出了符合规则的准确判定（APPROVE/REJECT）。

产品政策案例判定结果表

此外，它还设计了一个新案例（C13），涉及退款审核期间用户权益损失的补偿问题，成功暴露了现有规则在“审核通过后是否补偿等待期”方面的模糊地带。整个过程展现了强大的逻辑分析、规则理解和批判性思维能力。

编程与代码生成能力

Qwen3.5-Plus 在代码生成和前端开发方面的美学与逻辑均有显著进步。在“Plan”模式下，让其生成一个“全球气候变化数据故事”交互式滚动叙事页面。

生成的页面颜值很高，包含了全球气温变化折线图、各大洲碳排放柱状图、海平面上升趋势图及受威胁城市列表。

全球平均气温变化折线图
各大洲碳排放量对比柱状图
海平面上升趋势与受威胁城市图

页面最后还包含一个交互式“碳足迹计算器”，用户可以选择出行方式、饮食习惯等，实时计算年度碳排放量。

个人碳足迹计算器界面截图

生成该页面的完整提示词（设计需求）如下：

全球气候变化数据故事设计需求提示词

模型生成的“催眠无限循环动画”页面同样出色，包含螺旋隧道、曼陀罗图案、波浪干涉等多种动画效果，页面设计美观，且提供了速度、颜色主题等调整选项。

螺旋隧道动画效果截图
曼陀罗图案动画效果截图
波浪干涉动画效果截图

终端游戏开发
最后，测试其生成一个复古终端文字冒险游戏的能力。根据提示词生成的游戏页面，在初始化后进入主场景——一个逃生舱，完美模拟了CRT显示器的绿色磷光效果和闪烁光标。

复古终端游戏系统初始化界面

输入 help 命令，可以查看所有可用指令，包括移动(n/s/e/w)、查看(look)、拾取(take)、使用(use)、查看背包(inventory)等。

复古终端文字冒险游戏主界面与帮助
复古终端游戏可用命令列表

通过 look 查看环境，take 拾取物品，n 移动到医疗室，再 take 医疗包并使用 heal 命令恢复生命值，游戏逻辑完整且可玩。

复古终端游戏医疗室场景与交互

生成该游戏的原始提示词需求如下：

复古终端文字冒险游戏设计需求

一次提示即能生成UI界面还原度高、游戏逻辑完整的作品，虽有少许细节（如部分命令简写未生效）可优化，但整体效果已令人满意。

总结

经过一系列从多模态识别、复杂推理到代码生成的实测，Qwen3.5-Plus 展现出了全面而强大的能力。其在视觉理解、OCR精度上进步显著，在逻辑推理、规则分析和知识应用上表现扎实，在代码生成和创意实现上兼具美感与实用性。加之其极具竞争力的定价，堪称当前开源大模型阵营中的一位实力派选手。对于开发者或技术爱好者而言，这无疑是一个值得深入研究和体验的模型。关于大模型的最新动态和技术实践，也欢迎大家在开发者广场交流讨论。

上一篇：前端工程师的AI编码实战指南：三类高效场景与三大避坑雷区
下一篇：从极客湾测试事件，解析安卓手机媒体机性能特调现象

Qwen3．5, 多模态, 智能体, 代码生成, 模型评测

Qwen3.5-Plus深度评测：原生多模态AI巨模型实测解析

多模态能力实测

推理与知识应用测试

编程与代码生成能力

总结

相关帖子

浏览过的版块