找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3229

积分

0

好友

428

主题
发表于 6 天前 | 查看: 97| 回复: 0

通义千问正式发布了其最新一代模型 Qwen3.5,并开源了旗舰模型 Qwen3.5-397B-A17B,即我们可以在官网体验的 Qwen3.5-Plus。

Qwen3.5 原生多模态智能体开源发布海报

官方博客:https://qwen.ai/blog?id=qwen3.5
体验地址:https://chat.qwen.ai/

在官方界面中,Qwen3.5-Plus 提供了“自动”、“思考”、“快速”三种响应模式供用户选择。

Qwen3.5-Plus 应用界面截图

从官方发布的基准测试图表来看,Qwen3.5-Plus 在指令跟随、渐进式推理、智能体工具使用、多模态理解及代码能力等多个维度均表现优异,综合实力处于第一梯队。

多模型基准测试性能对比图表

技术层面,Qwen3.5 采用了混合架构,融合了线性注意力与 MoE(混合专家)技术,基于高效的 Qwen3-Next 架构,带来了显著的推理效率提升。解码吞吐量对比显示,在 32K 和 256K 上下文长度下,其性能远超前代模型。

Qwen系列模型解码吞吐量对比图

作为对比,Qwen3-Next 架构的模型因其出色的生成效果和速度,也备受开发者青睐,常被用于本地部署。

模型管理界面截图,展示多个Qwen系列模型

除了性能,Qwen3.5-Plus 的定价策略也极具吸引力。其输入 Token 价格低至每百万 0.8 元,输出为每百万 2.4 元,并提供了阶梯计费、缓存、批量处理等灵活选项。根据官方信息,其价格仅为 GPT-5.2 的 1/15,Gemini-3-Pro 的 1/18,性价比突出。

Qwen3.5-Plus 模型价格配置界面(输入≤128k)
Qwen3.5-Plus 模型价格配置界面(128k<输入≤256k)

价格详情页:https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3.5-plus

多模态能力实测

为了更直观地展示,笔者通过 API 将 Qwen3.5-Plus 接入了自建的 Web 对话应用进行测试。首先询问其基本信息,模型回复称其知识截止时间更新至 2026 年,原生支持 256K 上下文,并在视觉深度解析、OCR 文字识别及智能体自主规划等方面具备卓越能力。

Qwen3.5-Plus 自我介绍对话截图

视觉理解与图表分析
首轮测试聚焦于其升级后的多模态能力。上传一张来自 Qwen3-Coder-Next 论文的散点图,图中展示了多个模型在 SWE-bench 性能与参数量关系上的分布,但并未直接标注具体分数。

大模型SWE基准性能与参数量关系解读图

模型展现了强大的空间理解能力,准确识别出“Qwen3-Coder-Next (3B active)”位于帕累托前沿区域,并估算其性能约为 44.5%,同时指出“Claude-Sonnet-4.5”性能约 44%。经肉眼比对原图,其估算结果相当可靠。

精确测量与OCR识别
接着测试其精确测量能力。给定一个装有红色液体的烧杯图片,模型通过观察刻度,估算液体容量大约在 230ml 到 240ml 之间,与人工观察结果一致。

烧杯液体容量估算图片

在 OCR 文字识别方面,给予一张展示“铅活字拣字盘”的图片,图中文字为反写状态。Qwen3.5-Plus 成功识别出这是用于印刷孙中山《建国方略》的老宋体铅活字,并能辨识出“世界”、“人类”、“文明”等关键词,表现优于以往许多模型。

铅活字拣字盘实物照片

其 OCR 能力确实有了可见提升。例如,在面对一份复杂的视觉语言模型性能对比表格时,此前有模型会漏识别个别字母,而 Qwen3.5-Plus 此次完整、正确地识别了所有内容,包括“Open LVLM”等字段。

视觉语言模型性能对比表格截图

复杂场景与模糊文字处理
挑战一张内容模糊的收银小票,其中包含繁体字“無”,且“美团”字样因模糊易被误识。模型对上半部分模糊字体的识别整体较好,虽在“总计件数 1”的排版对应上出现小瑕疵,但综合表现可评 4.5 分。

MUJI收据OCR识别截图

面对反光严重的文物修复说明图,其能力令人印象深刻。图片包含大段介绍文字、多行小字以及反光严重的“擦”字。Qwen3.5-Plus 不仅保持了原文的排版结构,还成功识别出了所有小字和反光文字,OCR 识别精度极高。

清代瓷器修复过程展览图文
博物馆展板修复术语解释图

梗图理解与幽默解析
模型在理解网络梗图方面也颇有建树。给出一张 Elon Musk 与 Tibo 在 X(原 Twitter)上的趣味对话截图。

马斯克推特对话截图

Qwen3.5-Plus 对图片进行了详细解读:Tibo 引用马斯克的招聘推文来宣传自己的项目“Codex”,形成一种友好的竞争氛围。随后对话被 Heiner 和 Tibo 引向关于披萨的争论,马斯克突然加入,开始比较披萨质量,并最终抛出一个“上帝认证美味”的夸张比喻。

马斯克推特趣谈分析截图

模型进一步分析了其中的幽默点:对话从谈论“创业原则”、“改变世界”等高格局话题,陡然滑向争论“披萨面团发酵时间”和“厨师水平”,这种巨大的落差和马斯克一本正经的夸张修辞,共同制造了喜剧效果。

推理与知识应用测试

接下来考验模型的指令遵循与推理能力。要求其用恰好 40 个字写一段安慰加班夜归人的话,需包含“咖啡”和“地铁”,且语气温柔不鸡汤,并在最后标明字数。

写作任务与思考过程截图

通过查看思考过程,发现模型在严谨地数字数,并调整用词以避免“鸡汤”感。最终输出“凌晨风凉,咖啡暖手。地铁已停,归途不远。回家睡吧,休息最要紧,辛苦啦,睡个好觉。(40字)”,完美符合要求。

在知识抽象与规则制定方面,要求模型将“春节红包礼仪”抽象成一套不少于10条带优先级的规则,并对具体案例给出建议。

春节红包礼仪规则抽象表示意图

模型总结了12条诸如“长幼有序原则”、“同等一致原则”、“隐私保护原则”、“首次加重视原则”等规则,与现实社会礼仪高度吻合。针对“长辈坚持不要红包”的案例,它建议可改为赠送等值礼品,并给出话术:“这是专门为您挑的,不是钱,您不收就是嫌弃我挑的东西不好啦。祝您身体硬朗,吃嘛嘛香!”,非常贴合实际场景。

春节红包礼仪案例判定表示意图

复杂任务规划能力
测试其复杂任务规划能力,要求为8人家庭设计一份预算600元的江浙风味年夜饭方案,需包含菜单、采购清单、出菜时间线、菜品寓意及备选方案。

模型出色地完成了任务,列出了10道寓意吉祥的菜品,并给出了从采购到烹饪的详细时间线,负责人分配合理(如妈妈负责备菜,爸爸负责主菜,全家协作),还特别考虑到了海鲜过敏和控糖家人的需求,体现了细致的关怀。

江浙风味年夜饭菜单方案
年夜饭出菜顺序与时间线安排
年夜饭备选方案与特别照顾建议

多语言翻译与逻辑推理
在专业领域,测试其产品文案的多语言本地化能力。要求将一段关于“Privacy-first Export”的英文文案,准确翻译成斯瓦希里语、豪萨语、阿姆哈拉语、阿拉伯语、法语、印地语和日语共7种语言,并保留专有名词。

产品文案七语种本地化示例

模型生成的翻译结果经其他主流模型(Gemini 3 Pro)核验,被评价为准确无误。

多语言翻译一致性验证截图

最后进行高难度逻辑推理测试。要求模型扮演产品政策审核员,对一组给定的“退款与访问规则”进行自洽性检查、案例判定,并自行设计一个能暴露规则灰色地带的边界案例。

产品政策规则自洽性检查思考过程

模型迅速发现了规则集中的两处关键漏洞:

  1. R2规则(14天内使用少于60分钟可无条件退款)与R8规则(若已导出则R2不适用)存在条件冲突,导致“无条件”表述存歧义。
  2. R9规则对“重大故障”的定义(要求核心功能中至少两项不可用)存在逻辑死角,例如仅“登录”功能故障可能导致“同步”、“导出”连带失效,但技术上只算一项故障。

随后,它对12个预设案例做出了符合规则的准确判定(APPROVE/REJECT)。

产品政策案例判定结果表

此外,它还设计了一个新案例(C13),涉及退款审核期间用户权益损失的补偿问题,成功暴露了现有规则在“审核通过后是否补偿等待期”方面的模糊地带。整个过程展现了强大的逻辑分析、规则理解和批判性思维能力。

编程与代码生成能力

Qwen3.5-Plus 在代码生成和前端开发方面的美学与逻辑均有显著进步。在“Plan”模式下,让其生成一个“全球气候变化数据故事”交互式滚动叙事页面。

生成的页面颜值很高,包含了全球气温变化折线图、各大洲碳排放柱状图、海平面上升趋势图及受威胁城市列表。

全球平均气温变化折线图
各大洲碳排放量对比柱状图
海平面上升趋势与受威胁城市图

页面最后还包含一个交互式“碳足迹计算器”,用户可以选择出行方式、饮食习惯等,实时计算年度碳排放量。

个人碳足迹计算器界面截图

生成该页面的完整提示词(设计需求)如下:

全球气候变化数据故事设计需求提示词

模型生成的“催眠无限循环动画”页面同样出色,包含螺旋隧道、曼陀罗图案、波浪干涉等多种动画效果,页面设计美观,且提供了速度、颜色主题等调整选项。

螺旋隧道动画效果截图
曼陀罗图案动画效果截图
波浪干涉动画效果截图

终端游戏开发
最后,测试其生成一个复古终端文字冒险游戏的能力。根据提示词生成的游戏页面,在初始化后进入主场景——一个逃生舱,完美模拟了CRT显示器的绿色磷光效果和闪烁光标。

复古终端游戏系统初始化界面

输入 help 命令,可以查看所有可用指令,包括移动(n/s/e/w)、查看(look)、拾取(take)、使用(use)、查看背包(inventory)等。

复古终端文字冒险游戏主界面与帮助
复古终端游戏可用命令列表

通过 look 查看环境,take 拾取物品,n 移动到医疗室,再 take 医疗包并使用 heal 命令恢复生命值,游戏逻辑完整且可玩。

复古终端游戏医疗室场景与交互

生成该游戏的原始提示词需求如下:

复古终端文字冒险游戏设计需求

一次提示即能生成UI界面还原度高、游戏逻辑完整的作品,虽有少许细节(如部分命令简写未生效)可优化,但整体效果已令人满意。

总结

经过一系列从多模态识别、复杂推理到代码生成的实测,Qwen3.5-Plus 展现出了全面而强大的能力。其在视觉理解、OCR精度上进步显著,在逻辑推理、规则分析和知识应用上表现扎实,在代码生成和创意实现上兼具美感与实用性。加之其极具竞争力的定价,堪称当前开源大模型阵营中的一位实力派选手。对于开发者或技术爱好者而言,这无疑是一个值得深入研究和体验的模型。关于大模型的最新动态和技术实践,也欢迎大家在开发者广场交流讨论。




上一篇:前端工程师的AI编码实战指南:三类高效场景与三大避坑雷区
下一篇:从极客湾测试事件,解析安卓手机媒体机性能特调现象
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 12:59 , Processed in 0.571336 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表