3153 积分	0 好友	423 主题

发消息

Qwen3.6-27B评测：4分钟跑酷游戏，验证码识别90%+

发表于 8 小时前 | 查看: 5| 回复: 0

阿里通义千问团队于4月23日发布并开源了Qwen3.6-27B——一款270亿参数的稠密多模态模型，支持思考与非思考模式。与上一代旗舰Qwen3.5-397B-A17B相比，Qwen3.6-27B以仅1/15的参数规模，在多项编程基准上实现了反超，并展现出较强的文本和多模态推理能力。

Qwen3.6系列模型列表，Qwen3.6-27B高亮

在SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0以及SkillsBench等测试中，Qwen3.6-27B大幅领先同尺寸的Gemma 4-31B模型。随着Qwen3.6-27B的加入，阿里宣布Qwen3.6系列已完整发布，涵盖开源模型Qwen3.6-35B-A3B和闭源模型Qwen3.6-Plus、Qwen3.6-Max-Preview。

综合性能对比：Qwen3.6-27B在多个基准中的柱状图

价格方面，阿里云百炼平台显示Qwen3.6-27B每百万Token输入价格3元，输出价格18元。由于是稠密模型，成本不算低。该模型已在Qwen Chat、Hugging Face和ModelScope开源，将接入OpenClaw、Claude Code等主流编程助手。体验地址和开源地址如下：

体验： https://chat.qwen.ai/
开源： https://huggingface.co/Qwen/Qwen3.6-27B ， https://modelscope.cn/models/Qwen/Qwen3.6-27B

Qwen3.6系列技术规格与定价

Hugging Face上Qwen3.6-27B开源权重文件列表

编程能力实测：跑酷游戏、记账应用与新闻站

官方数据显示，Qwen3.6-27B在编程基准上全面超越Qwen3.5-397B-A17B：SWE-bench Verified 77.2 vs 76.2、SWE-bench Pro 53.5 vs 50.9、Terminal-Bench 2.0 59.3 vs 52.5、SkillsBench 48.2 vs 30.0。推理能力上，GPQA Diamond得分为87.8（略低于397B的88.4）。

编程与推理基准对比表格

为了直观感受，我们首先让其制作一个包含多层复杂需求的横版跑酷游戏。提示词要求实现跳跃/二段跳/下滑、自动滚动地图、多种障碍物与可拾取道具、敌人AI、HP与分数UI等，全部写在一个HTML文件。

模型耗时约四分钟，输出超过1200行代码。实际运行后，游戏核心要素基本到位：二段跳、障碍物（无人机、针刺）、能量电池、金币、磁铁吸附等均有效果，血量、分数、距离显示正常，低多边形霓虹风美术也符合设定。

跑酷游戏提示词与部分代码界面

跑酷游戏运行效果gif

细微不足在于：有些针刺悬浮在空中，拾取电池后缺少能量条反馈，撞到障碍物未扣血——但这些属于细节调整范畴，整体可玩性已相当高。

接着，我们让模型开发一个个人记账应用，以考察其对业务逻辑、数据持久化和异常输入的理解。生成的应用支持记录的增删改查、按月筛选、总收入/支出/结余统计以及近7天收支趋势图表；数据通过 localStorage 存储，刷新不丢失。唯一瑕疵是刷新后7日柱状图曾瞬间消失，再记一笔后恢复——属于异步渲染时机的小问题。

个人记账应用界面

最后的新闻网站前端设计任务中，模型自动规划了科技、财经、体育、娱乐、健康五大板块，包含国内外新闻、热门排行、标签云，甚至预留广告位并展示北京天气，界面布局合理、信息完整。说明它对“一个完整的新闻站点”有成熟的前端认知。

新闻网站前端界面

多模态测试：验证码识别与找不同

作为原生多模态模型，Qwen3.6-27B支持视觉语言思考/非思考模式，覆盖视觉推理、文档理解等场景，能力与上一代旗舰相当。

多模态对比表格

我们先用一组模糊验证码考验其识别能力。它准确给出了绝大多数字符，只在第八个（0AIs）上将末尾的“s”误判为“6”，但同时在输出中标注了不确定项——这种带置信度的反馈对自动化校验流程更为友好。

待识别的验证码图

验证码识别过程与思考记录

翻看思考链，模型对第八个字符在“b”和“6”之间反复纠结，而正确答案“s”从未进入候选集，表明面对极相似字符仍会出现“越想越错”的倾向，后续仍需人工复核。

随后，我们让模型找两幅卡通插画的差异。它快速识别出五处不同——鸟窝、书、灯笼位置与颜色、挂饰——连墙上的小挂件都没漏掉，思考过程简洁、描述清晰，展现了较强的视觉分析能力。

找不同原图

找不同分析结果

结语：聚焦开发者核心需求的开源模型

Qwen3.6系列不再追求超大参数全线开源，而是精准推出27B稠密和MoE小尺寸模型，折射出阿里开源策略的聚焦。这类模型直指开发者、研究者及小团队的需求——本地部署、二次微调、灵活可控。开源社区对于27B这样“正好够用”的尺寸反馈热烈，而Qwen3.6-27B在编程与多模态上的表现，使其成为个人项目或小型应用的强力基座。

想要获取更多AI模型评测、部署经验或参与到开发者交流中，欢迎访问云栈社区。

上一篇：台积电A16/A14、CoWoS与SoIC全栈技术路线：锁定AI芯片数据中心战场
下一篇：苹果推送iOS 26.4.2/18.7.8：修复通知数据残留漏洞，FBI曾借此取证

Qwen3．6-27B, 多模态模型, 编程测试, 验证码识别, 阿里云

Qwen3.6-27B评测：4分钟跑酷游戏，验证码识别90%+

编程能力实测：跑酷游戏、记账应用与新闻站

多模态测试：验证码识别与找不同

结语：聚焦开发者核心需求的开源模型

相关帖子