找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1352

积分

0

好友

172

主题
发表于 6 天前 | 查看: 26| 回复: 0

阿里在大年初一前夕,正式发布了新一代的大模型——通义千问3.5系列。这对于开源社区而言,无疑是一份重磅的新年贺礼。

在开源大模型领域,Qwen系列的每次更新几乎都伴随着榜单的刷新,此次的Qwen3.5-Plus也不例外。不过,真正的看点早已不仅是榜单名次,而是其在模型架构上的持续探索与自我革新。

此次发布的旗舰模型Qwen3.5-Plus拥有3970亿的总参数量。这个数字相比前代旗舰Qwen3-Max的万亿参数,不增反降,显得相当“反直觉”。尽管业界对单纯堆叠参数的边际收益递减已有预期,但Qwen3.5-Plus能以不到前代40%的参数量,将综合性能提升至与Google Gemini 3 Pro相当的级别,仍然令人惊讶。

更关键的是效率。根据披露,Qwen3.5-Plus在每次推理时,实际激活的参数仅有170亿。这意味着它仅动用了模型整体约5%的“算力资源”,便能输出“满血”的智能水平。最终反映到用户端,其token成本据称仅为Gemini 3 Pro的1/18。

这种效率的跃升,源于Qwen系列在混合专家(MoE)架构上的长期深耕。从Qwen1.5引入细粒度专家模式,到Qwen3代放弃共享专家、改用路由专家,再到此次Qwen3.5引入“混合注意力模式”让模型学会“有详有略地阅读”,每一次迭代都在尝试突破现有框架。驱动Qwen3.5实现关键突破的门控技术,便源自阿里在2025年NeurIPS顶会上发表的最佳论文成果,目前已向行业全面公开。

至此,以Qwen、GLM、Kimi、DeepSeek为代表的中国开源大模型阵营,不仅在多条技术路线上领跑,更形成了对闭源模型的交叉合围之势。业界预测2026年将有“大的”技术变革到来,那么,由开源模型摘取不含任何限定词的SOTA(当前最优性能),是否会成为其中一个重要的里程碑?

如果说以前评价阿里的AI实力是“中国最接近谷歌的公司”,主要指其同时布局芯片、云计算、大模型和应用的四位一体业务结构。那么从现在起,这一评价在技术模态上也得到了印证。Qwen3.5从预训练的第一天起,就基于文本和视觉的混合数据进行联合学习,致力于实现视觉与语言在统一参数空间内的深度融合,这与谷歌Gemini系列的多模态思路同源。

回顾发展历程,国产顶级大模型与国际最强SOTA之间的性能差距,已从“6个月”缩短至“3个月”。按照这个迭代速度,实现全面超越或许已能看到清晰的路径。




上一篇:比特币交易结构深度解析:从原始数据到锁定解锁脚本
下一篇:分布式锁选型指南:深度对比ZooKeeper与Redis的原理、性能与场景
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 11:47 , Processed in 0.572604 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表