云栈社区»论坛 › 站务中心「 Forum Service 」 › 微信灰度测试「小微」：一个能替你点奶茶、做小程序的AI助手 ...

发回帖发新帖

4205 积分	0 好友	553 主题

发消息

微信灰度测试「小微」：一个能替你点奶茶、做小程序的AI助手

发表于 3 小时前 | 查看: 5| 回复: 0

盆友们，微信「小微」，我也是终于灰度到了！

微信应用界面截图，顶部左侧有红色方框标出的头像区域，内含白色背景上两个绿色圆点；中间显示‘微信’标题及搜索栏；下方提示‘已登录2台其他设备’和‘31个置顶聊天’；再下方为聊天列表

之前收藏的位置，现在已经换成了绿豆双点小眼睛。点进去，就是微信正在灰度的原生AI助手——小微。

所以小微究竟能做什么？试用一上午后，我得出一个最直白的结论：这是一个以后你直接在微信里就能用的AI助手，生成速度飞快不用等，还能替你干活。

平常咱在微信里能干的事，跟它说一声，它基本能一键全包。小微加持下的微信，变得更全能了，一个APP就能干完过去好多个APP才能干的活。

微信小程序界面截图，显示名为‘小微测试版’的功能介绍，分为办事类、信息类、生活类、聊天类四大板块

它是微信团队自己做的Agent，文字、语音都能聊，能操作微信原生功能，也能调用小程序，全方位接入微信生态。废话不多说，直接上我用下来觉得最实用的几个功能：

1、基础问答功能。

比如不懂的知识点直接call它：

手机聊天界面截图，用户询问 AI 圈里 'loop' 的概念，小微给出详细解释

又或者，我让它推荐量子位近期必读的一篇文章，它迅速阅读给出推荐。

手机聊天界面截图，小微为用户推荐量子位关于DeepSeek V4架构创新的深度报道

2、群聊和朋友圈，一键总结。

几百条没看的群消息，直接让它帮我总结归纳，重点、结论一目了然。

手机聊天界面截图，小微为用户总结群聊内容，分为‘吃货日常’和‘AI/科技圈动态’两部分

3、建待办、设提醒。

提醒我后天下午有个采访。

它直接建好一条待办，到点喊我。

手机应用界面截图，小微为用户创建了一个‘6月25日 14:00 采访’的待办提醒

4、调用小程序帮我办事。

让它点杯奶茶，它直接打开多个奶茶小程序供我选择。

手机聊天界面截图，小微根据用户指令打开美团外卖和喜茶GO小程序供其选择

5、一句话生成一个小程序。

这也是最让我惊艳的功能。我直接甩一句“帮我做一个心情记录工具”，它就唰唰唰生成一个带页面、带按钮、带统计图表的工具，生成速度非常之快，几乎秒出。

手机聊天界面截图，小微为用户生成‘心情日记’小工具入口

生成完还能接着提要求，它就再给你改。

手机应用界面截图，小微根据用户需求，为‘心情日记’工具配置功能选项

手机屏幕截图，小微已完成‘心情日记’小工具的制作，并展示概览页面

Anyway，能玩的远不止这些。小微入场，感觉以后微信的使用场景更全能了。但因为你是量子位的读者，所以我们还想多说一些——微信小微背后，究竟是一个什么样的模型？这个模型又有什么样的架构和技术路径？

是的，模型是微信自研的。

专为小微而生的模型

模型这块，根据小微的自我介绍，主力是腾讯自研的中文大模型 WeLM，然后也有一些任务上，由 DeepSeek 兜底。

手机聊天界面截图，小微自述使用的主模型是WeLM，部分回答会调用DeepSeek

不得不说，这个组合还真挺腾讯的（doge）。自家的当主力，外面最能打的拿来补位。

手机聊天界面截图，小微解释WeLM和DeepSeek两个模型的分工与区别

架构方面，微信其实之前就有过技术博客剧透。今年1月，有这么一篇微信技术博客刚好讲了新一代WeLM长什么样。

深色背景的网页截图，显示WeLM Blog页面，标题为‘以适度资源构建高效稀疏 MoE 模型’

新的WeLM系列不走一味堆大的路子，它采用高度稀疏的 MoE架构，共推出两个版本：基础的80B和深度扩展的130B变体。

对比表格，展示了WeLM-80B与WeLM-130B两个模型在多项技术参数上的差异

但有趣的是，实际激活的参数量只有3B和4.9B。这就意味着，模型每次回答用户只会激活其中一小部分，以保证足够快的响应速度和较少的算力。这一点也能从这篇 Blog 的标题看出，官方对 WeLM 的要求就是——适度资源。不追求极致能力，重视的是模型效率。而这，恰恰天然适配一个14亿用户入口。

另外翻翻技术细节会发现，WeLM的骨架里大量吸收借鉴了 DeepSeek 同类思路，比如无损均衡路由、DualPipeV、DeepEP，一连串都是。具体来说，WeLM结合无损均衡路由与未归一化的sigmoid门控，再外加一个共享专家，模型总共有512个专家，每个token激活其中的10个。

同时借鉴Qwen走更深的网络，用PostNorm叠OutputNorm稳住训练。注意力机制这块，模型采用 Grouped-Query Attention（GQA）和部分旋转位置编码，然后将 Attention Head 的数量增加至标准配置的3倍，并配合 head-wise 门控使用。再引入 KNorm 以稳定 attention logit。还额外引入了 2-head over-encoding 模块以降低训练 loss，和一层 MoE 当作 Multi-Token Prediction（MTP）层，用来在推理阶段支持 speculative decoding。

另外，在此基础上，WeLM 创新性地提出了 KV-Mirror 这套U形共享和归一化稳定方案。

神经网络架构示意图，展示了WeLM模型的多层Transformer块结构及KV-Mirror设计