找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5278

积分

0

好友

726

主题
发表于 5 小时前 | 查看: 4| 回复: 0

当AI性能肉眼可见地提升,其使用成本也同步攀升。“AI太费钱”从一句牢骚,变成了真实的商业困境。

有问题,就会有人解决。在最近一场名为“投海Tech Show”的活动上,几位创业者正试图把高昂的AI算力变成每个人触手可及的基础设施。这里面有身在校园的年轻博士,也有再次出发的产业老兵。有人致力于当下的“节流”,让现有模型跑得更便宜;有人则着眼未来的“开源”,去太空为AI寻找近乎无限的能源。

这些项目均源自海淀区“五方六力”科技成果转化机制,技术成果来自清华、北大、北航、北邮等高校。一个不必焦虑于AI账单的未来,已经有了眉目。

一、硬核的00后,要打破算力定价权

王冠博是这天最年轻的创始人之一,清华计算机博士在读,00后。他上台第一件事不是介绍公司,而是讲了一个让他想清楚方向的时刻。

那是2025年2月,DeepSeek刚爆火。他注意到一个细节:仅仅加入深度思考功能,Token消耗量就跳涨了数倍。

“未来一定是multi pipeline复杂的任务流程。你只加一个深度思考,Token就有4倍甚至10倍的提升,multi pipeline可能是千倍、甚至万倍的Token爆炸。”

投海Tech Show现场,一位年轻男性正在演讲

几个月后,AI Agent的出现验证了他的判断。一个普通的多步骤任务,调用的Token量可能是过去对话场景的数百倍。代价最终还是由用户和开发者承担。

万格智元的方案,是从算法、系统、芯片三个层次同时入手。以35B的模型为例,他们的系统只需4.7GB内存,内存开销大幅下降,推理速度则在极低内存消耗下提升了约30倍。

面对台下投资人关于“带宽限制”的追问,王冠博的回答展示了研究深度:不是硬堆内存,而是改变数据加载方式,“以位宽的方式按比特去load,之后边load边算,是一个极致的流水线式的调度,以一个极低的激活参数量配合IO带宽,让算和取、存和算来实现高效并行。”

具体成果是:纯CPU就能运行35B、80B、120B参数的大模型;本地部署成本从万元级降到千元级。此前万格智元完成千万级融资时,有投资方评价,这支清华博士团队用普通CPU实现了主流模型在本地生成Token,“摆脱了行业对昂贵GPU资源的依赖”。

概括来说,这个00后要做的事,就是AI时代的“自来水”——不是把算力锁在云端,而是把它带回每一台普通电脑。

二、把AI装进口袋,还不用多花钱

同样聚焦端侧的,还有万象智维CEO王拓为。这位清华计算机系在读博士的研究方向,是移动端大模型系统优化——一件“比云端难得多”的事情。云端有充沛的算力,而端侧面临着算力、内存、功耗、散热的全面约束。

一位戴眼镜的男性站在演讲台前,身后屏幕显示着技术文案

AI正从“会说”走向“会做”,从内容生成走向结果交付。智能体从单轮对话走向7×24小时持续运行,并且单次任务需要更长的上下文处理能力,这些变化让Token调用量呈现指数级增长。

人们并非任何时候都需要云侧的超强智能,很多时候反倒是希望有一种“更快、更安全、更节省的本地化算力”。随着端侧模型结构创新和推理技术演进,王拓为判断,端侧智能的窗口期已经到来。

万象智维的解法,是一块卡片大小的端侧硬件。它贴在手机背面或揣进口袋,连接手机、电脑、耳机等所有可穿戴设备,“在不同的设备和生态之间建立起汇总的渠道”。在这块硬件上部署本地大模型,实现敏感上下文在本地处理,让云端与本地模型高效协同——而且这一切都是免费的。“因为端侧的算力天然就被我们所拥有,用户并不需要为每一次额外调用付出成本。”

支撑这套方案的,是两套自研技术:

  • 端侧模型推理引擎 OmniInfer:集成了团队近五年的推理优化能力。他们曾花两个月反汇编底层硬件指令代码,重新编写高性能算子,最终实现接近20倍的性能提升,可部署模型参数量达到原来的2倍,甚至在手机上支撑100K长度的超长上下文。

  • 端侧任务执行系统 OmniClaw:通过云端和本地模型协同,“在任务效果不降级的情况下实现成本的大幅下降”。

当每个人把日常全部上下文都提供给模型的时候,大家的Token可能都不够用。万象智维不想让我们有这种遗憾。

三、老兵再出发,让AI少消耗多出活

明日新程创始人李笛,是这次活动最资深的创业者。他之前最被熟悉的身份是“微软小冰之父”,但他坚信,智能体才是未来人机共生网络中属于AI的节点。

一位戴眼镜的中年男性站在蓝色背景板前演讲,背景显示“人机共生群体智能网络”

李笛指出的核心问题很直接:今天的多智能体框架有两个根本性缺陷。

第一是协同失控。 他举例说,晚上睡前给AI Agent安排任务,第二天一早发现“它们几个讨论的结果,是决定把你的邮箱全部清空,把代码写得非常乱”。实验证明,当多个智能体没有良好协同机制时,“往往是那个比较笨的会去说服那几个比较好的”——越好的模型越善于合理化对方观点,最终拉低整体结果。

第二是成本爆炸。 如果协同机制做得粗糙,一句“你好”就可能消耗海量Token。

明日新程从人类群体智能中寻找解法。他们梳理过1800年到2020年的人类文献,拆解“群体智慧”的演进脉络,探索智能体之间的动态协同、选出leader、通过辩论和反思形成决策的方法论。最终,他们带来了一套名为“团子”的多智能体协同框架。

成效显著:团子的智能深度稳定超越任何单一大模型的结果,可追溯决策形成的全部过程,且推理成本比Google Deep Research低50%以上。

四、打造极致太空AI Token Machine,把Token变便宜

以上种种是为AI“节流”,有人则想为AI“开源”。

一苇宇航创始人邢若粼判断,地面能源和场地终将触及天花板,拥有近乎无限场地和太阳能资源的太空,才是未来AI的最佳容器。

这并非异想天开。马斯克曾公开表示:“3年内,太阳能AI卫星或将成为成本最低的AI计算方式。”随后SpaceX被曝出基于Starlink V3卫星改造太空算力的计划,谷歌也公布了“太阳捕手”计划——一场围绕太空算力的全球竞赛已经鸣枪。

“2026投喂Tech Show专场”一名戴眼镜的短发男性手持麦克风在舞台上演讲

邢若粼用了一个巧妙比喻来解释项目愿景:“我们做的事情,其实就是打造一台极致的AI Token Machine。”

挑战相当艰巨——宇宙射线会击穿芯片、造成数据翻转。传统解法是采购抗辐射的航天级器件,成本极高。一苇宇航走了另一条路:用软件的冗余对抗硬件的脆弱性。他们自研了一套基于 Rust 的双内核操作系统 RROS,思路与SpaceX的Starlink一脉相承:接受单点失效的可能性,但通过架构冗余确保系统整体可用。据在轨实测,RROS可在200毫秒内完成故障切换,平均无故障时间超过1万小时。

这套方案带来了诱人的商业图景:把芯片发射到太空,组成星座,用太阳能驱动算力,把能源转化成Token,再用Token的收入强化整个制造环节。“这是一场工业体系对地面传统IDC模式的彻底颠覆,是一个闭环的飞轮,这个效应会不断自我加强。”

长远来看,这甚至可以形成AI for AI的循环,让AI自己迭代这套太空 算力 系统——基于Token的消耗产生更多Token,构建新时代的商业飞轮。

一苇宇航最终优化的,是端到端产生Token的成本。当大量算力在太空轨道上运转,地球上的我们,大概不必再为AI账单焦虑了。

写在最后

有必要再提这些项目的地理坐标:海淀。

一个好项目可以在一季度内完成两轮融资,有野心改变未来的在校生能大胆创业——这些事以前是小概率,现在正变得越来越普遍。

在这儿做AI和硬科技,不用跨区就能对接研发、测试和场景。从种子期到成长期,有人帮你把投融资、政策申报、孵化服务的全链条跑通。你可以把绝大部分精力留给技术攻坚本身。

从这个角度看,AI的账单大概真的会变便宜。但这不只因为创业者在发挥才智、技术在演化进步,也因为有人愿意,先把创新本身的成本压下来一截。比起解决某一个技术命题,这也许是更重要的事。




上一篇:JiuwenClaw Team Skills发布:多Agent协作标准化能力包引领Coordination Engineering升级
下一篇:低温晶体管与超导电缆:量子计算机组件产业破局
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-27 23:49 , Processed in 0.625622 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表