云栈社区»论坛 › 站务中心「 Forum Service 」 › 端侧大模型与太空算力：降低AI推理成本的创业新风口 ...

发回帖发新帖

5278 积分	0 好友	726 主题

发消息

端侧大模型与太空算力：降低AI推理成本的创业新风口

发表于 5 小时前 | 查看: 4| 回复: 0

当AI性能肉眼可见地提升，其使用成本也同步攀升。“AI太费钱”从一句牢骚，变成了真实的商业困境。

有问题，就会有人解决。在最近一场名为“投海Tech Show”的活动上，几位创业者正试图把高昂的AI算力变成每个人触手可及的基础设施。这里面有身在校园的年轻博士，也有再次出发的产业老兵。有人致力于当下的“节流”，让现有模型跑得更便宜；有人则着眼未来的“开源”，去太空为AI寻找近乎无限的能源。

这些项目均源自海淀区“五方六力”科技成果转化机制，技术成果来自清华、北大、北航、北邮等高校。一个不必焦虑于AI账单的未来，已经有了眉目。

一、硬核的00后，要打破算力定价权

王冠博是这天最年轻的创始人之一，清华计算机博士在读，00后。他上台第一件事不是介绍公司，而是讲了一个让他想清楚方向的时刻。

那是2025年2月，DeepSeek刚爆火。他注意到一个细节：仅仅加入深度思考功能，Token消耗量就跳涨了数倍。

“未来一定是multi pipeline复杂的任务流程。你只加一个深度思考，Token就有4倍甚至10倍的提升，multi pipeline可能是千倍、甚至万倍的Token爆炸。”

投海Tech Show现场，一位年轻男性正在演讲

几个月后，AI Agent的出现验证了他的判断。一个普通的多步骤任务，调用的Token量可能是过去对话场景的数百倍。代价最终还是由用户和开发者承担。

万格智元的方案，是从算法、系统、芯片三个层次同时入手。以35B的模型为例，他们的系统只需4.7GB内存，内存开销大幅下降，推理速度则在极低内存消耗下提升了约30倍。

面对台下投资人关于“带宽限制”的追问，王冠博的回答展示了研究深度：不是硬堆内存，而是改变数据加载方式，“以位宽的方式按比特去load，之后边load边算，是一个极致的流水线式的调度，以一个极低的激活参数量配合IO带宽，让算和取、存和算来实现高效并行。”

具体成果是：纯CPU就能运行35B、80B、120B参数的大模型；本地部署成本从万元级降到千元级。此前万格智元完成千万级融资时，有投资方评价，这支清华博士团队用普通CPU实现了主流模型在本地生成Token，“摆脱了行业对昂贵GPU资源的依赖”。

概括来说，这个00后要做的事，就是AI时代的“自来水”——不是把算力锁在云端，而是把它带回每一台普通电脑。

二、把AI装进口袋，还不用多花钱

同样聚焦端侧的，还有万象智维CEO王拓为。这位清华计算机系在读博士的研究方向，是移动端大模型系统优化——一件“比云端难得多”的事情。云端有充沛的算力，而端侧面临着算力、内存、功耗、散热的全面约束。

一位戴眼镜的男性站在演讲台前，身后屏幕显示着技术文案

AI正从“会说”走向“会做”，从内容生成走向结果交付。智能体从单轮对话走向7×24小时持续运行，并且单次任务需要更长的上下文处理能力，这些变化让Token调用量呈现指数级增长。

人们并非任何时候都需要云侧的超强智能，很多时候反倒是希望有一种“更快、更安全、更节省的本地化算力”。随着端侧模型结构创新和推理技术演进，王拓为判断，端侧智能的窗口期已经到来。

万象智维的解法，是一块卡片大小的端侧硬件。它贴在手机背面或揣进口袋，连接手机、电脑、耳机等所有可穿戴设备，“在不同的设备和生态之间建立起汇总的渠道”。在这块硬件上部署本地大模型，实现敏感上下文在本地处理，让云端与本地模型高效协同——而且这一切都是免费的。“因为端侧的算力天然就被我们所拥有，用户并不需要为每一次额外调用付出成本。”

支撑这套方案的，是两套自研技术：

端侧模型推理引擎 OmniInfer：集成了团队近五年的推理优化能力。他们曾花两个月反汇编底层硬件指令代码，重新编写高性能算子，最终实现接近20倍的性能提升，可部署模型参数量达到原来的2倍，甚至在手机上支撑100K长度的超长上下文。
端侧任务执行系统 OmniClaw：通过云端和本地模型协同，“在任务效果不降级的情况下实现成本的大幅下降”。

当每个人把日常全部上下文都提供给模型的时候，大家的Token可能都不够用。万象智维不想让我们有这种遗憾。

三、老兵再出发，让AI少消耗多出活

明日新程创始人李笛，是这次活动最资深的创业者。他之前最被熟悉的身份是“微软小冰之父”，但他坚信，智能体才是未来人机共生网络中属于AI的节点。

一位戴眼镜的中年男性站在蓝色背景板前演讲，背景显示“人机共生群体智能网络”

李笛指出的核心问题很直接：今天的多智能体框架有两个根本性缺陷。

第一是协同失控。 他举例说，晚上睡前给AI Agent安排任务，第二天一早发现“它们几个讨论的结果，是决定把你的邮箱全部清空，把代码写得非常乱”。实验证明，当多个智能体没有良好协同机制时，“往往是那个比较笨的会去说服那几个比较好的”——越好的模型越善于合理化对方观点，最终拉低整体结果。

第二是成本爆炸。 如果协同机制做得粗糙，一句“你好”就可能消耗海量Token。

明日新程从人类群体智能中寻找解法。他们梳理过1800年到2020年的人类文献，拆解“群体智慧”的演进脉络，探索智能体之间的动态协同、选出leader、通过辩论和反思形成决策的方法论。最终，他们带来了一套名为“团子”的多智能体协同框架。

成效显著：团子的智能深度稳定超越任何单一大模型的结果，可追溯决策形成的全部过程，且推理成本比Google Deep Research低50%以上。

四、打造极致太空AI Token Machine，把Token变便宜

以上种种是为AI“节流”，有人则想为AI“开源”。

一苇宇航创始人邢若粼判断，地面能源和场地终将触及天花板，拥有近乎无限场地和太阳能资源的太空，才是未来AI的最佳容器。

这并非异想天开。马斯克曾公开表示：“3年内，太阳能AI卫星或将成为成本最低的AI计算方式。”随后SpaceX被曝出基于Starlink V3卫星改造太空算力的计划，谷歌也公布了“太阳捕手”计划——一场围绕太空算力的全球竞赛已经鸣枪。

“2026投喂Tech Show专场”一名戴眼镜的短发男性手持麦克风在舞台上演讲

邢若粼用了一个巧妙比喻来解释项目愿景：“我们做的事情，其实就是打造一台极致的AI Token Machine。”

挑战相当艰巨——宇宙射线会击穿芯片、造成数据翻转。传统解法是采购抗辐射的航天级器件，成本极高。一苇宇航走了另一条路：用软件的冗余对抗硬件的脆弱性。他们自研了一套基于 Rust 的双内核操作系统 RROS，思路与SpaceX的Starlink一脉相承：接受单点失效的可能性，但通过架构冗余确保系统整体可用。据在轨实测，RROS可在200毫秒内完成故障切换，平均无故障时间超过1万小时。

这套方案带来了诱人的商业图景：把芯片发射到太空，组成星座，用太阳能驱动算力，把能源转化成Token，再用Token的收入强化整个制造环节。“这是一场工业体系对地面传统IDC模式的彻底颠覆，是一个闭环的飞轮，这个效应会不断自我加强。”

长远来看，这甚至可以形成AI for AI的循环，让AI自己迭代这套太空算力系统——基于Token的消耗产生更多Token，构建新时代的商业飞轮。

一苇宇航最终优化的，是端到端产生Token的成本。当大量算力在太空轨道上运转，地球上的我们，大概不必再为AI账单焦虑了。

写在最后

有必要再提这些项目的地理坐标：海淀。

一个好项目可以在一季度内完成两轮融资，有野心改变未来的在校生能大胆创业——这些事以前是小概率，现在正变得越来越普遍。

在这儿做AI和硬科技，不用跨区就能对接研发、测试和场景。从种子期到成长期，有人帮你把投融资、政策申报、孵化服务的全链条跑通。你可以把绝大部分精力留给技术攻坚本身。

从这个角度看，AI的账单大概真的会变便宜。但这不只因为创业者在发挥才智、技术在演化进步，也因为有人愿意，先把创新本身的成本压下来一截。比起解决某一个技术命题，这也许是更重要的事。

上一篇：JiuwenClaw Team Skills发布：多Agent协作标准化能力包引领Coordination Engineering升级
下一篇：低温晶体管与超导电缆：量子计算机组件产业破局

端侧大模型, 多智能体, 太空算力, AI推理优化, 算力