最近,马斯克和他的xAI团队正面临一场不小的麻烦。Grok在X平台上“脱衣”换图的功能,引发的争议似乎愈演愈烈,难以平息。
X平台刚正式宣布了限制措施,禁止用户通过Grok对真实人物照片进行“脱衣”或生成/编辑成“比基尼”、“内衣”等暴露服装的操作。

紧接着,美国加州就启动了对xAI和Grok的调查。至此,Grok的“脱衣”争议已经引来了全球十个国家及地区的公开批评或调查,包括英国、欧盟、法国、加拿大、澳大利亚和印度等。
自诞生以来,Grok就以“会整活”、不搞“政治正确”而娱乐性十足,马斯克对其“擦边”属性也一向态度强硬。去年,Grok最引人注目的更新之一就是引入了两个性感的虚拟角色。
这种“擦边”策略确实带来了显著的用户增长。Grok最新的月活跃用户数已突破3000万,而月初推出的、能将静态照片转为动态视频的“Grok Imagine”功能,一度登顶苹果应用商店美国免费榜榜首。
然而,在争夺用户之外,AI公司更需要争夺的是“商业前景”与资金。面向普通消费者(C端)是否是最终答案?目前仍要打一个问号。即便是用户订阅收入为主的OpenAI,其ChatGPT月活高达8亿,但亏损却在逐年扩大,且这种状况预计还将持续数年。
马斯克此前甚至要求OpenAI和微软赔偿790亿到1340亿美元,理由是自己早期提供了数千万美元的种子资金,OpenAI高达5000亿美元的估值应有他的一部分,这颇有盯上“友商”钱包的意味。
进入新的一年后,马斯克接连受挫,现已准备好在人工智能编程领域奋起直追。他不仅公开承认Grok的编程能力不如对手Anthropic的Claude,还宣布下个月在AI编程方面将有两个大动作。
说到底,“擦边”或许能博眼球,但论及商业变现的潜力,恐怕远不如扎扎实实的AI编程。一个明显的对比是,在AI编程领域占据领先位置的Anthropic,其收入主要来自企业用户(B端),并已将技术优势平滑转化为实际的生产力提升。虽然年营收远不及OpenAI,但Anthropic实现盈利的时间点很可能会更早。
不仅是马斯克的xAI,以C端见长的OpenAI,以及国内的字节跳动等巨头,都在去年加强了在AI编程领域的投入。这背后反映了一个清晰的趋势:C端市场主要争名气和用户规模,而AI编程则连接着更广阔、更具确定性的B端商业想象力。
马斯克受刺激了
马斯克正在释放一个强烈的信号:Grok要开始在AI编程领域动真格了。
今年1月,他先在X上公开承认,Grok的编程能力不如Anthropic的Claude。
紧接着,他又透露了一项关键计划:Grok Code将在2月迎来重大更新。他表示:“下个月Grok Code将迎来重大升级。它将一键处理许多复杂编码任务。”
其中提到的“一键处理复杂编码任务”,被外界解读为xAI可能即将发布类似“vibe-coding”的工具。这意味着用户只需描述感觉和意图,例如“建一个类似Twitter的应用”,AI就能自动完成规划、生成代码、测试乃至部署等一系列工作。
看来,马斯克确实受到了不小的刺激。
新年刚过一周,Anthropic就对第三方平台采取了封锁措施。一时间,通过编程助手Cursor、开源工具OpenCode等第三方平台调用Claude Code时均触发报错,提示该工具权限为Claude Code独有,禁止外部调用。
xAI因此受到严重影响,甚至其联合创始人Tony Wu不得不向全员发布紧急通知。这条Slack消息的泄露,揭开了一个小秘密:原来许多xAI员工都通过Cursor调用Claude模型来编写代码。
当时Tony Wu就表示:“我们的生产力会受到影响,但这确实会倒逼我们开发自己的编程产品/模型。”
不久后,马斯克本人在回复他人时也承认,Anthropic的“拔网线”事件是一个“有益的激励因素”。

此前,xAI的Grok主要以通用能力见长,模型整体强大,但在AI编码专项能力上并非顶尖。
根据llm-stats发布的最新排行榜数据,在SWE-Bench Verified基准测试中,xAI表现最好的模型是Grok Code Fast 1,位列第20名。
SWE-Bench Verified从真实的GitHub问题中选取了500个经过人工验证的软件工程问题,用于评估语言模型通过为Python代码库生成补丁来解决现实世界编程问题的能力。


该榜单排名前五的模型均来自Anthropic、OpenAI和谷歌。
在HumanEval基准测试中,xAI排名最高的模型是Grok-2,排在第18位。 HumanEval主要衡量模型根据文档字符串合成程序的功能正确性,包含164个原创编程问题,评估语言理解、算法和简单数学能力。


HumanEval排名前五的模型分别来自Kimi、Anthropic、OpenAI和阿里巴巴。
在LiveCodeBench基准测试中,xAI的表现相对较好,Grok-3 Mini、Grok 4 Fast、Grok-3分别排在第三、第四和第五位。 LiveCodeBench是一个持续从编程竞赛中收集新问题的、无污染的代码大模型评估基准。

LiveCodeBench排名前二的模型来自DeepSeek和MiniMax。
值得一提的是,此前xAI在AI编程领域最关键的一步棋是推出了Grok Code Fast。这个模型强调实用,从名字就能看出其侧重“速度”。其定价也极具竞争力,输入成本为每百万tokens仅0.2美元,输出为1.5美元,是目前最便宜的专用编码模型之一。
相比之下,Claude Sonnet 4.5的价格是其15倍左右。Grok Code Fast特别适合预算有限的个人开发者、初创团队和高频迭代场景,而非追求“零错误”的企业级核心生产任务。这更像是马斯克在AI编码领域进行的一次“错位竞争”式试水。
但问题在于,当AI编程正从“便宜好用的辅助工具”演进为决定研发效率与组织形态的核心能力时,仅靠一款强调性价比和速度的Grok Code Fast,显然已无法满足马斯克的更大野心。
AI编程已成必争之地
事实上,AI编程这条赛道,已被所有头部玩家同时盯上。
最典型的代表仍是Anthropic。Anthropic不再仅仅强调模型“会不会写代码”,而是试图直接接管工程师的工作流。从拆解需求、规划代码结构,到多文件修改和反复调试,Claude Code越来越像一个全天候的“虚拟工程师”。
本月发生的“拔网线事件”,反而成了其成功与依赖度的注脚——当Anthropic收紧第三方调用权限,大量依赖Claude Code的外部工具和团队立刻受到影响,xAI只是其中之一。
这种生产力变革在一线工程师那里感受更为直接。谷歌首席工程师、Gemini API负责人Jaana Dogan公开表示,她仅用几句提示词和一个多小时,借助Claude Code就完成了相当于团队过去一年工作量的成果原型。

这类来自顶尖技术专家的评价之所以被广泛传播,正是因为它击中了众多开发者的真实体验:AI编程已经开始从根本上改变软件工程的生产效率。
正因如此,其他科技巨头不可能坐视不理。OpenAI在近一年的更新中,明显将更多资源倾向代码能力。无论是模型在复杂代码理解、长上下文修改上的强化,还是API层面对函数调用、工具链集成的持续优化,目标都非常明确——让开发者在真实工程场景中,能更深入、更持久地使用GPT进行编码。
谷歌的策略则更为“体系化”。Gemini不仅在模型本身的代码能力上追赶,更被直接嵌入到Google自家的开发者工具、云服务和工程环境中,试图让AI编程成为一种默认选项,而非额外插件。
从各大基准测试的榜单结果来看,几家顶尖公司之间的差距正在迅速缩小,排名频繁交替,已进入贴身肉搏的阶段。
这种趋势同样传导至国内。字节跳动很早就意识到了AI编程的战略重要性。去年1月,字节发布了面向软件工程场景的AI工具TREA,并持续迭代。对于这样体量的公司而言,是否补齐AI编程能力,直接关系到内部研发成本的控制和组织效率的提升。
将这些动作放在一起观察,一个趋势越来越清晰:AI编程正在从“展示大模型综合能力的一部分”,转变为所有严肃玩家都无法绕开的核心战场。
在这样的竞争格局下,Grok Code Fast那种强调便宜、够用、够快的错位竞争打法,显然很难再让马斯克感到安心。
“擦边”哪有编程“香”?
在纷繁的争议与竞争中,真正将AI编程赛道推向台前的,并不仅仅是模型能力的进步,更是其背后日益清晰且现实的商业逻辑。
AI编程,是目前少数已被验证“能真正产生实际价值”的大模型应用场景之一。
xAI的Grok,长期以来最突出的优势一直在C端。去年Grok最受关注的并非编程能力,而是各种带有“擦边”色彩的大胆功能,这些功能限制较少,也屡次引发争议。
最近,类似的争议再次将Grok推上风口浪尖。 这种路径在获取新用户和制造话题度上确实有效,但问题也很明显:它很难转化为稳定、可规模化的商业收入。
这一点,其实并非xAI独有。OpenAI和字节跳动在某种程度上也面临类似的结构性问题。OpenAI拥有ChatGPT这样的超级C端入口,字节跳动背靠抖音、TikTok等社交与内容平台,而马斯克则掌控着X。
它们在用户规模、产品打磨和流量分发上极具优势,但也正因C端体量庞大,其商业模式反而更复杂:订阅增长存在天花板,内容合规成本高昂,任何一次失误都可能被舆论无限放大。
相比之下,面向企业的B端市场则要“冷静”和现实得多。而这正是AI编程吸引力所在。
对企业客户而言,AI是否“好玩”或“有趣”并不重要,关键在于它能否稳定地节省人力成本、缩短研发周期、降低项目交付风险。
这也是为什么,几家头部AI公司的盈利预期开始出现明显分化。以Anthropic为例,多家行业分析机构预测,其有望在2028年前后实现盈亏平衡。
行业普遍估计,Anthropic约70%–80%的收入来自企业客户,主要包括API调用和企业级服务合同。这种收入模式增长未必最快,但足够稳定,也更容易覆盖持续攀升的巨额算力成本。
相比之下,OpenAI的体量更大,但路径不同。公开分析普遍认为,OpenAI当前收入中约七成仍来自C端订阅(如ChatGPT Plus等),来自企业API和企业合同的收入占比约三成。与此同时,OpenAI还承担着极高的算力和基础设施支出,其实现整体盈利的时间点可能要到2030年前后,对资本和耐心的要求显然更高。
而xAI的情况则更为激进,同时也更显脆弱。
市场估算显示,xAI在2025年的年化收入规模约在5亿美元左右,远低于OpenAI(约130亿美元)和Anthropic(约70亿-90亿美元)。目前,xAI的主要收入仍高度依赖Grok在C端的订阅及其与X平台的联动。

尽管xAI已开始推出Grok Business、Grok Enterprise等B端产品,试图向企业市场延伸,但其盈利时间点可能仍要等到2027-2028年之后。这也解释了为何近期OpenAI、谷歌相继在“广告”与“购物”等C端变现模式上发力,意在开辟更多商业空间。
马斯克决心在AI编程上发力,本质上是在为xAI寻找一条更确定、更具可持续性的商业出路。 在算力成本高企、资本市场耐心逐渐消磨的当下,AI编程赛道所带来的商业确定性,本身就是一种稀缺资源。
这种选择,其实从Anthropic创立之初就已埋下伏笔。Anthropic多次公开表示,他们更愿意将AI定位为生产力工具,而非娱乐产品。在具体实践中,这种理念体现为对安全性、可控性和工程稳定性的长期投入。这些看起来“慢工出细活”的方面,恰恰是AI编程能深入企业核心流程的基石。
也正因如此,其他玩家想要在AI编程领域追赶乃至超越Anthropic,注定是一场硬仗。这不是多发几个模型、多刷几次榜单就能解决的问题,而是对工程化能力、产品深度理解和企业级需求的长期耕耘。
从时间线看,谷歌的布局并不算晚,其优势在于与Google Cloud及整个开发生态的深度集成。OpenAI近一年也在持续向编程能力倾斜资源,字节跳动同样通过内部工具不断补课。放在这个竞争坐标系中,马斯克此时大幅加码AI编程,多少显得有些姗姗来迟。
更现实的一点是,AI编程恰恰也是“容错成本”最高的应用场景之一。在真实的生产环境中,不出问题则已,一旦出问题就可能是实打实的生产事故。前几天,编程工具Cursor披露称,GPT-5.2在实验中连续运行7天,生成了约300万行代码,构建出一个功能复杂的浏览器。消息虽轰动,但很快引发开发者对其可复现性和工程真实性的质疑。这场风波本身,恰恰说明了AI编程所面临的高门槛与严苛要求。
也正是在这样现实的技术与商业约束下,AI编程这条路才显得格外“香”,也格外难走。对于马斯克和xAI能否在这条已被反复验证、竞争白热化的赛道上实现追赶,答案只能交给时间和接下来的产品表现。马斯克已承诺下个月将有重大动作,业界和广大开发者正拭目以待。关于人工智能与编程领域的更多深度动态与趋势解读,欢迎持续关注 开发者广场 的相关讨论,或访问 云栈社区 获取最新资讯与技术资源。