找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5085

积分

0

好友

656

主题
发表于 2 小时前 | 查看: 6| 回复: 0

昨天我在 X 上刷到一张 Arena 的 Code Arena: Frontend 排行榜,这是前端代码能力的真人盲投对战榜。榜上出现了多家国产模型,而且不少排名比我预期的要高不少。

Seed 2.1 Pro 在 Code Arena 前端排行榜排名第8

这阵子的势头也确实如此。前不久 Anthropic 最新的旗舰 Fable 5 才发布三天,就被美国政府以出口管制为由叫停。基本上海内外的用户都叫苦不迭,大家自然希望有更多选择可以补上,所以国产模型在海外反而越来越出圈。

今天,看到火山引擎开发布会,豆包大模型 2.1 正式发布。我昨天榜上看到的那个 Seed 2.1 Pro,就是它。

那就别光看榜了,测一测。我天天泡在 Claude Code 里,写代码、改产品、跑任务,大部分活儿都在终端里让 agent 干。我想拿两个我日常工作流的真实场景,把豆包 2.1 接进我天天用的工作流,当主力使,看它扛不扛得住。要是真行,对所有想用 Claude Code、Cursor 这类 coding agent 的人来说,就是多了一个实在的选择。

接起来不麻烦。火山方舟有个兼容 Anthropic 协议的端点,本来就是给 Claude Code 这类工具用的。配好之后终端敲一下,Claude Code 就换成豆包 2.1 Pro 在跑了。

终端里豆包驱动 Claude Code,自报模型名

想自己试,三步就够

  1. 去火山方舟控制台开通 doubao-seed-2-1-pro-preview 这个模型,拿一个 ARK API Key。

  2. 给 Claude Code 配三个环境变量(写进 ~/.claude/settings.jsonenv 里也行):

ANTHROPIC_BASE_URL = https://ark.cn-beijing.volces.com/api/compatible
ANTHROPIC_AUTH_TOKEN = 你的 ARK API Key
ANTHROPIC_MODEL = doubao-seed-2-1-pro-preview
  1. 起 claude,敲个 /status 看一眼接的是不是豆包。

 /status 显示 Model 是 doubao-seed-2-1-pro-preview

我懒,不想每次都翻配置,就在 .zshrc 里写了个 doubao 的别名,把这几个变量一次塞进去:

alias doubao='ANTHROPIC_BASE_URL=https://ark.cn-beijing.volces.com/api/compatible \
ANTHROPIC_AUTH_TOKEN=你的KEY \
ANTHROPIC_MODEL=doubao-seed-2-1-pro-preview \
claude'

存好以后,终端敲 doubao 就起一个豆包驱动的 Claude Code,跟我平时那个 claude(还是原来的模型)互不干扰。想换个模型试试,几乎零成本。

其实更省事的是,上面这一整套,配变量、写别名、调端点,你压根不用自己动手,把这篇文章的配置丢给 Claude Code 或者任何 agent,它几分钟就给你接好了。真正得你亲手做的就那几步:去火山控制台开通模型、拿 Key、充点钱。这部分 agent 替不了你,剩下全包给它。

然后我让它干了两件真事:修我自己开源产品里的真 bug,看一段网页录屏把网站复刻出来。

先让它修我自己产品的 bug

我前段时间新发了个开源产品,叫 FanBox。一句话讲,它是 Coding Agent 的驾驶舱:左边浏览预览本地文件,右边在内嵌的真终端里跑 Claude Code、Codex,agent 每改一个文件,对应的卡片就亮一下,你能看清它碰过的每一行,随时接手。

FanBox 界面:左边文件区,右边内嵌真终端跑 agent

这项目是 Fable 5 起的头(对,就是开头说的、刚被禁那个 Fable 5),6 月初开工。然后我基本没停,一周多,97 次提交,从 v1.1 滚到现在的 v2.3。中间加功能、修 bug,主力是 Opus 4.8,再加上几个国产第一梯队的模型轮着上。

FanBox 的 GitHub 仓库,开源,七百多 star

现在它有多大?自己写的代码 28 个文件、15609 行,光主逻辑那个 app.js 就 4572 行。架构也不算轻:Electron 无构建运行时、node-pty 跑真终端、xterm.js 做渲染、Monaco 当编辑器,还塞了微信 ClawBot、上下文自动整理、记忆层兜底。

说这些是想讲清楚:这不是一个下午搭的 demo,是个真有人用、还在天天长的产品。让一个新模型进来改一个复杂项目,跟从头写个小玩意儿完全两回事。

一个真实的测试

我没给它出题。直接让它去拉 FanBox 在 GitHub 上的 open issue,都是用户提的真问题。

FanBox 界面里列着 GitHub issues,下方终端在派修复任务

然后我挑了两个:一个是 #27,终端里复制粘贴用不了,跟原生终端不一样;一个是 #28,项目里新加的 skills 加载不出来

这俩都不好一眼看穿。第一个我自己都没底,翻箱的 Edit 菜单明明带了粘贴,怎么终端里还是粘不上?第二个得读懂 skills 那套加载刷新逻辑才能定位。

它没急着改代码

这段我体感比较好。Seed 2.1 Pro 拿到任务,没上来就动手。先给自己做了轮准备,然后自动进了 plan mode,就是 Claude Code 里那个「先探索、先想清楚、再动手」的模式。

接着它自己把活儿拆了,开并行:一口气派了两个 Explore 子 agent,一个专门去啃终端的实现代码,一个去查 skills 的加载机制,俩同时跑。这量还不小,啃终端那个 45 次工具调用、12 万 token,查 skills 那个 35 次、近 4 万 token,都把相关代码摸透了才回来。

CC 里两个 Explore agent 并行探索的界面

探索完它还是没急着写,又起了个 Plan agent,花了十来分钟专门设计修复方案,中间十几次精确定位,在 4572 行的 app.js 里一点点把终端创建、剪贴板、skills 加载这些地方抠出来。

我想说的是这个节奏:先探索、再规划、最后才动手。当然,plan mode、子 agent 这套编排,本来就是 Claude Code 这套 harness 搭好的脚手架,不全是模型的功劳。但脚手架是死的,会不会用是活的。我接过别的模型进来,plan mode 走个过场、子 agent 不会调、上来就闷头改的,见得太多了。Seed 2.1 Pro 是真把这套吃下来了,该并行并行、该拆拆、该规划规划。

后来翻字节这次的发布,发现他们专门把「优化 Harness 与模型的协同」列成了下一步方向。可见模型配不配合 harness 这事,模型厂商也在认真盯着了。

改得挺规矩

探索规划完才动手。最后改出来的东西,说实话比我预期稳。

就拿 #27 终端粘贴说。它没走歪门,是顺着项目本来的写法修的:装上 xterm 官方的剪贴板插件,再给终端挂个按键处理:Cmd+C 复制选中、Cmd+V 读系统剪贴板再用 bracketed paste 安全塞进终端,顺手连 Cmd+加减 调字号都补了。改动落在 app.js 等 5 个文件、80 多行。

我挺在意的一点是:它守着这个仓库原本的规矩改。项目里到处用 __noXterm 这种「加载失败就降级」的开关,它修的时候就照着加了个 __noClipboard 兜底,跟原来的风格严丝合缝。不是硬塞一段能跑但风格不搭的代码。对一个要长期维护的项目,这点比「能不能跑」还重要。最怕新模型进来按自己的习惯乱改,把代码搅成一锅粥。

终端里 #27 已打勾完成、#28 进行中,本轮耗时 40m12s

它能自己跑 40 分钟

还有件事得单拎出来说。

它处理这两个 issue,在 auto mode 里自己一口气跑了 40 多分钟,先把 #27 标成完成,又接着啃 #28,中间没让我插一次手。

别小看这个。能长时间稳住一个复杂任务,本身就是能力。差一点的模型跑十几分钟就开始丢上下文、跑偏,或者草草交差。能在一个一万多行的真项目里稳跑 40 分钟、不断线不跑飞、一个个把问题啃下来,这就是能不能当主力最实在的一条线。我之前跑别的模型也有类似体会,能连着跑一个多小时任务还不散架的,往往就是好用的那个。

最后这两个 issue 它都修完了,一个 commit 提交了进来。改完我自己在 app 里点了点:终端 Cmd+V 能粘上了,新项目里加的 skill 也刷出来了,确实修好了,不是它自己嘴上说完成。#27 终端粘贴它顺手连右键菜单、选中即复制(对齐 iTerm2)都补齐了。#28 更难,它定位到的根因有点出乎我意料:skills 加载只扫「最近 12 个活跃项目」,新项目里加的 skill 落在这名单外就加载不到。我翻了下那段缓存逻辑,确实是这么回事。它加了个强制刷新的接口绕过缓存。这种藏在缓存里的坑能自己挖出来,不容易。

聊到这,场景一我的体感是:把 Seed 2.1 Pro 丢进我最熟的工作流,给它一个真复杂项目的真 bug,它接得住。探索、规划、动手、长跑,到最后真把代码改对、提交进产品,该有的都有。一个新模型能干到这份上,我觉得够了。

再让它看视频复刻网页

第二件事换个角度,测视觉理解和还原。

现在「看图复刻网页」已经是红海了,截张设计稿丢过去,生成个差不多的页面,很多模型都能做到七七八八。

我故意加了难度:不给图,给视频

为什么视频更难?一段录屏里有图给不了的东西,页面怎么滚、鼠标划过哪儿有反应、那块渐变是死的还是流动的、卡片怎么一个个冒出来。这些动效,单张截图给不了。模型得真「看懂」这段视频在演什么,才还原得出来。比看图难。

我录了段十秒左右的 Stripe 中文官网首页,从上到下滚一遍。把这段录屏分别丢给 Seed 2.1 Pro 和 Opus 4.8,让它们把布局、视觉、动效都复刻出来。先看原站长什么样:

原站 Stripe 录屏

它俩的做法都差不多:先把视频按时间顺序抽成帧,逐帧看懂整页从上到下的结构、还有滚动时冒出来的内容,然后写成一个单文件网页。

先看 Seed 2.1 Pro 的:

Seed 2.1 Pro 看视频复刻出的页面,会滚会动

说实话,认得出来。顶部导航、Hero 区那句「金融基础设施,托举营收增长」、招牌那块橙粉紫渐变、底下那排客户 logo,都还原了,再往下的 bento 卡片区也铺出来了。关键是你看它是会动的:滚动有淡入,渐变在飘。这正是喂视频的意义,模型把动效也一并学走了,喂一张静态截图根本传不了这些。

当然不是满分。越往下、越复杂的区块还原度越打折,那块流体渐变它抓到了颜色,没完全抓到斜着飘的那个形。

再看 Opus 4.8 的,同一段视频:

Opus 4.8 复刻同一段视频的页面

整体更完整些,下半部分的区块铺得更全。但你看到的是同一件事:复刻出来的页面是活的,会滚、会渐变、会淡入。

我想说的其实不是这俩谁高谁低(名次和体感前面都聊过了),是「拿录屏来复刻」这件事本身的价值:喂一张静态图,模型最多还原个样子;喂一段录屏,它能把动效一起复现出来。这一关,Seed 2.1 Pro 接得住。顺带一提,视频理解正好是 Seed 2.1 这次重点讲的能力,说处理时序、动作这些比上一代更准。我这段复刻,算是给那个说法找了个能上手验证的例子。

那它到底行不行

跑完这两件事,我的体感是:Seed 2.1 Pro 这一代,确实上牌桌了

它不是那种「能聊但干不了活」的模型。接进 Claude Code 这种重 harness,plan mode、多子 agent、自己拆任务,它都用起来了。丢个一万多行的真项目让它修 bug,它沉得住气,先探索再动手。看段视频复刻网页这种硬活,也能交出认得出的东西。

国内第一梯队,这位置我觉得它站得住。离海外最顶尖那几个(像 Opus 4.8)还有距离,这个我不藏着。但「追上来了」这四个字,这回是我自己跑出来的,不是听谁说的。

也不只我这么觉得。回到开头那张 Arena 榜,我测的这个 Seed 2.1 Pro,榜上排到第 8、1539 分,跟 Opus 4.6 同档。我上手的体感,跟这个名次几乎对上了。

所以这阵子国产模型是真有点杀疯了。不是某一家偶然冒头,是一批模型一起往上顶。跟顶尖的差距,硬是压到了差不多同一档。现在 Seed 2.1 Pro 出来,大家完全可以多一个选择了。如果你也对这类 AI 驱动的开发工具感兴趣,欢迎来云栈社区交流实战经验。




上一篇:ToxPrune:大模型推理时禁言脏话,联手预训练过滤筑双重防线
下一篇:Fable 5 深度讨论:模型收入分化、RSI 与 Tokenmaxxing 减速|Best Ideas
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-24 19:47 , Processed in 1.893637 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表