找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4478

积分

0

好友

585

主题
发表于 2 小时前 | 查看: 2| 回复: 0

大模型圈子最近真是大戏连连,Claude 和 OpenAI 你方唱罢我登场,两位 CEO 更是化身戏精,在社交媒体上大打舆论战。

不过,今天所有的风头都被一家公司抢光了。

没错,在反复横跳小半年后,今天中午,DeepSeek 总算是把万众期待的新模型 DeepSeek-V4 端了上来,并宣布 API 服务已同步更新,即日起登录官网或官方 App 即可抢先试用。

之前网上还有不少人拿他们开玩笑,说老板沉迷打游戏忘了更新,还有人担心芯片限制搞不出高端模型。结果人家直接把 V4 甩了出来,带来了主打轻量便宜的 Flash 版本和满血旗舰的 Pro 版本。

这次更新最狠的地方在于,百万字的长文本记忆能力成了标配。加上大量使用华为昇腾芯片和自己研发的底层优化技术,把价格打到了一个离谱的地步。满血版处理百万字,只要 12元/输入,24元/输出,连 Claude 的四分之一都不到。

不过官方挺实在,承认目前和世界最顶尖的闭源模型还有几个月的差距。

既然官方这么坦诚,我今天就不去看那些虚无缥缈的跑分榜单了,直接给 DeepSeek-V4 安排一场评测,从推理、编程、文本处理、多轮对话、工具使用和知识准确性六个维度进行深度拆解,看看它在真实场景里到底好不好用。


编程与工具使用:逻辑不错,审美堪忧

既然 DeepSeek-V4 自己都强调模型的 Agentic Coding 能力,那我们先来看看大模型最比拼代码能力的地方。

为了贴近普通人的使用习惯,我用大白话提要求,让 DeepSeek-V4-Pro 与 Trae 打配合,执行了两个复杂任务。

第一轮测试,让它写一个可以互动的网页版星空,要求点击星星看故事,还能用鼠标拖拽视角。

这个任务难在需要在一张纸上画一个会动的星空,同时让人能用手指转动它、点击星座看故事,对设计、交互和信息搜索能力都有要求。

拿到任务后,DeepSeek-V4-Pro 先是思考了一会儿,输出了一套共六步的设计方案。

image.png

之后,我们完全放手让模型自主执行任务。它连续编程接近 34 分钟,没有中断或者死循环,也没有遗漏关键步骤,完全按照规划执行,最后消耗了价值 6.19 元的 Token。

从交互式内容的角度看,成品在美感层面稍有欠缺,但所有功能都运转正常。你可以流畅地拖动球形天体模型,点击查看信息注解,流星划过的特效也很到位。

IMG_q8wbvy.gif

image.png

作为对比,这是 Hy3-Preview 的效果。

f9f5dfd9ec92405501cb831bb37a25b7.png

而这是 Codex 的效果,耗时差不多,功能也一致,但页面设计、色彩过渡和交互度上明显更好看。

dacd50cf95097f538f28f6ca9baf14bf.jpg

看来 V4 的核心逻辑没问题,审美确实需要找个设计师补补课。

第二轮上点难度,写一个小型的地牢探险网页游戏。

第一次生成出了点问题,Trae 反馈生成被截断了,需要使用更紧凑的方法重试。

image.png

第二次表现很精细,不仅把游戏基础框架搭得明明白白,还脑补了一套完善的经济系统和升级路线,角色的血量、蓝量、攻击力计算公式写得非常严谨。

image.png

我选择了战士,甚至可以用 1、2 键触发技能。

IMG_fckxe3.gif

a74ff20aa9d346598b9461dfa3728bac.png

比较可惜的是,这套组合缺乏直接制作动画的能力,生成的像素图效果也很粗糙,同样没什么美感可言。

作为对比,元宝虽然生成更快,但忘了设计敌人,内容几乎没有可用性。

adf3ee4dc547410f9b67d93cf895becd.gif

虽然最终耗时 42 分钟,花了我 4.71 元,但结果还算满意。

总体来说,DeepSeek-V4 在编程上确实有提升,框架清晰,速度极快,很适合干苦力活和写后台逻辑。如果你想得到一个开箱即用、美观的前端成品,还是得人工帮它调整一下。

需要注意的是,和 Qwen、Seed 不同,DeepSeek 自身不带任何插件,工具使用能力全靠 API 接入 Agent 才能展示。

考虑到目前的表现,挺期待它未来的工具整合能力。


推理与算数:生成很快,偶尔也会翻车

如果说写代码考验手艺,那逻辑推理考验的就是脑子了。

这次特意准备了几道不按套路出牌的测试题,确保它没公式可套,全靠推理能力和对真实世界的理解。

先来一道陷阱题:“一瓶水和一块冰,放在同一个保温箱里密封,24 小时后,保温箱里的水变多了还是变少了?”

剧透一下,答案应该是不变。

结果 Flash 和 Pro 一个说多,一个说少,就是没有说对的,你俩到底在想啥?

新建项目 (1).jpg

接着是一道海龟汤:“一个人半夜醒来打了自己一巴掌,然后闻着一股烟味安心睡去了,请问发生了什么?”

屏幕截图 2026-04-24 222415.png

这个问题都答对了,Flash 的思路更直接,Pro 反而耗了一段时间反复琢磨。

image.png

不过,如果没有加上海龟汤的前缀,V4 的回答准确率会下降一些。像下面这道题,V4-Pro 琢磨了两分钟,得出一个前后矛盾的答案。

image.png

至于知识准确性,拿 2025 年第 66 届国际数学奥林匹克的算术题来测。

题目如图所示:

image.png

这边选择断网,关闭联网开启推理,让模型完全靠自己解决问题,顺便考察 OCR 能力。

好消息,识别对了。

image.png

坏消息,第一步思考就不对了。

接下来是死循环,看着 DeepSeek-V4-Pro 疯狂输出两三分钟后,我直接掐断了。

image.png

至于 Flash,更是只剩下车轱辘话。

只能说,作为开源模型,DeepSeek-V4 比前辈们有提升,但要说什么显著提升……好像也没有那么大。


文本处理出色,多轮对话显著提升

既然官方都说迈入百万上下文普惠时代,不整整活怎么行?

往《斗破苍穹》里贴了一段《都市超能高手》的内容,然后丢给 DeepSeek-V4 让它找,结果它很快就找到了异常。

image.png

这是二十四万字的文本,就这么被它拿捏了。

随便问一段《斗破苍穹》的问题,它也能自信地答出来,文本检索、总结能力都肉眼可见地提高。

image.png

这还没完,为了考验多轮对话能力,我决定和它进行 20 轮以上的对话,设计一个涉及 5 个城市、12 个景点、不同预算和交通工具的复杂旅行计划,并在对话中不断人为加入变量。

开场白是这样的。

image.png

不得不说,我还是第一次和 AI 进行这么长时间的无意义对话。

差不多到第 10 轮时,我已经不记得第一轮说过什么了。

好消息是,差不多第 14 轮时,DeepSeek-V4 自己也记不得了。

image.png

从第 14 轮开始,它规划的行程就和之前的不沾边了。 甚至出现了第 13 轮还在规划箱根之旅,第 14 轮就在没提示的情况下剔除了的喜剧效果。

image.png

虽然对比之前的低专注度,现在的 DeepSeek-V4 在高强度交互下能保持一定的一致性,算是进步,但和我常用于角色扮演的 Gemini-2.5-Pro 依然有明显差距。


总结:便宜好用才是硬道理

这一套测试下来,DeepSeek-V4 给我的真实感受是:一个很务实、干活利索,但缺乏点艺术细胞的模型。

优点非常突出:百万级别的长文本处理能力,不错的编程规划与执行能力,再加上不高的调用成本。它和今年的龙虾潮很适配,花一箱饮料的钱就能帮团队快速干完一星期的活。

而且,在外部技术环境复杂的情况下,它大量依靠华为昇腾等国产芯片,跑出了比肩世界最强闭源模型的能力,这确实证明了国产算力生态正在迅速崛起。

当然,缺点也客观存在。它现在还没法像竞争对手那样直接看图或看视频,处理复杂逻辑推理时偶尔会犯迷糊,写出来的视觉界面也不太符合现代人的审美。

官方说它和顶级闭源模型还有几个月的差距,这个评价非常中肯。

综合来看,DeepSeek 这次交出的答卷完全超出预期。它不仅稳稳守住了国内开源模型第一梯队的位置,还有望把高高在上的算力成本打下来。

对于普通用户来说,现在的 DeepSeek-V4 是一个日常工作、写代码、查资料的绝佳免费助手。至于多模态那些更高级的功能,不妨给它一点时间,期待下一次的进化。




上一篇:开发者工具实战指南:Elements, Console, Sources, Network核心调试技巧
下一篇:多智能体+LLM中文金融交易框架:TradingAgents-CN安装与实战
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-27 04:09 , Processed in 0.765959 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表