作为一个经常需要参考各种设计稿来写代码的前端开发者,我一直在寻找能真正“看懂”图片并生成代码的AI工具。以前,当我在网上看到一个漂亮的网站,想让我的自动化助手(我戏称为“小龙虾” OpenClaw)帮我复刻时,它总会提示我:不支持图像输入。

即使换上有视觉能力的模型,生成的结果也常常和我的预期相差甚远。好家伙,都说这些自动化工具让AI长出了“手”和“脚”,怎么就没人给它们安一双好用的“眼睛”呢?
但最近,智谱AI 发布的 GLM-5V-Turbo 模型,似乎带来了转机。我立刻尝试用它来完成同样的任务。

很快啊,它真的就 1:1 地将截图中的页面复刻了出来! 
现在,我的“小龙虾”不仅手脚灵活,在拥有了 GLM-5V-Turbo 这双“眼睛”后,视力和审美能力也有了质的飞跃。
GLM-5V-Turbo 是什么?
简单来说,这是一款主打视觉编程能力的 Coding 基座模型。它的核心能力是直接基于图片、视频、设计稿甚至网页来理解和生成可运行的代码。

普通模型只能等你把图片内容用文字描述出来,再根据文字需求生成代码。而 GLM-5V-Turbo 在训练阶段就原生融合了视觉能力,可以直接“看懂”图像和视频内容,实现从视觉信息到代码的端到端生成。
它在多模态 Coding、Agentic(智能体)和纯文本 Coding 等多个维度的评测基准上,都取得了领先的表现。

体积小、能力强,这谁不爱?所以一经发布,就在国外开发者社区引起了广泛讨论,不少技术大V都为其站台。


既然评价这么高,那必须得实际测试一下它的效果究竟如何。
实战测试:GLM-5V-Turbo 到底有多强?
我设计了几个不同难度的测试场景,从简单的静态页面复刻,到复杂的动态效果和原创设计实现。
1. 复刻静态网页
首先,我选择了智谱的 BigModel 官网作为目标。

测试方法很简单:把这张官网首页截图发给“小龙虾”,并附上一句话:“根据这张截图,复刻一个一样的网页出来。”

结果令人惊喜,一张截图加一句话,页面就近乎一比一地制作出来了。
我们来对比一下生成页面和原网页:

仔细对比后,发现了两处细微差别:
- 左上角的 Logo 图标配色不同(一个是白底黑字,一个是黑底白字)。这个问题很容易解决,替换一下图标文件即可。
- 页面的动态效果不同。原版是鼠标悬停时卡片背景变色,而复刻版是卡片微微浮起。
第二个差异其实可以理解,因为一张静态截图无法传达交互逻辑。那么,如果我想还原精确的动态效果,该怎么办呢?
2. 通过视频复刻动态交互
说干就干。我将原网站的悬停变色效果录制成一个短视频,然后发给“小龙虾”,要求它“根据这个视频里的动态效果,进一步优化页面”。

起身喝杯水的功夫,它不仅还原了变色效果,甚至连不同卡片使用不同主题色这种细节都捕捉到了。这视觉理解能力确实顶。
最终效果如下,鼠标悬停时,卡片会精确地变为预设的深色背景:

这时你可能要问:一个网站不止一屏,如何复刻整个长页面?很简单,录制一个完整滚屏的视频即可。不过,我还有一个更高效的方法。
3. 直接通过链接“理解”并复刻网站
你不需要费力地准备截图或视频素材。GLM-5V-Turbo 支持直接分析网页链接。这次,我们来尝试复刻苹果官网的风格。

出于版权考虑,AI 不会生成一模一样的页面,但可以借鉴其设计风格,制作一个风格相似的原创页面。这完全符合实际开发中“参考设计,而非抄袭”的伦理。

经过一番“思考”和创作,它完成了任务。我们来看看效果:

由于不能使用原版图片,我替换了一些素材。但除了配图,无论是整体排版、色彩搭配,还是交互逻辑,还原度都相当高。甚至首屏 Banner 还添加了原版没有的动态效果,显得更加灵动。
4. 终极挑战:根据手绘草图生成页面
真正的创新不能总靠“借鉴”。如果产品经理扔给你一张抽象的手绘草图,你该怎么办?

乍一看,这应该是个音乐播放器界面。其他的,就交给 AI 去发挥吧。
这次我切换到了 Claude Code 环境进行测试,因为智谱官方提供了便捷的一键配置工具包,集成起来非常方便。

大约不到 3 分钟,一个根据草图创建的音乐播放器页面就生成了。

最终效果如下,一个功能齐全、界面现代的音乐播放器:

让我们再对比一下原始草图:

不能说是有点相似,只能说是一模一样。就连我草图中音乐控制按钮没对准中心线这个“细节”,它都忠实地还原了。能凭借如此抽象的草图,生成一个功能完善的页面,其视觉解析和前端 编码能力已经相当出色。
总结与体验
经过深度测试,GLM-5V-Turbo 给我留下了深刻印象,其特点可以总结为三点:
- 看得准:不同于后期嫁接视觉插件的模型,GLM-5V-Turbo 在训练阶段就原生融合了视觉能力,避免了“幻觉”问题。它能精准捕捉设计稿中的细节,包括复杂的动态交互效果。
- 编码稳:在我所有的测试案例中,它几乎都能一次生成可运行、无明显 Bug 的代码。少数未达预期的情况,也多是由于我提供的信息不足,稍作补充后即可完美解决。
- 提升工作流:在自动化 Agent 中集成 GLM-5V-Turbo,相当于为其装上了“眼睛”。以前需要靠坐标定位的机械点击操作,现在可以由模型“看见”并智能分析,大大提升了复杂任务工作流的流畅性和可靠性。
回想以前,我们需要用大段文字向 AI 描述需求,写提示词的时间可能比直接写代码还累。AI 不应该是需要我们“哄着”才能干活的工具,而应该能真正理解我们的意图。
GLM-5V-Turbo 让 AI 长出了一双视力超群的“眼睛”,极大地降低了人机沟通的成本。现在,你可以直接前往 智谱AI 官网免费体验这款模型。

无论你是想提升效率的前端开发者、热衷于探索新工具的 AI 极客,还是寻找生产力突破的职场人,都值得一试。毕竟,目标是让我们少说点话,让 AI 多干点活儿。
相关链接:
如果你对这类 AI 赋能开发的工作流感兴趣,欢迎来 云栈社区 交流更多实战经验和技巧。