找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3802

积分

0

好友

525

主题
发表于 12 小时前 | 查看: 1| 回复: 0

近日,Cloudflare推出了一项名为“Markdown for Agents”的新功能,它能够自动将网页从HTML转换为Markdown格式,从而为AI代理节省高达80%的token使用量。这项技术旨在降低推理成本,提升网络内容处理效率,让网站内容能更高效地被大型语言模型(LLM)等AI工具理解和使用。

译自:Cloudflare's Markdown for Agents automatically make websites agent-ready
作者:Steven J. Vaughan-Nichols

作为知名的安全和内容分发网络公司,Cloudflare通过这项新功能,在AI代理请求网页时实时进行HTML到Markdown的转换。那么,为什么AI代理需要Markdown而不是原始的HTML呢?

尽管LLM可以读取HTML,但从模型的角度来看,HTML中包含了大量的格式标签如div、脚本等,这些都被视为“噪音”,会转化为额外的token消耗。LLM真正关心的是文本内容,而不是周围的标记,这些冗余信息只会徒增计算成本。

情况有多严重?以Cloudflare官方发布该功能的博客文章为例,如果以HTML形式呈现,token数量高达16,180个;而转换为Markdown后,仅需3,150个token,直接节省了80%。这不仅仅是数字游戏,而是推理成本的真金白银。

从HTML到Markdown

Cloudflare通过在边缘实时处理来解决这个问题。当客户端在请求中包含 Accept: text/markdown 头部时,Cloudflare会从源站获取原始HTML,将其转换为Markdown,并提供转换后的内容。该公司表示,像Claude Code和OpenCode等流行的编码代理已经发送这些头部信息,这意味着许多现有的AI工具可以立即利用这一功能,无需额外改造。

为了使内容更易于机器处理,Cloudflare在响应中添加了一个 x-markdown-tokens 头部,用于暴露token计数,允许代理快速判断文档是否适合其上下文窗口或是否需要分块处理。转换后的响应还包括一个 content-signal 头部(ai-train=yes, search=yes, ai-input=yes),表明发布者默认允许AI训练、搜索索引和代理使用。

Cloudflare透露,未来的版本将允许网站所有者在当前默认设置之外,自定义这些内容信号策略,提供更细粒度的控制。

“Markdown for Agents”依赖于标准HTTP内容协商,使用Accept头部来区分人类流量与AI爬虫或其他纯文本客户端。AI代理可以通过发送 Accept: text/markdown(通常与 text/html 一起)来请求Markdown版本,而常规浏览器访问则继续接收正常的HTML页面。Cloudflare在边缘“即时”执行转换,无需对站点模板、CMS设置或创建单独的Markdown端点进行任何更改,实现了零配置部署。

开始使用

Cloudflare的Pro和Business计划客户可以在Cloudflare仪表板的“AI Crawl Control”部分启用此功能,“Markdown for Agents”会显示为一个专用开关。同样的功能也通过Cloudflare API提供,便于自动化集成。

对于使用Cloudflare for SaaS的SaaS提供商,可以通过仪表板的“快速操作”开关为所有自定义主机名一键开启Markdown转换,或者使用自定义元数据和配置为每个主机名选择性启用,非常适合多租户场景。

Cloudflare将Markdown定位为AI代理事实上的通用语。当然,他们并非唯一看到Markdown在代理和机器学习中优势的玩家。

Markdown替代方案

例如,荷兰互联网企业家兼WordPress开发者Joost de Valk维护着一个WordPress插件“Markdown Alternate”,它同样面向代理优化。他认为自己的方案与Cloudflare可以互补:“一个WordPress网站可以使用Markdown Alternate获得丰富的、深度集成WordPress的Markdown输出,并拥有专用URL和完整元数据;而Cloudflare的功能则为网络上其他所有站点提供了基线支持。插件给您控制和深度,Cloudflare给您广度和零工作量。”

市场上也有更直接的竞争服务,例如Fasterize EdgeSEO(AI机器人的Markdown)。这是一个边缘服务,能动态地将HTML页面转换为Markdown提供给已知的AI机器人,无需创建单独的 .md URL。此外,Cloudflare的另一个竞争对手Firecrawl,则提供商业化的“AI网络数据API”,专门为LLM抓取、提取和标准化网站内容。

对于正在构建消耗网络内容的AI驱动工作流的团队来说,某种形式的HTML到Markdown转换正迅速成为刚需。Cloudflare的边缘实时原生方法极大地降低了技术门槛:网站所有者几乎只需轻点开关,就能让每个页面即刻为AI代理所用。

如果您对AI代理、网络优化及云计算前沿技术有更多兴趣,欢迎来到云栈社区交流探讨,这里汇聚了众多开发者的实战经验与资源。

引用链接

[1] Cloudflare's Markdown for Agents automatically make websites agent-ready: https://thenewstack.io/cloudflares-markdown-for-agents-automatically-make-websites-more-aifriendly/
[2] Cloudflare: https://www.cloudflare.com/
[3] 适用于代理的 Markdown: https://developers.cloudflare.com/fundamentals/reference/markdown-for-agents/
[4] Cloudflare会从源站获取原始HTML,将其转换为Markdown: https://developers.cloudflare.com/fundamentals/reference/markdown-for-agents/
[5] Claude Code: https://code.claude.com/docs/en/overview
[6] OpenCode: https://opencode.ai/
[7] Cloudflare for SaaS: https://www.cloudflare.com/saas/
[8] WordPress: https://wordpress.org/
[9] WordPress: https://wordpress.org/
[10] Markdown Alternate: https://github.com/progressplanner/markdown-alternate
[11] 使用Markdown Alternate进行丰富的、支持WordPress的Markdown,带有专用URL: https://joost.blog/markdown-alternate/
[12] Fasterize EdgeSEO(AI机器人的Markdown): https://www.fasterize.com/en/blog/ai-bots-seo-why-converting-your-html-pages-to-markdown-could-change-the-game/
[13] Firecrawl: https://www.firecrawl.dev/




上一篇:本地AI部署实践:如何在VPS上用MoE模型替代云端API,实现隐私与成本平衡
下一篇:iPhone 18 Pro或推深红色版本,历代iPhone配色策略解析
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-25 21:25 , Processed in 0.362784 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表