云栈社区»论坛 › 开发者广场「Dev Plaza」 › robots.txt协议30年变迁史：从Web君子协定到AI时代的产权博弈 ...

发回帖发新帖

2300 积分	0 好友	308 主题

发消息

robots.txt协议30年变迁史：从Web君子协定到AI时代的产权博弈

发表于 2026-1-24 23:55:05 | 查看: 70| 回复: 0

1993年的互联网，世界还很小。那时，我每天早上都会收到一封名为《What‘s New on the Web》的邮件，里面会列出所有新出现的网站。是的，你没听错，是所有。

我常常一边喝着咖啡，一边浏览这些新站点，通常在上午10点之前就能全部看完。

一位程序员在90年代的办公室中浏览早期网页列表

在空闲时，我开始自学Perl并尝试编写网络爬虫。这些爬虫很有用，可以用来创建网站目录、统计文档数量、检查死链或评估网页大小等。但在一次测试中，我犯了一个愚蠢的错误：选择了一个讲解网络爬虫知识的网站作为起始URL。

这个网站运行在一家小公司的服务器上，仅通过一条14.4K的专线连接（别小看这个速度，当时我们200人的公司也只租了一条64K专线）。我的爬虫无意中对它发动了一次拒绝服务攻击（DoS），直接让网站瘫痪了。

那个网站的负责人名叫马丁（Martijn Koster）。他非常生气，立即要求我停止那些疯狂的请求。马丁并非普通人，他发明了世界上第一个Web搜索引擎——AliWeb。

世界上第一个Web搜索引擎ALIWEB的搜索表单界面

当他意识到网络爬虫可能泛滥成灾时，便构思了一套标准流程，即“机器人排除协议”（Robots Exclusion Protocol）。其核心思想是：当你的网络机器人访问一个新网站时，应当首先寻找并解析一个名为 robots.txt 的文件，然后避开其中列出的目录或文件。

例如，一个典型的 robots.txt 文件可能长这样：

User-agent: googlebot
Disallow: /private/

这意味着，对于名为googlebot的爬虫，不允许抓取 /private 目录下的任何内容。

我可能编写了第一个遵守 robots.txt 协议的爬虫，但更肯定的是，我就是那个逼迫这项协议诞生的“蠢蛋”。

君子协定，神奇运行30年

上面的故事源于查尔斯·斯特罗斯（Charles Stross）的自述，生动地描绘了 robots.txt 的诞生背景。它并非由某个委员会精心设计，而是早期互联网用户为解决实际问题而被迫发明的方案。

马丁只是将这个想法发布到了WWW-Talk邮件列表中。经过成员们对基本语法和结构的讨论，大家最终达成一致，纷纷开始支持 robots.txt。

它与TCP/IP这类底层协议不同——不支持TCP/IP就无法联网，但 robots.txt 完全是一个“君子协定”。是否遵守，全凭网络爬虫编写者的自觉。这就像在你敞开的房间门口立一块“禁止入内”的牌子。

一只机械蜘蛛站在“禁止入内”的标志前，象征守规矩的爬虫

网络爬虫（机器人）看到了这块牌子，就真的不会进入这个房间，无论里面藏着多少珍宝。令人惊奇的是，这个建立在信任基础上的协议，竟然平稳运行了将近30年。

它为何能存活下来？早期原因很简单：不守规矩的机器人，会被全网封杀。在那个小而紧密的圈子里，“流氓爬虫”的IP地址会被拉入黑名单，其所属域名也会被公开点名，这对任何服务来说都是致命的名誉打击。

最遵守robots.txt的公司赢了

时间来到90年代末，互联网呈爆炸式增长，海量网站再也不可能在一个上午浏览完毕。那些散布在世界各地的网站，若不通过搜索引擎，用户几乎无法发现。

于是，搜索引擎与网站之间围绕 robots.txt 达成了完美的默契。网站允许Google等搜索引擎的爬虫抓取自己的页面，以此换取在搜索结果中展示的机会，从而获得巨大的曝光和流量。而Google则严格遵循 robots.txt 的规则，将流量导向源网站，同时通过在搜索结果中投放广告盈利。

这是一次极其成功的价值交换：你让我爬取数据，我给你带来流量。

拟人化的数据包与电脑屏幕进行数据交换，象征搜索引擎与网站的互利关系

尽管 robots.txt 已成为事实标准，但世界之大，总有公司不愿遵守。尤其是一些信息聚合网站，它们无视协议，直接从他人网站抓取新闻、产品信息等内容，聚合后放在自己的平台上。

例如美国的Bidder‘s Edge（BE）。它建立了一个拍卖信息聚合网站，专门从eBay等各大拍卖网站收集数据。这样，BE的用户就能一站式搜索全网拍卖信息，无需访问各个独立的拍卖网站。

eBay当然无法容忍。由于 robots.txt 缺乏法律强制力，eBay起初试图封禁BE爬虫的IP地址，但BE通过使用代理服务器轻松绕过了封锁。最终，eBay在2000年5月将BE告上法庭。法院以“非法入侵”为由，颁布禁令，禁止BE以任何自动手段抓取eBay服务器的数据。这一判例为 robots.txt 的权威性提供了一定的法律支撑。

君子协议被AI撕毁

2017年，致力于保存互联网文明的“互联网档案馆”做了一件震动业界的事：宣布不再遵守 robots.txt。

他们的理由很直接：robots.txt 是为“实时搜索”设计的，而我们的目标是保存所有网页的历史快照，这是为了全人类的数字文化遗产。此事并未引起轩然大波，因为互联网档案馆是非营利机构，它爬取的数据依然免费向公众开放，并未用于商业盈利。

但对于新兴的AI公司而言，情况截然不同。试想一下：如果你经营的AI公司严格遵守 robots.txt，而你的竞争对手通过更换用户代理（UA）或IP地址等手段，偷偷多抓取了数倍的数据，结果会怎样？

你的模型因为训练数据不足，性能必然落后于对手。用户会因为你“道德高尚”而选择你吗？大概率不会，他们会涌向那个能提供更准确答案的产品。这就陷入了一个囚徒困境：“如果我守规矩而对手不守，我就会输，所以我也不能守。”

科幻插画：机器人撕毁写着robots.txt协议的纸张

更致命的是，AI打破了搜索引擎时代的“流量回流”逻辑：

网站内容被吸干，流量消失。 AI模型消化了内容，却无需引导用户回访源网站。
AI直接给出答案，用户不再访问原网站。 当ChatGPT能直接总结一篇文章的要点时，谁还会点击原文链接？
创作者权益受损。 内容被用于训练模型，但创作者往往丧失了署名权，也得不到任何分成。

所有内容网站都感到了寒意：AI不是来给我导流的，而是来取代我的。 因此，屏蔽AI爬虫成为共识。

2023年，Originality.AI的统计显示，在全球访问量最高的1000个网站中，有306个在其 robots.txt 中屏蔽了OpenAI的GPTBot，85个屏蔽了谷歌的Google-Extended。BBC、《纽约时报》等新闻媒体普遍禁止GPTBot访问。同年，博客平台Medium宣布将禁止所有人工智能网络爬虫。

OpenAI则摆出了高姿态，声称其爬虫GPTBot会遵守 robots.txt，甚至“贴心”地发布教程，教站长如何在 robots.txt 中屏蔽它。然而，这一切都发生在“强大的底层模型已经训练完成之后”。用网友的话说：“你的模型已经吃饱了，你才开始讲礼貌？”这让人难以接受。

robots.txt 是建立在 “善意” 与 “搜索回流” 共赢基础上的制度，而AI时代的到来，同时打破了这两大基石。

尾声：从“礼貌手册”到“产权声明”

robots.txt 的结构性缺陷，在AI时代暴露无遗。它无法区分“善意索引”的搜索引擎爬虫和“贪婪训练”的AI爬虫。

2025年，非营利组织RSL Collective推出了Really Simple Licensing（RSL），试图对 robots.txt 进行重大升级。RSL允许网站发布者在 robots.txt 中明确设置AI爬虫的使用条款。例如：

User-agent: *
Allow: /

# 如果你是 AI，但你在干 搜索 / 索引 / 指路 这类事，没问题
AI-Search: allowed

# 不允许用本站内容训练通用大模型
AI-Training: disallowed

# 你可以做摘要，引用，回答问题，但是需要标明来源，给出链接，保留署名
AI-Summarization: allowed-with-attribution

# 如果你要靠我的内容赚钱，先来谈合同
AI-Commercial: license-required

RSL 标志着 robots.txt 从一份“爬虫礼貌手册”升级为一份清晰的 “数字产权声明”。它的目的不是简单地阻止AI，而是试图将AI数据抓取拉回一个可以谈判、有规则可循的框架内。这本质上是希望为数据的价值流动建立新的基础规则。

那些拥有强大抓取能力的科技巨头是否会遵守RSL？这场关于网络数据产权与AI训练权利的博弈，才刚刚开始。无论结果如何，这场讨论都值得每一位关注互联网技术生态的开发者持续关注。

上一篇：Linux 系统响应慢？内核调度器引入高层级 QoS 接口的探索
下一篇：嵌入式GUI开发框架CDroid：如何让Android开发经验在嵌入式设备上复用？

robots．txt, 网络爬虫, AI训练, 数据抓取, 互联网协议