找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

815

积分

0

好友

109

主题
发表于 昨天 23:55 | 查看: 0| 回复: 0

1993年的互联网,世界还很小。那时,我每天早上都会收到一封名为《What‘s New on the Web》的邮件,里面会列出所有新出现的网站。是的,你没听错,是所有。

我常常一边喝着咖啡,一边浏览这些新站点,通常在上午10点之前就能全部看完。

一位程序员在90年代的办公室中浏览早期网页列表

在空闲时,我开始自学Perl并尝试编写网络爬虫。这些爬虫很有用,可以用来创建网站目录、统计文档数量、检查死链或评估网页大小等。但在一次测试中,我犯了一个愚蠢的错误:选择了一个讲解网络爬虫知识的网站作为起始URL。

这个网站运行在一家小公司的服务器上,仅通过一条14.4K的专线连接(别小看这个速度,当时我们200人的公司也只租了一条64K专线)。我的爬虫无意中对它发动了一次拒绝服务攻击(DoS),直接让网站瘫痪了。

那个网站的负责人名叫马丁(Martijn Koster)。他非常生气,立即要求我停止那些疯狂的请求。马丁并非普通人,他发明了世界上第一个Web搜索引擎——AliWeb。

世界上第一个Web搜索引擎ALIWEB的搜索表单界面

当他意识到网络爬虫可能泛滥成灾时,便构思了一套标准流程,即“机器人排除协议”(Robots Exclusion Protocol)。其核心思想是:当你的网络机器人访问一个新网站时,应当首先寻找并解析一个名为 robots.txt 的文件,然后避开其中列出的目录或文件。

例如,一个典型的 robots.txt 文件可能长这样:

User-agent: googlebot
Disallow: /private/

这意味着,对于名为googlebot的爬虫,不允许抓取 /private 目录下的任何内容。

我可能编写了第一个遵守 robots.txt 协议的爬虫,但更肯定的是,我就是那个逼迫这项协议诞生的“蠢蛋”。

君子协定,神奇运行30年

上面的故事源于查尔斯·斯特罗斯(Charles Stross)的自述,生动地描绘了 robots.txt 的诞生背景。它并非由某个委员会精心设计,而是早期互联网用户为解决实际问题而被迫发明的方案。

马丁只是将这个想法发布到了WWW-Talk邮件列表中。经过成员们对基本语法和结构的讨论,大家最终达成一致,纷纷开始支持 robots.txt。

它与TCP/IP这类底层协议不同——不支持TCP/IP就无法联网,但 robots.txt 完全是一个“君子协定”。是否遵守,全凭网络爬虫编写者的自觉。这就像在你敞开的房间门口立一块“禁止入内”的牌子。

一只机械蜘蛛站在“禁止入内”的标志前,象征守规矩的爬虫

网络爬虫(机器人)看到了这块牌子,就真的不会进入这个房间,无论里面藏着多少珍宝。令人惊奇的是,这个建立在信任基础上的协议,竟然平稳运行了将近30年。

它为何能存活下来?早期原因很简单:不守规矩的机器人,会被全网封杀。在那个小而紧密的圈子里,“流氓爬虫”的IP地址会被拉入黑名单,其所属域名也会被公开点名,这对任何服务来说都是致命的名誉打击。

最遵守robots.txt的公司赢了

时间来到90年代末,互联网呈爆炸式增长,海量网站再也不可能在一个上午浏览完毕。那些散布在世界各地的网站,若不通过搜索引擎,用户几乎无法发现。

于是,搜索引擎与网站之间围绕 robots.txt 达成了完美的默契。网站允许Google等搜索引擎的爬虫抓取自己的页面,以此换取在搜索结果中展示的机会,从而获得巨大的曝光和流量。而Google则严格遵循 robots.txt 的规则,将流量导向源网站,同时通过在搜索结果中投放广告盈利。

这是一次极其成功的价值交换:你让我爬取数据,我给你带来流量

拟人化的数据包与电脑屏幕进行数据交换,象征搜索引擎与网站的互利关系

尽管 robots.txt 已成为事实标准,但世界之大,总有公司不愿遵守。尤其是一些信息聚合网站,它们无视协议,直接从他人网站抓取新闻、产品信息等内容,聚合后放在自己的平台上。

例如美国的Bidder‘s Edge(BE)。它建立了一个拍卖信息聚合网站,专门从eBay等各大拍卖网站收集数据。这样,BE的用户就能一站式搜索全网拍卖信息,无需访问各个独立的拍卖网站。

eBay当然无法容忍。由于 robots.txt 缺乏法律强制力,eBay起初试图封禁BE爬虫的IP地址,但BE通过使用代理服务器轻松绕过了封锁。最终,eBay在2000年5月将BE告上法庭。法院以“非法入侵”为由,颁布禁令,禁止BE以任何自动手段抓取eBay服务器的数据。这一判例为 robots.txt 的权威性提供了一定的法律支撑。

君子协议被AI撕毁

2017年,致力于保存互联网文明的“互联网档案馆”做了一件震动业界的事:宣布不再遵守 robots.txt。

他们的理由很直接:robots.txt 是为“实时搜索”设计的,而我们的目标是保存所有网页的历史快照,这是为了全人类的数字文化遗产。此事并未引起轩然大波,因为互联网档案馆是非营利机构,它爬取的数据依然免费向公众开放,并未用于商业盈利。

但对于新兴的AI公司而言,情况截然不同。试想一下:如果你经营的AI公司严格遵守 robots.txt,而你的竞争对手通过更换用户代理(UA)或IP地址等手段,偷偷多抓取了数倍的数据,结果会怎样?

你的模型因为训练数据不足,性能必然落后于对手。用户会因为你“道德高尚”而选择你吗?大概率不会,他们会涌向那个能提供更准确答案的产品。这就陷入了一个囚徒困境:“如果我守规矩而对手不守,我就会输,所以我也不能守。”

科幻插画:机器人撕毁写着robots.txt协议的纸张

更致命的是,AI打破了搜索引擎时代的“流量回流”逻辑:

  1. 网站内容被吸干,流量消失。 AI模型消化了内容,却无需引导用户回访源网站。
  2. AI直接给出答案,用户不再访问原网站。 当ChatGPT能直接总结一篇文章的要点时,谁还会点击原文链接?
  3. 创作者权益受损。 内容被用于训练模型,但创作者往往丧失了署名权,也得不到任何分成。

所有内容网站都感到了寒意:AI不是来给我导流的,而是来取代我的。 因此,屏蔽AI爬虫成为共识。

2023年,Originality.AI的统计显示,在全球访问量最高的1000个网站中,有306个在其 robots.txt 中屏蔽了OpenAI的GPTBot,85个屏蔽了谷歌的Google-Extended。BBC、《纽约时报》等新闻媒体普遍禁止GPTBot访问。同年,博客平台Medium宣布将禁止所有人工智能网络爬虫。

OpenAI则摆出了高姿态,声称其爬虫GPTBot会遵守 robots.txt,甚至“贴心”地发布教程,教站长如何在 robots.txt 中屏蔽它。然而,这一切都发生在“强大的底层模型已经训练完成之后”。用网友的话说:“你的模型已经吃饱了,你才开始讲礼貌?”这让人难以接受。

robots.txt 是建立在 “善意”“搜索回流” 共赢基础上的制度,而AI时代的到来,同时打破了这两大基石。

尾声:从“礼貌手册”到“产权声明”

robots.txt 的结构性缺陷,在AI时代暴露无遗。它无法区分“善意索引”的搜索引擎爬虫和“贪婪训练”的AI爬虫。

2025年,非营利组织RSL Collective推出了Really Simple Licensing(RSL),试图对 robots.txt 进行重大升级。RSL允许网站发布者在 robots.txt 中明确设置AI爬虫的使用条款。例如:

User-agent: *
Allow: /

# 如果你是 AI,但你在干 搜索 / 索引 / 指路 这类事,没问题
AI-Search: allowed

# 不允许用本站内容训练通用大模型
AI-Training: disallowed

# 你可以做摘要,引用,回答问题,但是需要标明来源,给出链接,保留署名
AI-Summarization: allowed-with-attribution

# 如果你要靠我的内容赚钱,先来谈合同
AI-Commercial: license-required

RSL 标志着 robots.txt 从一份“爬虫礼貌手册”升级为一份清晰的 “数字产权声明”。它的目的不是简单地阻止AI,而是试图将AI数据抓取拉回一个可以谈判、有规则可循的框架内。这本质上是希望为数据的价值流动建立新的基础规则

那些拥有强大抓取能力的科技巨头是否会遵守RSL?这场关于网络数据产权与AI训练权利的博弈,才刚刚开始。无论结果如何,这场讨论都值得每一位关注互联网技术生态的开发者持续关注。




上一篇:Linux 系统响应慢?内核调度器引入高层级 QoS 接口的探索
下一篇:嵌入式GUI开发框架CDroid:如何让Android开发经验在嵌入式设备上复用?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-25 18:23 , Processed in 0.321008 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表