找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4361

积分

0

好友

570

主题
发表于 昨天 13:12 | 查看: 5| 回复: 0

刻在石头上的碑文会风化,写在纸上的文字会被遗忘。千百年来,如何保存信息一直是人类文明的难题。互联网的出现曾被认为提供了绝佳的解决方案,“互联网是有记忆的”也一度成为共识。

互联网档案馆标志

然而,早在2015年,TCP/IP协议和互联网架构的联合设计者之一、时任谷歌副总裁的温特·瑟夫就提出了一个令人警醒的观点。他认为,随着数字技术的快速迭代,人类保存在互联网上的图片、文档、文件等信息可能会彻底丢失。世界或将步入一个“数字黑暗时代”,未来的人类可能根本找不到关于21世纪的完整历史记录。

作为互联网先驱,温特·瑟夫的担忧并非空穴来风,在过去十年间正一步步显现。皮尤研究中心2023年的一份报告显示,截至当年10月,在2013年至2023年间存在过的网页中,已有25%处于“404 Not Found”状态。进入2024年,谷歌、百度、必应等主流搜索引擎也相继取消了网页快照功能。

以往,网络信息的散佚多源于平台方因成本考量而主动放弃。但最近发生的一系列事件,似乎让“数字黑暗时代”从一种“寓言”变成了迫近的“预言”。据《连线》杂志报道,《USA Today》、《纽约时报》、《卫报》等多家知名媒体开始屏蔽互联网档案馆(Internet Archive)旗下的“时光机”(Wayback Machine)网络爬虫,阻止其抓取页面并建立存档。

互联网档案馆软件库页面

《连线》在文中举了一个颇具讽刺意味的例子:《USA Today》不久前刊发了一篇揭露美国移民与海关执法局拖延披露政策的调查报道,其依据正是互联网档案馆“时光机”抓取的历史数据。互联网档案馆的负责人马克·格雷厄姆对此吐槽道:“他们能完成这篇调查报道,正是因为‘时光机’的存在,可他们却在封禁访问权限。”

《USA Today》的发言人解释称,此举是该机构全面封禁所有爬虫程序的一部分,并非专门针对互联网档案馆。《卫报》商务与授权总监罗伯特·哈恩则直言,此举是由于“担忧人工智能公司可能滥用为存档目的抓取的内容”。据不完全统计,目前已有超过20家主流新闻网站屏蔽了互联网档案馆用于存档的网络爬虫“ia_archiverbot”。

早期文件传输界面截图

作为全球知名的非营利性数字图书馆,互联网档案馆是网民回溯网络历史的重要工具,这也让其近年来屡陷争议。2023年,其旨在保护黑胶唱片录音数据的“Great 78项目”就遭到了索尼等唱片巨头的版权诉讼,最终导致数千份数字化录音被下架。此次新闻媒体的行动,同样高举“版权保护”的旗帜,却实质上阻碍了公共“网络记忆”的留存。

那么问题来了:新闻媒体的数字化进程始于本世纪初,互联网档案馆收录其网页已有二十余年历史,为何直到现在才想起要“保护版权”?从某种意义上说,互联网档案馆此次是遭遇了“无妄之灾”,因为这些媒体真正想防范的,是AIGC厂商的数据爬虫。

关于新闻媒体与OpenAI、Anthropic等AI大模型厂商的版权诉讼已屡见不鲜。然而,在全球竞相押注人工智能的战略背景下,版权法规对AI厂商的约束力显得有限,这使得媒体试图通过法律途径保护自身内容资产不被无偿使用的努力收效甚微。

互联网档案馆网站首页

在无法阻止自家记者、编辑产出的高质量内容成为训练AI大模型的语料后,新闻媒体的策略发生了转变。既然内容被“白嫖”似乎不可避免,他们选择将这条可能的“绞索”卖个好价钱——即转而寻求与OpenAI等厂商进行商业合作。

将内容授权给AI公司或许是饮鸩止渴,长远看可能助长替代自身的力量。但相比之下,放任互联网档案馆将自家内容免费、公开地存档在网络上,新闻媒体则连眼前的利益都无法获取。在生存压力下,互联网档案馆为全球网民提供的公共历史价值,便成了可以牺牲的选项。

这一系列事件表明,以大模型为代表的人工智能技术,确实深刻地改变了互联网世界的运行规则。未来,各类平台和数据持有者“建墙”保护自身数据资产,或将成为新常态。Web 3.0所倡导的去中心化理想与创作者经济,正在以一种出人意料且略显割裂的方式变成现实。对于广大技术从业者和开发者而言,如何在新的数据博弈格局下获取可靠、合规的语料资源,也成为了一个值得在技术社区(如云栈社区)深入探讨的课题。




上一篇:微软Project Helix主机设计引争议:封闭生态与开放策略的十字路口
下一篇:Claude Code 并行开发实战:Subagents、Agent Teams、Git Worktree 与工作流编排指南
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-21 13:14 , Processed in 0.608062 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表