logo
繁体
繁体

大西洋月刊:互联网正在腐烂(深度长文预警,非喜莫入)

哈佛大学法学与电脑科学教授乔纳森·齐特林(Jonathan Zittrain)于《大西洋月刊》发表评论长文,他详细介绍了互联网目前面临着的存在大量死链(腐烂链接)或被修改过的链接可能造成的严重后果,他认为应该建立一套完善的记录和追踪系统以便让公众知道每一次修改或删除的内容与目的。

60年前,未来学家阿瑟·克拉克(Arthur C. Clarke)指出,任何足够先进的技术都与魔法无法区分。互联网——我们既相互交流,又共同保存人类文明的智力产品——很符合克拉克的观察。

用乔布斯的话说,“它就是好用”,就像点击、敲击或说话一样容易。而且,与魔术的变化一样,当互联网不能用时,其原因通常是如此神秘,以至于想解释就像试图拆解一个失败的咒语一样无用。

支撑我们庞大而简单的数字网络的技术,如果它们没有被发明出来,可能就不会再以同样的方式出现。这是一种非常特殊情况下的人工制品,而且在另一条时间线上,不太可能以同样的方被设计出来。

互联网的独特结构产生于一种独特的限制和一种独特的自由。首先,其具有学术思想的设计者没有或没期望筹集大量的资金来建立网络;其次,他们不希望或指望从他们的发明中赚钱。

因此,互联网的设计者没有钱去简单地推出一个统一的集中式网络,就像联邦快递那样,用数千万美元的资本支出,来部署穿着制服的飞机、卡车、人员和投递箱,建立一个单一的点对点的交付系统。

相反,他们只是解决了如何将现有网络连接起来的规则。

互联网的设计不是仿照传统的电话系统,由政府或一些大规模的公用事业部门运营的单一集中式网络,而是允许任何地方的任何设备与任何其他设备互操作,允许任何供应商能够将其拥有的任何网络能力带到不断增长的一方。因为网络的创造者并不打算将其商业化,更不用说垄断了,关键是让网络的用户自然地提供理想的内容,其中一些人将作为内容生产者或主持人,为其他人建立栖息地。

Photo by Joshua Sortino on Unsplash 

与短暂兴起的专有网络如CompuServe、AOL和Prodigy不同,内容和网络将被分开。事实上,互联网过去和现在都没有主菜单,没有CEO,没有公开发行股票,根本没有正式的组织。只有工程师们每隔一段时间就会开会,以完善其建议的通信协议,然后硬件和软件制造商以及网络建设者就可以自由地按照他们的意愿进行操作。

因此,互联网只是一种砂浆的配方,任何人和每个人都可以利用之做他们自己的砖头。蒂姆·伯纳斯·李(Tim Berners-Lee)接受了这个邀请,发明了万维网的协议,这是一个在互联网上运行的应用程序。如果你的电脑通过运行一个浏览器说出“网络”,那么它就可以与同样说了“网络“的服务器对话,这自然就是网站了。

网站上的网页可以包含各种链接,根据定义,这些链接只需点击一下就可以找到,而且实际上可以在世界其他地方的服务器上找到,这些服务器的主人或组织不仅与链接的网页没有关系,而且完全不知道它的存在。

而网页本身在显示为一个整体之前,可能是由多个来源组合而成的,这促进了广告网络的兴起,网站可以随时在网络中插入监控信标和广告,因为网页在有人试图查看它们的时候被拉到一起。

就像互联网的设计者一样,伯纳斯·李把他的协议免费送给了全世界——这使得设计省去了任何形式的集中管理或控制,因为万维网公司不需要为计费而追踪使用情况。网络,就像互联网一样,是一个集体的幻觉,一组独立的努力被共同的技术协议联合起来,作为一个无缝的、神奇的整体出现。

这种没有中央控制,甚至没有中央监控的情况,长期以来一直被作为基层民主和自由的工具而受到赞扬。对互联网这样一个有机的、分散的网络进行审查,并不是一件小事。但最近,这些特点被理解为促进了个人骚扰和社会不稳定的载体,因为没有简单的关口来删除或标记不在主要社交媒体保护范围内的恶意作品,或者快速识别其来源。

虽然这两种评估都很有力量,但它们都掩盖了分布式网络和互联网的一个关键特征。它们的设计自然会造成维护他人所依赖的有价值内容的责任空白。链接在失灵之前都一直能用。随着网上工作的有形对应物的消失,这些差距代表了人类知识的实际漏洞。

在今天的互联网之前,保存某样东西的主要方式是将它写在石头上,然后是羊皮纸,然后是纸莎草纸,然后是20磅的无酸纸,然后是磁带机、软盘或硬盘,并将结果储存在寺庙或图书馆:一个旨在保护它免受腐烂、盗窃、战争和自然灾害的建筑。

这种方法促进了一些材料的保存,已达数千年之久。理想情况下,会有多个相同的副本储存在多个图书馆中,所以一个仓库的损毁不会灭绝里面的知识。在极少数情况下,如果一份文件被偷偷改动,它可以与其他地方的副本进行比较,以发现并纠正这种改动。

这些建筑并不是靠自己运行的,也不是单纯的仓库。它们配备了神职人员,然后是图书馆管理员,他们培养了一种保存的文化和为此精心设计的做法,因此珍贵的文件既能得到保护,又能大量地被查阅——当然是在物质上。而且同样重要的是,通过仔细的索引,充满探究心的人能够轻易地与能满足其求知若渴的图书馆馆藏相匹配。正如豪尔赫·路易斯·博尔赫斯(Jorge Luis Borges)所指出的,一个没有索引的图书馆随着它的增长,其信息量会变得越来越少,这很矛盾。

25年前,在互联网时代来临之际,互联网似乎会给这些管理员的长期工作带来巨大的改进,或许也会给他们带来一些缓解。互联网和网络设计的怪异性,确保了完美不会成为美好事物的敌人。在互联网和网络的设计中,没有一个谨慎的系统来指定与日常事务不同的“重要”知识,也没有将这些知识输入到永久保存和使用的机构和文化中(图书馆),有的只是无限变化的网络,像那些学术论文和报纸文章的经典参考网站,与散落各处的PDF、博客和社交媒体帖子并列。

富有进取心的学生设计了网络爬虫,自动跟踪并记录他们能找到的每一个链接,然后跟踪该链接末端的每一个链接,然后建立一个协查表,让人们在一个无缝的整体中进行搜索,创建搜索引擎,在今天超过100万亿个可能的网页中返回一个词或短语的前10个点击。

正如谷歌所说:“网络就像一个不断增长的图书馆,有数十亿本书,却没有中央档案系统”。

我在上一段引用了谷歌公司的网站,而且我用了一个超链接,所以你可以看到我的来源。资源是将人类的知识凝聚在一起的胶水。它可以让你了解更多像这篇文章中只简单提到的内容,也可以让其他人仔细检查我所陈述的事实。我使用的链接指向了:https://www.google.com/search/howsearchworks/crawling·indexing/。假设谷歌改变了该网页上的内容,或者在我写这篇文章和你读到它之间的任何时候重组其网站,或完全取消它。

改变那里的内容是内容漂移的一个例子;完全消除它被称为链接腐烂。

事实证明,链接腐烂和内容漂移是网络上普遍存在的现象,这对于一个拥有 “数十亿册图书而没有中央档案系统 “的图书馆来说,既不足为奇,又有令人震惊的风险。想象一下,如果图书馆不存在,只有实体书的 “共享经济”。人们可以登记自己家里有哪些书,然后其他想要这些书的人就可以来参观和阅读。这并不奇怪,这样的系统可能会过时,书不再在他们宣传的地方——特别是如果有人在2015年报告了一本书在别人家里,然后一个感兴趣的读者在2021年看到了2015年的报告,并试图访问原来提到的存放书的家庭。这就是我们现在在网络上的情况。

无论是简陋的家庭还是庞大的政府大楼,内容的宿主可能而且确实会失灵。例如,奥巴马在2010年春天签署了《可负担医疗法案》。2013年秋天,国会共和党人关闭了日常的政府运营资金,试图扼杀奥巴马医改。联邦机构不得不停止所有必要的活动,整个美国政府网站都不可访问,包括数以千计,也许是数以百万计的政府官方文件,当前的和存档的都是,当然,其中很少有与奥巴马医改有关的。

如同夜幕降临,指向受影响文件和网站的每一个链接都不再起作用。以下是美国宇航局当时的网站。

图片来源:链接 

2010年,塞缪尔·阿利托(Samuel Alito)大法官在最高法院审理的一个案件中写了一份同意意见,他的意见书中提供了一个网站链接,作为解释其判决理由的一部分。意见书发布后不久,任何人通过这个链接都不会看到阿利托在写意见书时的想法。相反,他们会发现这个信息:“你是不是觉得幸好没引用这个网页…如果你像阿利托法官那样引用了这个网页,那么原始内容早就消失了,可能会有其他人来购买这个域名,以便对互联网时代的链接信息的短暂性发表评论。”

受这样的案例启发,我和一些同事在2014年加入了调查链接腐烂程度的行列,并在今年春天再次加入。

第一项研究是与肯德拉·阿尔伯特(Kendra Albert)和拉里·莱西格(Larry Lessig)一起进行的,重点是旨在无限期保存的文件:学术论文中的链接,如《哈佛法律评论》和最高法院的司法意见。我们发现,自1996年第一个超链接被使用以来,高院意见中的50%的链接已不再起作用。而《哈佛法律评论》中75%的链接不再起作用。

人们往往忽略了现代网络的衰败,而事实上这些数字是非同寻常的——它们代表了事实监管链的全面崩溃。图书馆是存在的,里面仍然有书,但并没什么去管理人们所链接的很大一部分信息,包括在正式的法律文件中。没有管理。网络的灵活性——正是这一特点使其发挥作用,使其取代了CompuServe和其他集中组织的网络——分散了对这一核心社会功能的责任。

这个问题并不只是针对学术文章和司法意见。在约翰·鲍尔斯(John Bowers)和克莱尔·斯坦顿(Clare Stanton)的帮助下,以及在《纽约时报》的友好合作下,我能够分析自1996年成立以来在nytimes.com的文章中的大约两百万个外部链接。

我们发现,25%的深度链接已经腐烂。深度链接是指向特定内容的链接——比如theatlantic.com/article,而不仅仅是theatlantic.com。文章越旧,链接就越可能不起作用。如果追溯到1998年,72%的链接是死的。总的来说,在《纽约时报》所有包含深度链接的文章中,超过一半的文章至少有一个腐烂的链接。

我们的研究结果与其他研究是一致的。早在2001年,普林斯顿大学的一个团队研究了科学文章中网络参考文献的持久性,发现学术文章中包含的URL的绝对值在增加,但许多链接是坏的,包括他们从1994年收集的文章中的53%。

13年后,六位研究人员创建了一个数据集,其中包括超过350万篇关于科学、技术和医学的学术文章,并确定每五篇中就有一篇不再指向其最初的来源。2016年,对同一数据集的分析发现,75%的参考文献已经漂移了。

当然,对于网上的大部分内容,还有一个与之密切相关的永久性问题。人们以感觉短暂的方式交流,并相应地放松了警惕,却发现Facebook上的评论可以永远存在。其结果是两个世界中最糟糕的情况:一些信息在不该存在的情况下仍然存在,而其他信息在应该存在的情况下却消失了。

到目前为止,网络的兴起导致了经常性地引用那些不属于更正式系统的信息来源;博客条目或随意放在某个特定网址上的初稿论文在前互联网时代是没有对应的。但是,任何真正值得保留下来的东西,肯定还是会以书籍或学术期刊上的文章的形式出版,使其能够被今天的图书馆访问,并以与以前相同的方式保存下来吧?可惜,并没有。

由于信息很容易被放在网上,制作纸质对应物,并以传统方式存储的动机起初缓慢下降,后来急剧下降。纸质副本曾经被认为是原件,任何数字补充都被视为一种奖励。但现在,无论是出版商还是消费者,以及长期代表消费者的图书馆,都将数字化视为获取信息的主要途径,而纸质副本则被弃用。

从我作为一名法学教授的有利位置来看,我已经看到了在派对结束时准备熄灯的最后一批人:学术法律期刊的法学生编辑。对刚入学的法学生来说,一个更令人窒息的仪式是 “转引”,即检查正在进行的学术研究中的引文,以确保它们符合法律引文标准那严格而繁琐的形式,而且,更直接地说,确保来源本身存在,并且内容符合引文作者所说的那样。(频繁到可怕的情况下,它并不存在,这也是进行转引工作的一个好理由)。

例如,《哈佛法律评论》最初的做法是,要求学生转引人看到所引资料的纸质原件,如法规或司法意见。反过来,哈佛大学法律图书馆也会努力保留所有资料的实体副本——最好是所有法律和案例的实体副本,其目的正在于此。

此后,《法律评论》放松了规定,允许印刷文本的数字图像就足够了,这并不是完全不受欢迎。事实证明,物理性法条(有别于物理定律)占据了大量的空间,哈佛大学法学院正在将越来越多的书籍送到远程存储处,以便在需要时费力地检索。

几年前,我帮助领导了一项工作,将所有这些纸张以图像和可搜索文本的形式数字化——超过四万卷书,其中大概有四千万页——这完成了对每个州从该州成立之初到2018年底的几乎所有公开案例的扫描。(这些扫描的书籍已被送往肯塔基州的一个废弃的石灰石矿,作为对应某种数码甚至物理末世的措施)。

一个特殊的怪癖使我们能够进行扫描,然后像对待任何印刷品一样认真对待结果的持久性。美国案例法没有版权,因为它是法官的产物。(事实上,美国政府的任何作品都被法规要求进入公共领域)。但哈佛大学法学院图书馆不再收集可供扫描的印刷版本——这太昂贵了。在版权法得到完善以更好地容纳电子化的情况之前,其他印刷材料基本上都被困在纸上。

在这种情况下,由以前销售印刷品的出版商提供的天生电子材料进入了这个缺口。但有一个问题。这些官方认可的材料的数字表现形式在其永久性旁边有一个星号。无论是个人还是图书馆,购买者通常只能在一定时期内购买这类材料的使用权,而没有能力将作品转移到购买者自己选择的容器中。

许多商业出版的学术期刊也是如此,对它们来说,“订阅”不再意味着定期交付纸质卷,如果取消,就意味着不再有。相反,订阅是为了持续获得由出版商自己主办的整个期刊库。如果订阅安排被切断,整个作品就无法访问了。

在这些情况下,图书馆不再是任何时代的监护人,无论是有形的还是无形的,而是资金的汇集者,以支付对其他地方知识的短暂访问。

同样,现在的人经常在Kindles上购买书籍,它是电子设备中的加州酒店。除了亚马逊外,它只能进入但不能被提取。购买过的书籍可以不由自主地被亚马逊取缔,亚马逊也曾这么做过,同时会退回原来的购买价。例如,10年前,一个第三方书商在亚马逊上以99美分一本的价格提供Kindle格式的知名书籍,误以为它不再有版权。一旦注意到这个错误,亚马逊在某种程度上的恐慌中,进入了每一个下载过该书的Kindle,并将其删除。这本书是乔治·奥威尔的《1984》,很巧吧。(你没买过《1984》。事实上,你从来就没有过《1984》。根本就没有《1984》这本书)。)

在当时,这一事件被认为是令人回味的,但并不真正令人担忧;毕竟,外界有大量的《1984》的实体拷贝。今天,随着个人和图书馆的图书购买从实体转向数字化,使Kindle图书去平台化——包括追溯性的去平台化——会更有意义。

删除并不是唯一的问题。信息不仅可以被删除,还可以被改变。在互联网出现之前,在一本书出版很久后,试图改变它的内容是徒劳的。图书管理员并不乐见有人试图撕掉或标记“不正确”的书的几页内容。而最接近于事后编辑的做法是修改后来版本的内容。

电子书没有这些限制,这是因为新版本可以很容易地被创造出来,而且事后对现有版本进行“更新”也很简单。比如菲利普·霍华德(Philip Howard)的经历,他在2010年坐下来阅读印刷版的《战争与和平》。在阅读这本砖头大小的巨著到一半时,他在他的Nook电子阅读器里购买了一本99美分的电子版。

 

“当我在阅读时,我看到了这样一句话:‘就像在一个雕刻和绘画的灯笼里有一盏灯被隐藏(Nookd)了……’。我以为这只是软件中的一个小故障,就没有理会这个干扰性的词,继续阅读。几页之后,我又遇到了这个流氓词。当我第三次遇到时,我决定找回我的硬皮书,并找到了原文(虽然是翻译的)。

 

对于上面的句子,我发现了真正的翻译仿佛在一个雕刻和绘画的灯笼里点燃了(kindled)一盏灯……”

 

对这本Nook版本的书的搜索,证实了这一点。书里所有的“kindle”一词都被“nook”取代了,这也许是为了改变以前做的Kindle版本的书,供Nook使用。下面是我当时拍的一些截图。

截图来源: https://cdn.theatlantic.com/
截图来源:https://cdn.theatlantic.com/

用不了多久,这种出版形式的可塑性会成为内容审查的一个新的压力和监管领域。如果一本书中的某个段落被某人认为是诽谤性的,受害的人可以为此起诉——如果他们是对的,可以获得金钱上的赔偿。但很少有人对书的存在本身提出质疑,这仅仅是因为在出版后便覆水难收。

现在,要求对违规的句子或段落进行改进或直接修改要容易得多。只要这些补救措施不再只是幻想,和解的条款就可以包括这些措施,以及承诺不在广告中宣称已经做出了改变。而且永远不需要提起诉讼;只需要公开或私下提出要求,而且这不是基于法律的要求,只是愤怒和潜在的宣传。重读Kindle的旧书,可能会变成阅读那本旧书的轻微的(可能仅是一瞬)被调整版本,只觉得它不太符合自己的记忆。

这并不是假设。这个月,畅销书作家艾琳·希尔德布兰德(Elin Hilderbrand)出版了一本新小说。这部小说受到评论界的广泛赞誉,其中有一段对话,一个角色对另一个角色开了一个狡猾的玩笑,说他在南塔克特岛的阁楼上度过夏天,“就像安妮·弗兰克一样。”一些读者在社交媒体上批评人物之间的这段话是反犹太主义的。作者试图解释这个人物使用的比喻无果,然后便表示道歉,并说她已要求出版商立即从该书的数字版本中删除这段话。

在电子书出版后,有足够多的技术和排版上的改动,以至于出版商本身可能都没有一个简单的记录,来说明它或它的某个作者有多少次被要求修改已经出版的内容。近25年前,我帮助温迪·塞尔泽(Wendy Seltzer,律师及互联网专家)建立了一个网站,现在叫 “路明”(Lumen),跟踪从加州大学到互联网档案馆到维基百科、推特和谷歌等机构提出的修改要求——通常是通过点击由网站发布的链接而发现声称的版权侵犯行为。因此,“路明”使我们更有可能了解到,由于外界的需求或要求,在谷歌的网络搜索中,有哪些内容被遗漏或改变。

例如,由于该网站对删除以及删除要求的来源和文本的记录,法律教授尤金·沃洛赫(Eugene Volokh)能够识别出一些带有欺诈性文件的删除要求——在他审查的提交给谷歌的700份“法院命令”中,有近200份显然是由修图软件制作的。

此后,德克萨斯州总检察长起诉了一家公司,因为它经常向谷歌提交这些伪造的法院命令,以达到强制删除内容的目的。谷歌与路明的关系纯粹是自愿的——YouTube与谷歌一样,拥有母公司Alphabet,目前并没有发送通知。通过其他公司——如图书出版商和亚马逊等分销商——进行的删除行为并不公开。

Kindle的兴起指出,即使是链接这个概念——“统一资源定位器”,即URL——也面临着巨大的压力。由于Kindle图书不在万维网上,因此没有指向某个特定页面或段落的URL。其余大量的移动应用程序中的内容也是如此,人们只能通过屏幕截图进行传播,或者像《大西洋月刊》的凯特琳·蒂凡尼(Kaitlyn Tiffany)所说的那样,由“互联网的小精灵们”作为传递内容的一种方式。

以下是法律教授亚历山德拉·罗伯茨(Alexandra Roberts)提供的一份地方法院意见书是如何指向一个抖音(TikTok)视频的:“2020年5月的抖音视频以可逆章鱼玩偶为主题,现在有超过110万个赞和780万次浏览。该视频可以通过:Girlfriends mood #teeturtle #octopus #cute #verycute #animalcrossing #cutie #girlfriend #mood #inamood #timeofmonth #chocolate #fyp #xyzcba #cbzzyz #t(位于tiktok.com)等标签内找到。”

这带我们回到一个事实:长期写作,包括官方文件,可能经常需要指向短期的、非正统的来源,以确定他们的意思,而这样做的手段正在我们眼前瓦解(或者更糟的是,完全没人注意到)。即使是长期的、经典的来源,如书籍和学术期刊,也处于顽固的配置中——通常是为了保持建立于稀缺性上的数字订阅模式——这就无法依靠预备好的长期链接,甚至在它们的物理对应物消失的时候。

保护和发展我们的知识轨道的项目,包括其所有的蜿蜒曲折和错误的起源,就这样成为本该加强它们的数字革命的灾难性成功的受害者。出于完全可以理解的原因,本可以使人类的知识生产为所有人所用的工具却偏偏变成了一个不断变化的 “当下”,在那里,没有简单的方法可以为后人引用许多资料,而那些可以引用的资料又太容易改变。

同样,我们的互联网这种难求的、古怪的架构之所以取得惊人的成功,是因为作出了一个明智的决定,即见好就收,宁求宽泛而不求具体。我曾钦佩地称其为“拖延原则”,即一个优雅的网络设计不会因为试图为解决每一个可能在未来出现的问题而变得过分复杂。我们在维基百科中看到了这一原则,它最初的宣传似乎很荒谬:“我们可以通过允许世界上任何一个人创建新的页面,以及世界上任何一个人顺便修改它,来产生一个详尽的、基本可靠的百科全书。”

人们很自然地会问,什么会促使人们对这样的事物做出建设性的贡献,以及对无知或恶意的编辑会有什么防御措施。如果维基百科获得了足够多的活动和使用量,难道不会有一些二流的供应商开始将每篇文章变成劳力士手表的垃圾广告?

的确,维基百科受到过破坏行为的影响,但随着时间的推移,其维护的社区已经开发出了处理这些问题的工具和做法,而它们在维基百科创建时并不存在。如果这些工具和做法过早实施,启动和编辑页面的额外障碍可能会阻碍许多让维基百科开始运作的贡献。拖延原则得到了回报。

同样,网络发明者蒂姆·伯纳斯·李(Tim Berners-Lee)也没有想到要根据任何真实性、可靠性或……其他标准来审查新建立的网站。人们可以建立和提供任何他们想要的东西,只要他们有硬件和连接能力来设立一个网络服务器,其他人则可以自由地访问该网站,或者随意地忽略它。网站会来来去去,个别网页可能被重新排列,这是一个特点,而不是一个错误。

就像互联网虽然可以被构造成一个大型的CompuServe,由中央调解,但它没变成这样,网络可以有任意数量的功能来更好地保证持久性和来源。超文本的发明者泰德·尼尔森(Ted Nelson)的Xanadu项目考虑了所有这些和更多情况,包括“双向链接”,每当有人选择链接到一个网站时,就会提醒该网站。但Xanadu从未建成。

正如拖延者所知道的那样,以后并不意味着永远,互联网和网络的灵活性所带来的好处——包括允许在其上建立完全拒绝URL概念的围墙式程序商店——现在对更大的构造性企业来说是有很大风险和代价的,用谷歌早期的话说,就是“组织世界上的信息,使其可被任何人接近并使用。”

谷歌的创始人谢尔盖·布林(Sergey Brin )和拉里·佩奇(Larry Page)的想法很高尚,高尚到把它委托给一家公司,而不是社会上被长期磨练的机构,如图书馆,是对它不公平的。

事实上,当谷歌的创始人第一次发布描述他们所发明的搜索引擎的论文时,他们在附录中提到了“广告和混合动机”,结论是“广告问题引起了足够多的混合动机,因此拥有一个透明的、处于学术领域的竞争性搜索引擎是至关重要的。”在2021年不存在这样透明的、学术性的竞争性搜索引擎。通过使信息的存储和组织成为每一人或者说无一人的责任,互联网和网络可以增长,空前地扩大访问量,但同时使任何一切的信息在我们依赖它的许多情况下变得脆弱而不是更强大。

Photo by C M on Unsplash 

我们要如何应对我们所处的危机?

没有人比布鲁斯特·卡勒(Brewster Kahle)更敏锐地意识到互联网的短暂性问题,他是一位技术专家,在1996年创立了互联网档案馆,作为一项非营利性的计划来保存人类的知识,尤其是包括网络。布鲁斯特曾开发了一个名为WAIS的网络先驱,然后是一个名为Alexa的网络流量测量平台,其最终被亚马逊收购。那次销售使布鲁斯特个人有能力提供资助互联网档案馆的初始运作,包括回溯机(Wayback Machine),专门用于收集、保存和提供网页,即使它们已经消失。它通过挑选多个入口点来开始“搜刮”网页的内容,并保存其内容,而不仅仅是在浏览器中显示片刻,然后在这些网页和这些网页的链接页面上尽可能多地追踪连续性的链接。

会有像布鲁斯特这样一个有公民意识的公民站出来,而不是由我们现有的机构操作,这不是巧合。部分原因是潜在的法律风险,这些风险往往会减缓或阻止这些成熟的组织行动。

抓取、存储和展示网络的版权问题起初并没有得到解决,一般来说,这种行为要么会留给那些可以低调处理的人,他们只为自己保存他们所抓取的东西;要么留给像搜索引擎这样的庞大且强力的商业机构,他们的商业模式需要使他们只显示最新的、活跃的网页,这是他们工作的核心;要么留给具有创业心态和很少损失的技术型人才。

后者的一个例子是Clearview AI的工作,在那里,一个狡猾的企业家从脸书、领英和Instagram等社交网站收集了数十亿张图片和标签,以建立一个能够识别几乎任何照片或视频片段的面部识别数据库。

布鲁斯特表面上也属于这一类,但本着互联网和网络发明者的精神,他所做的事情是因为他相信自己行为的高尚性,而不是它的经济潜力。回溯机的方法是尽可能多地保存,而在实践中,这意味着每隔一段时间就有很多东西。这是至关重要的工作,它应该得到更多的支持,无论是政府补贴还是更多的基金会支持。互联网档案馆是麦克阿瑟基金会 “100与变革”计划的半决赛选手,该计划向有价值的事业单独颁发1亿美元。

通过独立搜刮“保存一切”的一个补充方法是,无论谁在创建一个链接时,都要确保在链接时保存一份副本。我共同创办的伯克曼·克莱因互联网与社会中心(Berkman Klein Center for Internet & Society)的研究人员,用一个名为Amberlink的开源软件包设计了这样一个系统。互联网和网络邀请任何形式的额外建设,因为没有人正式批准新的补充内容。

Amberlink可以在一些网络服务器上运行,使其在Amberlink授权的服务器上的网页初次包括该链接时,可以捕捉到链接末端的内容。然后,当有人点击一个经过Amber调整的网站上的链接时,即使原来的目的地不再可用,也有机会看到网站在该链接上捕获的内容。谷歌等搜索引擎也有这个功能——你通常可以要求查看搜索引擎从搜索结果页面链接的网页的“缓存”副本,而不是按照链接自己去看网站)。

Amber是一个由某网站对其链接的另一个不相关的网站进行存档的例子。网站也有可能自己存档以延长其寿命。2020年,互联网档案馆宣布与一家名为Cloudflare的公司合作,流行的或有争议的网站使用Cloudflare,以更有弹性地抵御坏人进行的拒绝服务(DNS)攻击,这些攻击可能使网站对所有人都不可用。启用“永远在线”服务的网站将看到它们的内容被回溯机自动存档,如果Cloudflare无法连接上原来的主机,互联网档案馆保存的页面副本将自动取代它。

这些方法通常都有效,但它们并不总是具体有效。当司法意见、学术文章或社论专栏指向一个网站或网页时,作者往往有一些非常独特的想法。如果该页面正在发生变化——我们无法知道它是否会发生变化——那么,如果最近的页面副本是在2017年或2024年存档的,那么2021年的页面引用就不可靠了。

通过从布鲁斯特的工作中获得灵感,并实际与互联网档案馆合作,我与哈佛大学图书馆创新实验室的研究人员合作,创办了Perma。Perma是一个由150多家图书馆组成的联盟。持久性文件的作者——包括学术论文、报纸文章和司法意见——可以要求Perma将其中引用的链接转换为永久的链接,存档在http://perma.cc;参与的图书馆将在这些链接中发现的快照视为其收藏品,并承诺无限期地保存它们。

反过来,研究人员马丁·克莱恩(Martin Klein)、肖恩·琼斯(Shawn Jones)、赫伯特·范·德·森佩尔(Herbert Van de Sompel)和迈克尔·尼尔森(Michael Nelson)已经完善了一项名为Robustify的服务,允许将任何来源的链接档案,包括Perma,纳入新的“双重用途”链接,以便它们可以指向一个当下有效的页面,同时在原始页面失效时提供一个存档的替代品。这可以使来自各种档案的链接快照形成一个滚动的目录——一个网络化的历史,它既能以互联网的方式谨慎分布,又能由为这一重要的公共利益目的而存在的长期机构——图书馆来指导。

一个技术基础设施,让作者和出版商能够保存他们所引用的链接,是一个必要的开始。但数字可塑性的问题超出了技术层面。在允许对侵权行为的补救范围——无论是版权等经济性权利,还是诽谤等个人尊严性权利——随着改变已出版内容的难度增加而自然扩大之前,法律应该三思而后行。

对损害的赔偿,或增加纠正性材料,应该比悄悄的追溯性修改更受青睐。出版商应该制定明确的原则性政策,反对在公众压力下进行这种改变,因为这种改变并不符合法律规定的侵权行为。而且,在很多情况下,出版商也应该顶住法律压力。

在某些情况下,追溯性更正的好处——想象一下修正食谱比例中的印刷错误,或者屏蔽出于骚扰目的而分享的某人的电话号码——应该与受害的人或公司决意要求修改的系统性长期前景相联系,这些要求会侵蚀公共记录。公众希望看到改变的内容,或者至少知道已经做出了改变以及改变的原因,既是合法的,也该是分散的。因为它是分散的,所以很少有人能够代表它发言。

在审查制度被认为是正确做法的时候,应该对被修改的内容进行细致的记录。这些记录应该向公众开放,就像路明会对谷歌搜索中的版权删除要求记录一样,除非这种开放性违背了删减的目的。例如,到目前为止,当谷歌在网络搜索中删除有关某人的负面条目时,它并没有向鲁明报告,以免公众仅仅是通过鲁明查询,看到那些根据欧洲法律被认定为过度拖累某人声誉的材料(这与公众的知情权相平衡)。

在这些情况下,应该有一种记录手段,虽然公众无法只点击几下就能找到,但想要了解在线审查动态的研究人员应该可以获得这类信息。约翰·鲍尔斯(John Bowers)、伊莱恩·塞登伯格(Elaine Sedenberg)和我已经描述了这该如何实现,建议图书馆可以再次作为公共和私人在线审查行动的半封闭式档案馆。我们可以建立德国人所说的“礼物柜”,和一个包含危险作品的“毒药柜”,但这些作品在某些情况下还是应该被保存和被接触到。(艺术模仿生活:在《哈利·波特》的世界里有一个“禁区”,在《魔术师》的电视改编中也有一个恰如其分的 “毒药室”。)

通过假装它们从未发生过来掩盖错误确实很诱人。我们现在的技术也使之变得惊人的简单,我们应该建立一个少一点效率,多一点惰性——正如印刷文本的特性本就充满了足够的惰性。即使是最高法院也不排除对其法令中的不准确之处进行一些追溯性的调整。正如法律教授杰弗里·费舍尔(Jeffrey Fisher)在我们的同事理查德·拉扎勒斯(Richard Lazarus)发现变化后所说:“在最高法院的意见中,每个字都很重要……当他们改变意见的措辞时,他们基本上是在改写法律。”

在一个不可估量的更小的范围内,如果这篇文章有一个错误,我们都应该希望在底部有一个作者或编辑的说明,指出在哪里进行了更正以及为什么,而不是那种悄悄的修改。至少,在我知道这个错误可能有多尴尬之前,我希望有这样的说明,这就是为什么我们要设计基于原则的系统,而不是试图在当下进行导航。

如果社会不能对自己诚实,它就不能理解自己,如果它只能生活在当下,它就不能对自己诚实。我们早就应该肯定并制定政策和技术,让我们看到我们已经去过的地方,特别是要包括我们曾犯过的错误,这样我们就可以对我们在哪里以及我们想去哪里有个一致的认识。