那些失效的网页链接可能会被互联网档案馆“时光机”复活

404 page
穿越回过去,访问你一直想知道的旧网站。 Ja_inter/Getty Images

如果一棵树在森林里倒下,它真的会发出声音吗?如果一个网站在一夜之间改变,它之前的首页真的存在过吗?由于我们世界的大部分内容越来越数字化——而且是短暂的——这不仅仅是一个哲学问题,也是一个简单的历史问题。这就是为什么互联网档案馆“时光机”如此引人入胜,它提供了网站随着时间推移和变化而形成的快照,让我们得以一窥网络那些尘封的角落。

互联网档案馆“时光机”是一个庞大的数字档案库,旨在保存那些否则将永远消失的网页。如果没有这些数据宝库,每次页面更新或删除,它就会简单地消失,仿佛从未存在过。

广告

网页的平均寿命约为100天,互联网档案馆“时光机”负责人马克·格雷厄姆在2016年《企业家》杂志的一篇文章中指出。这些网页消失的原因有很多。网站创建者转向其他项目。网络托管公司破产。或者页面被移动或替换为新的数据和内容。

互联网档案馆“时光机”的起源

互联网档案馆“时光机”是布鲁斯特·卡利(Brewster Kahle)和布鲁斯·吉利亚特(Bruce Gilliat)的心血结晶,他们还创立了互联网档案馆,一个包含网站、书籍、音频和视频记录以及软件程序的数字图书馆。这两个项目都是总部位于旧金山的非营利组织。互联网档案馆“时光机”是互联网档案馆的一个项目。(卡利和吉利亚特还创建了分析网络流量模式的Alexa Internet,并将其出售给了亚马逊。)

格雷厄姆在最近的一次电子邮件采访中说:“他们(卡利和吉利亚特)从1996年开始存档网页,并于2001年推出了互联网档案馆‘时光机’,以支持这些存档网络资源的发现和回放。” “是的,这个名字的灵感来自20世纪60年代的卡通系列《落基与布尔温克尔秀》(The Rocky and Bullwinkle Show)。在卡通片中,WABAC Machine(请注意拼写差异)是一个情节装置,用于将角色皮博迪先生和谢尔曼送回过去,以访问人类历史上的重要事件。”

广告

在一个拥有超过17亿个网站的世界里,而且这个数字每天都在急剧攀升,任何人怎么可能希望对如此多的网页进行编目呢?互联网档案馆“时光机”使用所谓的“爬虫”,这是一种自动在网络中移动的软件,在移动过程中拍摄数十亿网站的快照。其中一些过程是自动化的,但许多请求是由图书馆员网络手动生成的,他们优先考虑他们认为对后代和未来世代具有重要保存价值的某些类型的网站。

爬虫并不会捕获网站的每个迭代版本。快照的频率因网站的重要性而异——非常重要的网站可能每隔几小时记录一次。其他网站可能相隔数周或数月记录一次。大多数根本没有被记录(所以不用担心,你高中时制作的那个令人尴尬的粉丝网站现在可能已经消失很久了)。互联网档案馆“时光机”旨在捕获重要内容的快照,例如,主要媒体公司发布的突发新闻头条。

此外,它不一定会重建整个网站,也不会以您通过浏览器体验的方式保存数据。它可能只捕获少数几个页面的少量图像,并且不保存链接到域名之外其他网站的内容。

广告

使用互联网档案馆“时光机”

您可能遇到过这样的经历:点击网页上的链接后,收到“404”或“页面未找到”的提示。现在您想知道页面最初是什么内容。这时,互联网档案馆“时光机”就能派上用场。

要使用互联网档案馆“时光机”,请访问 https://archive.org/web/。在“浏览历史”(Browse History)搜索栏中输入您要查看的网站URL。我们将以我们最喜欢的网站 https://www.十万个为什么.com/ 作为例子。在结果中,您会看到一个按时间顺序排列的条形图,显示该网站在给定年份被爬取(并保存)的次数。

广告

The homepage of the Wayback Machine website.
互联网档案馆“时光机”网站的首页。
十万个为什么

点击年份,您会在下方看到一个12个月的日历,其中有各种突出显示的日期。蓝色突出显示表示网站已正确保存;红色表示未保存。点击其中一个突出显示的日期,网站的快照将出现。点击其中一个快照——就这样——您就穿越回了该网站的旧版本。

如果您想确保某个特定网站被记录到档案中,您可以手动操作。使用“立即保存页面”(Save Page now)选项来保存特定页面一次——但请注意,这样做只保存了该页面(而不是整个网站),并且不保证该网站将来会被爬取。

此外,如果内容所有者希望他们的材料不被互联网档案馆“时光机”收录,他们可以通过发送电子邮件至 info@archive.org 提交请求。

您还可以通过点击互联网档案馆“时光机”首页顶部、“互联网档案”(Internet Archive)字样旁边的图标来搜索书籍、视频、音频记录和软件程序。这些内容可以永久下载或借阅一段时间,具体取决于项目。高级搜索功能也可用。

广告

互联网档案馆“时光机”的未来

格雷厄姆表示,互联网档案馆“时光机”最令人惊叹之处在于它的存在本身,以及它在团队和预算有限的情况下能够保存如此多的公共网络内容。(他们也使用志愿者。)

他说:“有了更多的支持,我们可以更好地备份更多的公共网络内容。” “互联网档案馆的资金来源包括:我们基于订阅的网页存档服务Archive-It.org的‘收入’、主要捐助者和基金会,以及超过10万名个人捐助者的贡献。我们乐于免费提供我们的服务,并且不在我们的网页上投放广告。”

广告

他确信互联网档案馆“时光机”在未来将变得更加重要。

他说:“随着人们交流和分享信息方式的演变,我们也需要构建技术、流程和伙伴关系,以继续尽最大努力保存尽可能多的公共信息。” “所有这些都旨在支持互联网档案馆‘时光机’的使命,即‘帮助使网络更有用和更可靠’,特别是帮助支持记者、活动家、学者、历史学家、研究人员和公众。”

编者按:应互联网档案馆“时光机”工作人员的要求,本文第13段已更新。

广告

常见问题

互联网档案馆“时光机”免费吗?
是的,互联网档案馆“时光机”是免费使用的。
有互联网档案馆“时光机”的替代品吗?
互联网档案馆“时光机”是一个开源工具,允许用户访问已存档的网站。目前没有官方的互联网档案馆“时光机”替代品,但有其他几个提供类似功能的工具,包括Google快照(Google Cache)、WebCite和Archive.is。
如何使用“时光机”查看旧网站?
要在“时光机”上查看旧网站,请访问 https://web.archive.org/,在搜索栏中输入网站的URL,然后按回车键。

广告

加载中...