回程机

Article

July 5, 2022

Wayback Machine 是万维网的数字档案,由位于加利福尼亚州旧金山的非营利组织 Internet Archive 创建。它创建于 1996 年并于 2001 年向公众推出,它允许用户“回到过去”并查看网站过去的样子。它的创始人 Brewster Kahle 和 Bruce Gilliat 开发了 Wayback Machine,通过保存已失效网页的存档副本来提供“对所有知识的普遍访问”。Wayback Machine 于 1996 年 5 月 10 日推出,最终拥有超过 3820 万条记录2009年,2022年6月,机器保存了超过6980亿个网页。每天添加超过一百万个网页。 1996 年,互联网档案馆的创始人布鲁斯特·卡勒 (Brewster Kahle) 和麻省理工学院 (MIT) 的研究生布鲁斯·吉利亚特 (Bruce Gilliat) 开发了 Wayback Machine,作为创建普遍可访问的数字图书馆的工具,支持互联网档案馆的使命:普遍获取所有知识。

历史

Wayback Machine 于 1996 年开始存档缓存的网页。已知最早的页面之一保存于 1996 年 5 月 10 日下午 2:42 Internet Archive 创始人 Brewster Kahle 和 Bruce Gilliat 于 2001 年 10 月在加利福尼亚州旧金山推出了 Wayback Machine ,主要是为了解决网页内容在更改或网站关闭时消失的问题。该服务使用户能够跨时间查看网页的存档版本,存档称为“三维索引”。 Kahle 和 Gilliat 创造了这台机器,希望能够归档整个互联网并提供“对所有知识的普遍访问”。 “Wayback Machine”这个名字是指一种虚构的时间旅行和翻译设备,即“Wayback Machine”,由动画片《洛基历险记》和《Bullwinkle and Friends》中的角色皮博迪先生和谢尔曼使用。在动画片的一个片段“皮博迪不可能的历史”中,角色们使用机器来见证、参与并经常改变历史上的著名事件。 从 1996 年到 2001 年,信息保存在数字磁带上,Kahle 偶尔允许研究人员和科学家利用“笨重”的数据库。当档案在 2001 年成立五周年时,它在加州大学伯克利分校的一个仪式上揭幕并向公众开放。到 Wayback Machine 推出时,它已经包含超过 100 亿个存档页面。数据存储在 Internet Archive 的大型 Linux 节点集群中。它有时会重新访问和存档新版本的网站(请参阅下面的技术细节)。也可以通过在搜索框中输入网站的 URL 来手动捕获站点,前提是该网站允许 Wayback Machine “抓取”并保存数据。2020 年 10 月 30 日,Wayback Machine 开始对内容进行事实检查。自 2022 年 1 月起,禁止捕获广告服务器的域。在 Internet Archive 成立 25 周年之际,Wayback Machine 推出了“Wayforward Machine”,允许用户“在 2046 年前往互联网,那里的知识受到围攻”。

技术信息

已经开发了用于“爬取”Web 并下载网页、Gopher 层次结构、Netnews (Usenet) 公告板系统和可下载软件上的所有可公开访问的信息和数据文件的软件。这些“爬虫”收集的信息不包括互联网上的所有可用信息,因为大部分数据受到发布者的限制或存储在无法访问的数据库中。为了克服部分缓存网站的不一致性,Archive-It.org 由 Internet Archive 于 2005 年开发,作为允许机构和内容创建者自愿收集和保存数字内容集合并创建数字档案的一种方式。来源,一些从第三方进口,另一些由档案馆内部生成。例如,