Wayback机器

Wayback机器
Stylized text saying: "INTERNET ARCHIVE WAYBACK MACHINE". The text is in black, except for "WAYBACK", which is in red.
站点类型
档案
建立
  • 1996年5月10日(私人)
  • 2001年10月24日(公共)
提供的区域 全球(中国,俄罗斯印度巴林除外
所有者 互联网档案
URL Web .archive .org
商业的
登记 选修的
当前状态 积极的
写在 HTMLCSSJavaScriptJavaPython

Wayback Machine是位于加利福尼亚州旧金山的非营利组织Internet Archive创立的万维网数字档案。它创建于1996年,并于2001年向公众推出,允许用户“回到过去”,以查看网站过去的样子。它的创始人布鲁斯特·卡尔(Brewster Kahle)布鲁斯·吉利亚特(Bruce Gilliat )通过保存已停产的网页的存档副本来开发Wayback机器,以提供“通用访问所有知识”。

Wayback机器于1996年5月10日推出,于2009年底节省了超过382亿个网页。截至2024年1月3日,Wayback Machine已存档超过8600亿个网页,并且超过99 pb的数据。

历史

Wayback Machine于1996年开始存档缓存的网页。最早已知的页面之一于1996年5月10日(UTC)归档。

Internet档案创始人Brewster KahleBruce Gilliat于2001年10月在加利福尼亚州旧金山推出了Wayback Machine,主要是为了解决Web内容的问题消失时,每当它更改或关闭网站时。该服务使用户可以在跨时间看到网页的存档版本,该版本将其称为“三维索引”。卡尔(Kahle)和吉利亚特(Gilliat)创建了这台机器,希望归档整个互联网并提供“通用所有知识的访问”。 “ Wayback Machine”的名称是对虚构的时光旅行和翻译设备的引用,即“ Wayback Machine ”,由角色Peabody先生和Sherman在动画卡通中使用,The Animated Cartoon The Rocky and Bullwinkle and Friends的冒险经历。在卡通的一部分“皮博迪的不可能的历史”中,这些角色使用机器见证,参与并经常改变历史上的著名事件。

从1996年到2001年,该信息保存在数字磁带上,Kahle偶尔允许研究人员和科学家利用“笨拙”的数据库。当档案馆于2001年达到五周年纪念日时,它在加利福尼亚大学伯克利分校的仪式上向公众开放并向公众开放。到了Wayback机器推出时,它已经包含超过100亿个存档的页面。数据存储在Internet存档的大型Linux节点集群上。它有时会重新访问和档案新版本的新版本(请参见下面的技术详细信息)。也可以通过将网站的URL输入到搜索框中,但可以手动捕获网站,前提是该网站允许Wayback Machine“网”并保存数据。

2020年10月30日,Wayback机器开始对内容进行事实检查。截至2022年1月,广告服务器的域被禁止捕获。

2021年5月,对于Internet Archive成立25周年,Wayback机器引入了“ Wayforward Machine”,该机器允许用户“在2046年访问Internet,其中知识正在围困”。

技术信息

Wayback Machine的软件已开发为“网”网络并在网页, Gopher层次结构, Netnews (Usenet)公告板系统和可下载软件上下载所有公开访问的信息和数据文件。这些“爬行者”收集的信息不包括Internet上可用的所有信息,因为许多数据受到发布者的限制或存储在无法访问的数据库中。为了克服部分缓存的网站上的不一致之处,Archive-it.org于2005年由Internet Archive开发,作为允许机构和内容创建者自愿收获并保留数字内容的集合并创建数字档案的手段。

爬网是从各种来源造成的,其中一些是从第三方进口的,而另一些则由档案馆内部产生。例如,爬网是由斯隆基金会(Sloan Foundation)阿列克萨(Alexa)贡献的,这是由互联网档案代表NARA运行的爬网和互联网记忆基金会(Internet Memory Foundation) ,这是Common Crawl的镜子。自2010年以来,“全球网络爬网”一直在运行并捕获全球网络。

文档和资源存储在20240115020851等时间戳URL中。页面的单个资源(例如图像,样式表和脚本)以及外向超链接与当前查看页面的时间戳相连,因此它们会自动重定向到最接近时间的单个捕获。

每个网站的快照捕获频率各不相同。 “全球网络爬网”中的网站包含在“爬网列表”中,每个爬网都存档了该网站。爬网可能需要数月甚至数年的时间才能完成,具体取决于尺寸。例如,“宽爬网13”于2015年1月9日开始,并于2016年7月11日完成。但是,任何一次都可能有多次爬网,并且一个网站可能包含在一个以上的爬网列表中,因此,爬网的爬行频率差异很大。

从2019年10月开始,用户每分钟限制15个档案请求和检索。

存储能力和增长

随着技术多年的发展,Wayback机器的存储容量已经增长。在2003年,仅两年的公共访问权限,Wayback机器以每月12吨的速度增长。数据存储在由Internet存档员工设计的Petabox机架系统上。第一个100TB机架在2004年6月开始全面运行,尽管很快就显然他们需要的存储空间要多得多。

Internet存档将其自定义的存储架构迁移到2009年的Sun Open Storage ,并在Sun Microsystems的California Campus上的Sun Modular DataCenter中托管了一个新的数据中心。截至2009年,Wayback机器包含大约三个数据的数据,并且每月以100的速度增长。

Wayback机器的新版本,具有更新的接口和一个新鲜的归档内容索引,并在2011年提供了公共测试,在日历布局中捕获带有圆圈,其宽度每天可视化爬网的数量,即但是没有使用星号或高级搜索页面对重复项进行标记。添加顶级工具栏,以方便在捕获之间导航。条形图可视化多年来每月捕获的频率。随后添加了诸如“更改”,“摘要”和图形站点图之类的功能。

在那年3月,在Wayback Machine论坛上说:“新的Wayback Machine的Beta具有更完整和最新的索引到2010年,并将继续定期更新。索引驾驶经典的Wayback机器在2008年之前只有一点材料,并且没有计划更新,因为它将在今年逐步淘汰。”同样在2011年,Internet档案安装了他们的第六对PETABOX架子,这将Wayback机器的存储容量增加了700吨。

2013年1月,该公司宣布了一个有2400亿个URL的开创性里程碑。

2013年10月,该公司引入了“保存页面”功能,该功能允许任何Internet用户归档URL的内容,并迅速生成永久链接,与前面的LiveWeb功能不同。

2014年12月,Wayback Machine包含4350亿个网页,几乎是9 potabytes数据,每周增长约20吨。

据报导,2016年7月,Wayback机器包含大约15粒数据。

2018年9月,Wayback Machine包含了25次数据。

截至2020年12月,Wayback机器包含70多个数据。

截至2024年1月,互联网档案证明,到目前为止,已经存储了超过99 pb的数据。

Wayback机器的增长
逐年的回腰机 页面存档
2004
30,000,000,000 (0-100B:浅蓝色)
2005
40,000,000,000
2008
85,000,000,000
2012
150,000,000,000 (100B-450B:黄色)
2013
373,000,000,000
2014
400,000,000,000
2015
452,000,000 (450B-600B:橙色)
2016
459,000,000,000
2017
279,000,000,000
2018
310,000,000,000
2019
345,000,000,000
2020
405,000,000,000
2021
514,000,000,000
2022
640,000,000,000 (600B-:红色)

Wayback机器API

Wayback Machine Service提供三个公共API,SavePagenow,可用性和CDX。 SavePagenow可用于存档网页。可用性API用于检查网页的存档可用性状态,检查网页的存档是否存在。 CDX API用于捕获数据的复杂查询,过滤和分析。

网站排除政策

从历史上看,Wayback Machine在确定网站是否会被爬行时尊重机器人排除标准(Robots.txt),或者如果已经爬了,是否已爬行,是否可以公开查看其档案。网站所有者可以选择通过使用Robots.txt选择退出Wayback Machine。它追溯地应用了robots.txt规则;如果网站阻止了互联网档案,则立即将任何先前从域中存档的页面渲染出来。此外,互联网档案馆说:“有时,网站所有者会直接与我们联系,并要求我们停止爬行或归档网站。我们遵守这些请求。”此外,该网站还说:“互联网档案馆对保存或提供对不希望其材料在收藏中的材料的人的网站或其他互联网文件的访问不感兴趣。”

2017年4月17日,报导浮出水面已停用的网站,并成为使用Robots.txt将自己排除在搜索引擎之外的停放域,导致它们被无意中排除在Wayback Machine之外。 Internet存档将策略更改为现在需要明确的排除请求,以将其从Wayback机器中删除。

奥克兰档案政策

Wayback的追溯排除政策部分基于有关管理删除请求和保存档案完整性的建议。 Wayback遵守了这项政策,以帮助避免昂贵的诉讼。

Wayback追溯排除政策在2017年开始放松,当时它停止尊重美国政府和军事网站上的机器人,以爬行和显示网页。截至2017年4月,Wayback更广泛地忽略了Robots.txt,而不仅仅是美国政府网站。

用途

从2001年的公开发布开始,Wayback机器已经由学者研究了其存储和收集数据的方式以及其存档中包含的实际页面。截至2013年,学者在Wayback机器上写了大约350篇文章,主要来自信息技术,图书馆科学和社会科学领域。社会科学学者已经使用Wayback机器来分析从1990年代中期到现在的网站开发如何影响公司的增长。

当Wayback机器归类一个页面时,它通常包括大多数超链接,在这些链接很容易被Internet的不稳定中折断时保持活跃。印度的研究人员研究了Wayback机器在在线学术出版物中节省超链接的能力的有效性,并发现它节省了一半以上。

“记者使用Wayback Machine查看死去的网站,日期的新闻报导以及对网站内容的更改。其内容已用于使政客负责并揭露战场的谎言。” 2014年,乌克兰分离主义的叛军领导人伊戈尔·吉尔金(Igor Girkin)的一个存档社交媒体页面显示,他吹嘘自己的部队击落了一架涉嫌乌克兰军事飞机,然后才知道这架飞机实际上是一架平民马来西亚航空公司(马来西亚航空公司) 17号航班),之后,他删除了该职位,并指责乌克兰的军队击倒了飞机。 2017年,《科学三月》源自关于Reddit的讨论,该讨论表明有人访问了Archive.org,并发现所有关于气候变化的参考均已从白宫网站删除。作为回应,用户评论说:“需要在华盛顿上进行科学家的游行”。

此外,该站点被大量用于验证,可提供Wikipedia编辑者对参考和内容创建的访问。

2020年9月,宣布与CloudFlare建立合作伙伴关系,将通过其“始终在线”服务自动归档网站,如果无法到达原始主机,它也将允许其引导用户进入其网站的副本。

限制

在2014年,网站被爬行到可以在Wayback机器中查看的时间之间有六个月的滞后时间。目前,滞后时间为3到10个小时。 Wayback Machine仅提供有限的搜索设施。它的“站点搜索”功能使用户可以根据描述站点的单词找到一个站点,而不是在网页本身上找到的单词。

Wayback Machine由于其Web爬网的局限性而没有包含所有网页。 Wayback Machine无法完全存档包含交互式功能的网页,例如Flash平台和JavaScript和Progressive Web应用程序编写的表格,因为这些功能需要与主机网站进行交互。这意味着,自2013年7月9日以来,Wayback机器在保存视频的手表页面时无法显示YouTube评论,因为根据档案团队的说法,评论不再“加载到页面本身中”。 Wayback Machine的Web抓刀很难提取在HTML或其一种变体中未编码的任何内容,这通常会导致超链接和缺失的图像破裂。因此,Web爬网无法存档其他页面与其他页面无关的“孤儿页”。 Wayback Machine的爬网仅根据预设深度限制遵循预定数量的超链接数,因此它不能存档每个页面上的每个超链接。

在法律证据中

民事诉讼

Netbula LLC诉Chordiant Software Inc.

在2009年的案例中, Netbula,LLC诉Chordiant Software Inc. ,被告Chordiant提出了一项动议,以强迫Netbula在其网站上禁用Robots.txt文件,该文件正在导致Wayback Machine追溯删除对以前版本的页面的访问Chordiant认为会支持其案件的页面从Netbula的网站上存档。

Netbula反对该动议,理由是被告要求更改Netbula网站,并且他们应该直接向这些页面进行互联网档案。互联网档案馆的一名员工提出了支持Chordiant动议的宣誓声明,并指出,它无法通过任何其他方式产生网页,“没有巨大的负担,费用和破坏其运营。”

加利福尼亚州北区圣何塞分部的地方法官霍华德·劳埃德(Howard Lloyd)拒绝了Netbula的论点,并命令他们禁用机器人。TXT暂时阻塞,以便Chordiant允许Chordiant检索他们所寻求的存档页面。

Telewizja Polska USA,Inc。诉Echostar卫星

在2004年10月的案例中, Telewizja Polska USA,Inc 。诉Echostar卫星,第02 C 3293号,65 Fed。 R. Evid。服务。 673(ndIll。2004年10月15日),一名诉讼人试图将Wayback机器档案作为可接受证据的来源,也许是第一次。 Telewizja Polska是TVP Polonia的提供商, Echostar运营着DIST网络。在审判程序之前,Echostar表示,它打算提供Wayback Machine快照,以证明Telewizja Polska网站的过去内容。 Telewizja Polska提出了一项动议,以传闻和未经身份验证的来源来抑制快照,但地方法院法官Arlander Keys拒绝了Telewizja Polska对传闻的主张,并否认TVP在Limine中拒绝了TVP的动议,以在试验中排除证据。然而,在审判中,审判法官罗纳德·古兹曼(Ronald Guzman)否决了地方法院钥匙的调查结果,并认为互联网档案员工的宣誓书和基本页面(即,telewizja polska网站)都不是可接受的。古兹曼法官认为,该员工的誓章既包含传闻和尚无定论的支持陈述,又包含所谓的网页,打印输出并非自修。

专利法

美国专利商标局欧洲专利局将接受互联网档案中的日期邮票,以证明何时可以向公众访问给定的网页。这些日期用于确定在检查专利应用程序时是否可以作为先前的艺术品可用。

实用程序的局限性

归档网站存在技术限制,因此,诉讼中的反对党可能会滥用网站档案提供的结果。当不暴露基础链接时,在投诉,答案或专家证人报告中提交网页屏幕截图的做法可能会加剧此问题,因此可能包含错误。例如,诸如Wayback Machine之类的档案不会填写表格,因此,在其档案中不包括非静止电子商务数据库的内容。

法律地位

在欧洲,Wayback机器可以解释为违反版权法。只有内容创建者才能确定其内容的发布或重复的位置,因此档案中必须应创建者的要求从其系统中删除页面。 Wayback机器的排除政策可以在网站的FAQ部分中找到。

某些情况是针对Internet档案馆的,专门针对其Wayback机器归档工作。

存档的内容法律问题

科学学

2002年底,Internet档案馆删除了Wayback Machine对科学学批评的各种站点。一条错误消息指出,这是对“站点所有者的请求”的回应。后来,有人澄清说,科学教会的律师要求撤职,并且现场所有者不希望将其材料删除。

医疗保健倡导者公司

2003年,Harding Earley Follmer&Frailey使用Archive的Wayback机器为客户辩护。律师能够证明原告提出的索赔是根据其网站前几年的内容而无效的。原告,医疗保健倡导者,然后修改了他们的投诉,包括互联网档案,指控组织侵犯版权以及违反DMCA和《计算机欺诈与滥用法》 。医疗保健的拥护者声称,由于他们已经在其网站上安装了一个机器人。txt文件,即使在提起初始诉讼后,档案中也应该从Wayback Machine上删除原告网站的所有以前的副本,但是,一些材料继续继续进行。在Wayback上公开可见。诉讼解决了问题,该诉讼已在法庭上解决。

苏珊·壳

激进主义者Suzanne Shell于2005年12月提起诉讼,要求互联网档案支付100,000美元归档她的网站Profane-justice.org在1999年至2004年之间2006年1月20日,寻求司法确定互联网档案并不侵犯壳牌的版权。壳牌作出了回应,并带来了针对互联网档案馆的反诉讼,以归档她的网站,她声称这违反了她的服务条款。 2007年2月13日,科罗拉多州美国地方法院的法官驳回了除违反合同外的所有反诉。互联网档案并未驳回因其复制活动而宣称的壳牌侵犯版权索赔,这也将继续进行。

2007年4月25日,Internet Archive和Suzanne Shell共同宣布了他们的诉讼解决。互联网档案馆说:“……不希望在不希望将网络内容存档的人的Wayback机器中加入材料。我们认识到,Shell女士在她的网站中具有有效且可执行的版权,我们遗憾的是,将她的网站纳入Wayback Machine导致了这一诉讼。”壳牌说:“我尊重互联网档案的目标的历史价值。我从来没有打算干扰这个目标,也不造成任何伤害。”

丹尼尔·戴维迪克(Daniel Davydiuk)

在2013年至2016年之间,一位名叫Daniel Davydiuk的色情演员试图将自己的存档图像从Wayback Machine的档案中删除,首先是通过向档案馆发送多个DMCA请求,然后向加拿大联邦法院提出上诉。然后,这些图像最终在2017年从网站上删除。

灵活

2018年, Stalkerware应用程序的档案弹性弹性的网站被从Wayback机器中删除。该公司声称已经联系了互联网档案馆,大概是为了删除其网站的档案。

审查制度和其他威胁

Archive.org在中国被阻塞。 2015 - 16年度,互联网档案在俄罗斯的整体上被封锁,表面上是主持圣战外展视频。自2016年以来,该网站已经回来了,尽管在2016年,俄罗斯商业游说者正在起诉互联网档案,以根据版权理由禁止该档案。

2015年3月,有消息称,安全研究人员意识到该部门无意中托管归档现场的恶意二进制文件所带来的威胁。

图书馆自由项目主任艾莉森·马克琳娜(Alison Macrina)指出,“尽管图书馆员对个人隐私深表珍视,但我们也强烈反对审查制度”。

至少有一个情况下,将其从其原始网站删除后不久将其从档案中删除。每日野兽记者写了一篇文章,该文章在2016年在约会应用程序上以同性恋者的身份摆姿势,于2016年发表了几名同性恋奥林匹亚运动员。每日野兽与广泛的愤怒相遇后,将其删除。不久之后,互联网档案也很快也做了,但强调说,除了保护外出运动员的安全外,他们没有其他原因这样做。

其他威胁包括自然灾害,破坏(远程或物理),对档案内容的操纵(另请参阅:网络攻击备份),有问题的版权法和对网站用户的监视。

Long Now Foundation的执行董事亚历山大·罗斯(Alexander Rose)怀疑,从长远来看,几代人几乎没有任何东西”将以有用的方式生存,并指出:“如果我们在技术文明中具有连续性,我怀疑很多裸露的数据将保持可搜索和可搜索。

在一篇关于人类知识保存的文章中,大西洋评论说,互联网档案描述为长期建立的互联网档案。的。”

也可以看看