Wayback Machine
![]() | |
站点类型 | 档案 |
---|---|
成立 |
|
服务区 | 全球(除了中国和巴林) |
所有者 | 互联网档案 |
URL | 网络 |
商业的 | 不 |
登记 | 可选的 |
当前状态 | 积极的 |
写在 | 爪哇,Python |
这Wayback Machine是数字档案的全球资讯网由互联网档案,一个基于非营利的非营利组织加利福尼亚州旧金山。它创建于1996年,并于2001年向公众推出,允许用户“回到过去”,并查看网站过去的样子。它的创始人,布鲁斯特·卡尔(Brewster Kahle)和布鲁斯·吉利亚特(Bruce Gilliat),开发了Wayback Machine,通过保留已停产网页的存档副本来提供“通用对所有知识的访问”。[1]
1996年5月10日推出的Wayback机器在2009年底发行了超过3820万张。截至2022年11月[更新],Wayback机器节省了超过7800亿个网页。[2]每天添加超过3.5亿个网页。[3]
历史
Wayback机器开始存档缓存1996年的网页。最早的已知页面之一于1996年5月10日在2:08保存下来 下午[4]
互联网档案创始人布鲁斯特·卡尔(Brewster Kahle)和布鲁斯·吉利亚特(Bruce Gilliat)启动了Wayback Machine旧金山,加利福尼亚,[5]2001年10月,[6][7]主要是为了解决Web内容的问题,每当它更改或关闭网站时,它消失了。[8]该服务使用户可以看到网页在时间上,存档称为“三维索引”。[9]Kahle和Gilliat创建了这台机器,希望归档整个Internet并提供“通用所有知识的访问”。[10]名称“ Wayback Machine”是对虚构的时间旅行和翻译设备的引用Wayback Machine”,由人物使用皮博迪先生和谢尔曼在动画卡通中洛矶和牛角的冒险和朋友.[11][12]在卡通的一个部分“皮博迪的不可能的历史”中,这些角色使用机器见证,参与并经常改变历史上的著名事件。
从1996年到2001年,该信息保存在数字磁带上,卡勒偶尔允许研究人员和科学家利用“笨拙”数据库.[13]当档案馆在2001年达到五周年纪念日时,它在仪式上揭幕并向公众开放。加州大学伯克利分校.[14]到了Wayback机器推出时,它已经包含超过100亿个存档的页面。[15]数据存储在Internet存档的大集群中Linux节点。[10]它有时会重新访问和档案新版本的新版本(请参见下面的技术详细信息)。[16]也可以通过输入网站来手动捕获网站URL进入搜索框,前提是该网站允许Wayback机器“爬网”并保存数据。[17]
2020年10月30日,Wayback机器开始对内容进行事实检查。[18]截至2022年1月,广告服务器被禁止捕获。[19]
对于Internet Archive成立25周年,Wayback Machine引入了“ Wayforward Machine”,该机器允许用户“在2046年前往Internet,其中知识不在围城”。[20][21]
技术信息
软件已开发为“爬行“网络并在网页上下载所有公开访问的信息和数据文件,Gopher层次结构,Netnews(USENET)公告板系统和可下载的软件。[22]这些“爬网”收集的信息不包括Internet上可用的所有信息,因为许多数据受到发布者的限制或存储在无法访问的数据库中。为了克服部分缓存的网站上的不一致之处,Archive-it.org于2005年由Internet Archive开发,作为允许机构和内容创建者自愿收获并保留数字内容的集合并创建数字档案的手段。[23]
爬网是从各种来源造成的,其中一些是从第三方进口的,而另一些则由档案馆内部产生。[16]例如,爬行是由斯隆基金会和Alexa,由Internet档案代表运行的爬网奈良和互联网记忆基础,镜子常见的爬网.[16]自2010年以来,“全球网络爬网”一直在运行并捕获全球网络。[16][24]
文档和资源存储在时间戳记的URL中,例如20230105230030
。页面的单个资源(例如图像,样式表和脚本)以及传出的超链接与当前查看的页面的时间戳相连,因此它们会自动重定向到最接近时间的单个捕获。[25]
每个网站的快照捕获频率各不相同。[16]“全球网络爬网”中的网站包含在“爬网列表”中,每个爬网都存档了该网站。[16]爬网可能需要数月甚至数年的时间才能完成,具体取决于尺寸。[16]例如,“ Wide Crawl Number 13”于2015年1月9日开始,并于2016年7月11日完成。[26]但是,任何时候都可能有多次爬网,并且一个站点可能包含在一个以上的爬网列表中,因此站点被爬网的频率差异很大。[16]
从2019年10月开始,用户是有限的至15个档案请求和每分钟检索。[27][为什么?]
存储能力和增长
随着技术多年的发展,Wayback机器的存储容量已经增长。在2003年,仅两年的公共访问权限,Wayback机器以每月12吨的速度增长。数据存储在pepabox机架系统由Internet档案工作人员定制。第一个100TB机架在2004年6月开始完全运行,尽管很快就显然他们需要的存储空间要比这要多得多。[28][29]
互联网存档将其自定义存储架构迁移到太阳打开存储在2009年,并在A中托管了一个新的数据中心太阳模块化数据中心上太阳微型系统'加利福尼亚校园。[30]截至2009年[更新],Wayback机器大约包含三个pb数据的增长率为100trabytes每一个月。[31]
Wayback机器的新版本,具有更新的接口和一个新鲜的归档内容索引,并于2011年可用于公开测试,在日历布局中捕获带有圆圈,其宽度可视化每天的宽度数量,但是没有使用星号或高级搜索页面对重复项进行标记。[32][33]在顶上工具栏已添加以方便在捕获之间导航。条形图可视化多年来每月捕获的频率。[34]随后添加了诸如“更改”,“摘要”和图形站点图之类的功能。
在那一年的三月,在Wayback Machine论坛上说“新Wayback Machine的Beta具有更完整和最新的索引,所有爬行材料都将在2010年进行,并将继续定期更新。索引驾驶经典的Wayback机器在2008年之前只有一点点材料,并且没有计划进一步的索引更新,因为它将在今年逐步淘汰。”[35]同样在2011年,Internet档案安装了他们的第六双Petabox机架,将Wayback机器的存储容量增加了700吨。[36]
2013年1月,该公司宣布了一个有2400亿个URL的开创性里程碑。[37]
2013年10月,该公司介绍了“保存页面”功能[38][39]它允许任何互联网用户存档URL的内容,并迅速生成一个永久链接与前面不同Liveweb特征。
2014年12月,Wayback机器包含435十亿网页 - 几乎九点数据的数据,每周增长约20吨。[15][40][41]
2015年3月,出版了安全研究人员意识到该部门无意的威胁托管恶意二进制来自存档的站点。[42][43]
据报导,2016年7月,Wayback机器包含大约15位数据。[44]
2018年9月,Wayback Machine包含了25次数据。[45][46]
截至2020年12月,Wayback机器包含超过70位数据。[47]
逐年的回腰机 | 页面存档 |
---|---|
2004 | 300,000,000,000(0-100b:浅蓝色) |
2005 | 40,000,000,000 |
2008 | 85,000,000,000 |
2012 | 150,000,000,000(100B-450B:黄色) |
2013 | 373,000,000,000 |
2014 | 4亿 |
2015 | 452,000,000,000(450b-600b:橙色) |
2016 | 459,000,000,000 |
2017 | 279,000,000,000 |
2018 | 310,000,000,000 |
2019 | 345,000,000 |
2020 | 405,000,000 |
2021 | 514,000,000,000 |
2022 | 640,000,000,000(600b-:红色) |
在2013年10月至2015年3月之间,该网站的全球Alexa等级从163改变了[50]到208。[51]2019年3月,排名为244。[52]
Wayback机器API
Wayback Machine服务提供三个公共API,SavePagenow,avausibaly和CDX。[53]SavePagenow可用于存档网页。可用API检查网页的存档可用性状态,[54]检查是否存在网页的存档。CDX API用于捕获数据的复杂查询,过滤和分析。[55][56]
网站排除政策
从历史上看,Wayback机器尊重机器人排除标准(robots.txt)在确定网站是否会被爬行时 - 或者如果已经爬行,是否可以公开查看其档案。网站所有者可以选择通过使用Robots.txt选择退出Wayback Machine。它追溯地应用了robots.txt规则;如果一个网站阻止了互联网档案,则立即将任何先前从域的存档页面渲染出来。此外,互联网存档还说:“有时,网站所有者会直接与我们联系,并要求我们停止爬行或归档网站。我们遵守这些请求。”[57]此外,该网站还说:“ Internet档案馆对保存或提供对不希望收藏中材料的人员的网站或其他互联网文件的访问不感兴趣。”[58][59]
2017年4月17日,报告浮出水面的报导已倒闭并成为停放的域那是使用robots.txt将自己排除在搜索引擎之外,导致它们被无意中排除在Wayback机器之外。[60]Internet存档将策略更改为现在需要明确的排除请求,以将其从Wayback机器中删除。[25]
奥克兰档案政策
Wayback的追溯排除政策部分基于管理删除请求和保存档案完整性的建议由信息管理和系统学院发布加州大学伯克利分校2002年,该网站所有者有权阻止对网站档案的访问权限。[61]Wayback遵守了这项政策,以帮助避免昂贵的诉讼。[62]
Wayback追溯排除政策在2017年开始放松,当时它停止尊敬美国政府和军事网站上的机器人,以爬行和显示网页。截至2017年4月,Wayback更广泛地忽略了Robots.txt,而不仅仅是美国政府网站。[63][64][65][66]
用途
从2001年的公开发布开始,学者们已经研究了其存储和收集数据的方式以及其存档中包含的实际页面。截至2013年,学者在Wayback机器上写了大约350篇文章,主要来自信息技术,图书馆科学和社会科学领域。社会科学学者已经使用Wayback机器分析了从1990年代中期到现在的网站开发如何影响公司的增长。[15]
当Wayback Machine归类一个页面时,它通常包含大多数超链接,在这些链接很容易被Internet的不稳定破坏时保持活跃。印度的研究人员研究了Wayback机器在在线学术出版物中节省超链接的能力的有效性,并发现它节省了一半以上。[67]
“记者使用Wayback Machine查看死去的网站,日期的新闻报导以及对网站内容的更改。其内容已用于使政客负责并揭露战场的谎言。”[68]2014年,一个存档的社交媒体页面伊戈尔·吉尔金(Igor Girkin)是乌克兰的一位分离主义叛军领导人,向他展示了他的部队击倒了一架乌克兰军事飞机,然后才知道这架飞机实际上是马来西亚平民的航空公司飞机(马来西亚航空公司17号航班),之后,他删除了该职位,并指责乌克兰的军队击倒了飞机。[68][69]在2017年,科学三月起源于讨论reddit这表明有人访问了Archive.org并发现所有引用气候变化已从白宫网站删除。作为回应,用户评论说:“需要在华盛顿上进行科学家的游行”。[70][71][72]
2020年9月,与Cloudflare要自动通过其“始终在线”服务提供服务的网站,如果它无法到达原始主机,它也可以将用户引导到该网站的副本。[74]
限制
在2014年,网站被爬行到可以在Wayback机器中查看的时间之间有六个月的滞后时间。[75]目前,滞后时间为3到10个小时。[25]Wayback Machine仅提供有限的搜索设施。它的“站点搜索”功能使用户可以根据描述站点的单词找到一个站点,而不是在网页本身上找到的单词。[76]
Wayback Machine由于其Web爬网的局限性而没有包含所有网页。Wayback Machine无法完全存档包含交互功能的网页,例如闪存平台和JavaScript和渐进的Web应用程序,因为这些功能需要与主机网站互动。这意味着,自2013年7月9日以来,Wayback机器在保存视频的手表页面时无法显示YouTube评论,因为根据档案团队的说法,评论不再“加载到页面本身中”。[77]Wayback Machine的Web爬行者很难提取在HTML或其一种变体中未编码的任何内容,这通常会导致超链接和缺失的图像破裂。因此,Web爬网无法存档其他页面与其他页面无关的“孤儿页”。[76][78]Wayback Machine的爬网仅根据预设深度极限遵循预定数量的超链接数,因此它不能存档每个页面上的每个超链接。[24]
在法律证据中
民事诉讼
Netbula LLC诉Chordiant Software Inc.
在2009年的情况下Netbula,LLC诉Chordiant Software Inc.,被告和弦提出了一项动议,要求Netbula禁用robots.txt在其网站上归档,该网站正在导致Wayback Machine追溯访问其从Netbula的网站存档的页面的先前版本,Chordiant认为会支持其案例。[79]
Netbula反对该动议,理由是被告要求更改Netbula的网站,并且他们应该直接向互联网档案进行传唤。[80]互联网档案馆的一名员工提出了支持Chordiant动议的宣誓声明,并指出,它无法通过任何其他方式产生网页,“没有巨大的负担,费用和对其运营的破坏”。[79]
加利福尼亚州北区圣何塞分部的地方法官霍华德·劳埃德(Howard Lloyd)拒绝了Netbula的论点,并命令他们禁用机器人。TXT临时堵塞,以允许Chordiant检索他们所寻求的存档页面。[79]
Telewizja Polska USA,Inc。诉Echostar卫星
在2004年10月的案件中Telewizja Polska USA,Inc。v。回声卫星,No. 02 C 3293,65 Fed。R. Evid。服务。673(2004年10月15日,N.D.Ill。10),一名诉讼人试图将Wayback Machine档案作为可接受证据的来源,也许是第一次。Telewizja Polska是TVP Polonia和Echostar操作盘式网络。在审判程序之前,Echostar表示,它打算提供Wayback Machine快照,以证明Telewizja Polska网站的过去内容。Telewizja Polska带来了动议在极限抑制在地面上的快照传闻和未经验证的消息来源,但是地方法官阿兰德·凯斯(Arlander Keys)拒绝了telewizja Polska对传闻的主张,并否认了TVP的动议在极限在审判中排除证据。[81][82]然而,在审判中,初审法官的地方法院法官罗纳德·古兹曼(Ronald Guzman)否决了地方法院钥匙的调查结果,并认为互联网档案员工的宣誓书和基本页面(即telewizja polska网站)都不是可公开的。古兹曼法官认为,该员工的誓章既包含传闻和尚无定论的支持陈述,又包含所谓的网页,打印输出并非自治。[83][84]
专利法
只要满足一些其他要求(例如,提供档案管理员的权威性声明)美国专利局和欧洲专利局将接受Internet存档中的日期邮票,以证明公众何时可以访问给定的网页。这些日期用于确定网页是否可用先前的艺术例如,检查专利申请。[85]
效用的局限性
归档网站存在技术限制,因此,诉讼中的反对党可能会滥用网站档案提供的结果。当不暴露基础链接时,在投诉,答案或专家证人报告中提交网页屏幕截图的实践可能会加剧此问题,因此可能包含错误。例如,诸如Wayback Machine之类的档案不会填写表格,因此,不包括非 - 内容安息其档案中的电子商务数据库。[86]
法律地位
在欧洲,可以将Wayback机器解释为违反版权法律。只有内容创建者才能确定其内容的发布或重复的位置,因此存档必须应创建者的要求从其系统中删除页面。[87]Wayback机器的排除政策可以在网站的FAQ部分中找到。[88]
某些情况是针对Internet档案的,专门针对其Wayback机器归档工作。
存档的内容法律问题
科学学
在2002年底,互联网档案删除了批评的各个站点科学学从Wayback机器。[89]一条错误消息指出,这是对“站点所有者的请求”的回应。[90]后来,澄清说的是科学教堂曾要求拆除,并且现场所有者不希望将其材料删除。[91]
医疗保健倡导者公司
2003年,Harding Earley Follmer&Frailey使用Archive的Wayback机器为客户辩护。律师能够证明原告提出的索赔是基于几年前其网站的内容。原告,医疗保健倡导者,然后修改了他们的投诉,以包括互联网档案,指控组织侵犯版权以及违反侵犯DMCA和计算机欺诈与滥用法。医疗保健倡导者声称,由于他们已经安装了robots.txt即使在提起初始诉讼后,档案中也应在其网站上提交文件,但该档案应从Wayback Machine上删除了原告网站的所有以前的副本,但是,一些材料在Wayback上继续公开可见。[92]诉讼在解决问题后,在法庭上解决了诉讼。[93]
苏珊·壳
活动家苏珊·壳于2005年12月提起诉讼,要求互联网档案支付100,000美元,用于在1999年至2004年之间归档她的网站profane-justice.org。[94][95]互联网档案提交了声明性判断动作美国加利福尼亚北区美国地方法院2006年1月20日,寻求司法确定互联网档案没有违反壳牌版权。壳响应并带来了反击反对互联网档案存档,以归档她的网站,她声称是违反她的服务条款.[96]2007年2月13日,一名法官美国科罗拉多州地方法院驳回了所有反诉违反合约.[95]互联网档案没有解雇版权侵权索赔壳主张,其复制活动也会继续进行。[97]
2007年4月25日,Internet Archive和Suzanne Shell共同宣布了他们的诉讼解决。[94]互联网档案说:“……没有兴趣在不希望将网络内容存档的人的Wayback机器中加入材料。我们认识到,Shell女士在她的网站上具有有效且可执行的版权,我们遗憾的是,将她的网站纳入Wayback Machine导致了这一诉讼。”壳牌说:“我尊重互联网档案的目标的历史价值。我从来没有打算干扰这个目标,也不是造成任何伤害。”[98]
丹尼尔·戴维迪克(Daniel Davydiuk)
在2013年至2016年之间色情演员名字丹尼尔·戴维迪克(Daniel Davydiuk)试图从Wayback机器的档案中删除自己的存档图像DMCA请求向档案馆,然后呼吁加拿大联邦法院.[99][100][101]然后,这些图像最终于2017年从网站上删除。
灵活
在2018年,档案Stalkerware应用程序Flexispy的网站已从Wayback机器中删除。该公司声称已经联系了互联网档案馆,大概是为了删除其网站的档案。[102]
审查制度和其他威胁
Archive.org当前是在中国被阻塞.[103][104]在禁止伊斯兰国恐怖组织后,互联网档案在俄罗斯的整体上被阻止作为该组织的一系列外展视频,在2015 - 16年度的短时间内。[68][105][106][需要更新]自2016年以来,该网站已经回来了,尽管当地的商业游说者正在当地法院起诉互联网档案,以便以版权的理由禁止该网站。[107]
艾莉森·马克琳娜(Alison Macrina),主任图书馆自由项目,指出“尽管图书馆员深深地珍视个人隐私,但我们也强烈反对审查制度”。[68]
至少有一个情况下,将其从其原始网站删除后不久将其从档案中删除。一种每日野兽记者写了一篇文章,该文章在2016年在约会应用程序中以同性恋者的身份摆姿势,于2016年发表了几名同性恋奥运会运动员。每日野兽在广泛的愤怒中遇到文章后,将其删除;不久之后,互联网档案也很快就这样做了,但强调说,除了保护外出运动员的安全外,他们没有其他原因这样做。[68]
其他威胁包括自然灾害,[108]破坏(远程或物理),[109]操纵档案馆的内容(另请参阅:网络攻击,备份),有问题的版权法[110]以及对网站用户的监视。[111]
亚历山大·罗斯(Alexander Rose),执行董事长期以来的基础,怀疑从长远来看,“几乎一无所有”将以有用的方式生存,并说:“如果我们在技术文明中具有连续性,我怀疑许多裸露的数据将仍然可以找到和可搜索。但是我可疑交付的格式几乎没有什么是可识别的“站点”,因为诸如Drupal,Ruby和Django等内容管理系统的深端很难归档。[112]
在一篇关于保存人类知识的文章中,大西洋组织已经评论说,互联网档案描述了自己是为了长期建造的[113]“正在努力捕获数据消失之前,没有任何长期基础架构。”[114]
也可以看看
参考
- ^Kahle,Brewster(2005年11月23日)。“通用所有知识的访问”.互联网档案。检索6月5日,2022.
- ^“存档副本”.web.archive.org。2022年11月11日。原本的2022年11月11日。
{{}}
:CS1维护:存档副本为标题(链接) - ^Wayback Machine。检索到2022年10月1日。Wayback Machine。检索到2022年10月31日。这两页显示一个月内增加了110亿页。这意味着每天的页面数量增加超过3.5亿。
- ^百事可乐,Inc。(1996年5月10日)。“百事可乐主页”.互联网档案/Wayback Machine。检索10月8日,2022.
- ^“ Wayback Machine一般信息”.Archive.org。存档原本的2019年12月5日。检索3月2日,2021.
- ^“ waybackmachine.org whois,dns和域信息 - domaintools”.谁是.存档从2020年5月14日的原件。检索3月13日,2016.
- ^“ Internetarchive.org Whois,DNS和域信息 - Domaintools”.谁是.存档从2020年5月12日的原件。检索3月13日,2016.
- ^Notess,Greg R.(3月至4月2002年)。“ Wayback Machine:Web的档案”。在线的.26:59–61。成立:13517724.
- ^“ Wayback Machine”,经常问的问题,存档从2018年9月18日的原件,检索9月18日,2018
- ^一个b“任务上有20,000个硬盘驱动器|互联网档案博客”.blog.archive.org。 2016年10月25日。存档从2018年10月20日的原始。检索10月15日,2018.
- ^格林,希瑟(2002年2月28日)。“与世界一样大的图书馆”.工作周。存档原本的2011年12月20日。
- ^朱迪·汤(Tong)(2002年9月8日)。“负责方 - 布鲁斯特·卡尔(Brewster Kahle);网络上的网络图书馆”.纽约时报.存档从2011年2月20日的原始。检索8月15日,2011.
- ^库克,约翰(2001年11月1日)。“网站将带您回到互联网历史上”.西雅图后智力师.存档从2014年8月12日的原始。检索8月15日,2011.
- ^肯德拉梅菲尔德(2001年10月28日)。“ Wayback回到网上”.有线.存档从2017年10月16日的原始。检索10月16日,2017.
- ^一个bcArora,Sanjay K。;李,Yin;Youtie,Jan;菲利普夏皮拉(2015年5月5日)。“使用Wayback机器在社会科学中开采网站:一种方法论资源”.信息科学与技术协会杂志.67(8):1904– 1915年。doi:10.1002/asi.23503.ISSN 2330-1635.
- ^一个bcdefghLeetaru,Kalev(2016年1月28日)。“互联网档案转20:幕后档案要存档网络”.福布斯.存档从2017年10月16日的原始。检索10月16日,2017.
- ^“互联网档案:Wayback Machine”.Archive.org.存档从2014年1月3日的原始。检索10月15日,2018.
- ^格雷厄姆,马克(2020年10月30日)。“事实检查和上下文的Wayback Machine页面”.互联网存档博客。检索1月17日,2021.
- ^尝试“现在保存页面”域,例如tpc.googlesyndication.com或s0.2mdn.net或atdmt.com或adbrite.com结果“此URL在我们的块列表中,无法捕获”。
- ^“互联网档案25周年 - 普遍访问所有知识”。检索1月13日,2022.
- ^“行驶机器•访问互联网的未来”.前进机器。检索1月13日,2022.
- ^卡尔,布鲁斯特。“归档互联网”。科学美国人 - 1997年3月。存档从2012年4月3日的原件。检索8月19日,2011.
- ^卡普兰,杰夫(2014年10月27日)。“存档:一起爬网”.互联网存档博客.存档从2017年10月12日的原始。检索10月16日,2017.
- ^一个b“全球网络爬网”。互联网档案。存档从2017年10月19日的原件。检索10月16日,2017.
- ^一个bc“使用Wayback Machine”.互联网档案。检索4月3日,2022.
- ^“ 13号宽爬行”。互联网档案。存档从2017年10月19日的原件。检索10月16日,2017.
- ^“太多请求”。互联网档案。 2019年11月10日。检索11月27日,2021.
- ^“互联网档案:pepabox”.Archive.org。检索10月25日,2018.
- ^迈克尔·卡内洛斯(Kanellos)(2005年7月29日)。“便宜的大存储”。 cnet news.com。存档原本的2007年4月3日。检索7月29日,2007.
- ^“互联网档案和太阳微型系统创造了互联网的生活历史”.太阳微型系统。 2009年3月25日。存档从2009年3月26日的原件。检索3月27日,2009.
- ^Mearian,Lucas(2009年3月19日)。“互联网档案以揭露大规模的Wayback机器数据中心”。 Computerworld.com。存档原本的2009年3月23日。检索3月22日,2009.
- ^“ Beta测试中更新的Wayback Machine”。存档原本的2011年8月23日。检索8月19日,2011.
- ^“高级搜索”.Wayback Machine。存档原本的2010年1月31日。检索4月3日,2022.
- ^“经典的Wayback机器和新的Beta版本有什么区别?”。存档原本的2010年12月25日。检索11月17日,2021.
- ^“ Beta Wayback Machine,在论坛中”.存档从2014年4月17日的原始。检索4月16日,2014.
- ^“互联网档案论坛:第六对架子进入服务:超过2pb使用的数据空间”.Archive.org.存档从2016年10月24日的原始。检索10月25日,2018.
- ^“ Wayback Machine:现在拥有240,000,000,000 URL | Internet存档博客”。 2013年1月9日。存档从2014年4月14日的原始。检索4月16日,2014.
- ^罗西,亚历克西斯(2013年10月25日)。“固定互联网上的断开链接”.Archive.org。美国加利福尼亚州旧金山:收藏团队,互联网档案。存档来自2014年11月7日的原始。检索3月25日,2015.
我们已经添加了立即存档页面并在Wayback机器中获取该页面的永久URL的能力。这项服务允许任何人(Wikipedia编辑,学者,法律专业人士,学生或像我这样的家庭厨师)创建一个稳定的URL来引用,共享或添加他们希望将来仍然可以访问的任何信息。
- ^亚历山大男爵(2013年10月23日)。“现在在线的新互联网存档机器”.数字期刊。存档原本的2020年11月19日。检索11月19日,2020.
- ^“互联网档案经常问问题”.存档从2009年10月21日的原件。检索1月17日,2015.
- ^“互联网档案经常问问题”。 2014年12月18日。原本的2014年12月18日。检索12月13日,2018.
- ^Virustotal团队(2015年3月25日)。“ 207.241.226.190 IP地址信息”.virustotal.com。爱尔兰都柏林:病毒.存档从2014年7月14日的原始。检索3月25日,2015.
2015-03-25:至少一个URL扫描仪或恶意URL数据集检测到的IP地址中托管的最新URL。... 2/62 2015-03-25 16:14:12 [完整的URL编辑]/renegotiating_tls.pdf ... 1/62 2015-03-25 04:46:34 [完整的url redacted]/cblightsetup.exe.exe.exe.exe.exe.exe
- ^“ Archive.org的安全浏览诊断页”.Google.com/safebrowsing。加利福尼亚州山景城,美国。 2015年3月25日。存档从2015年4月6日的原始。检索3月25日,2015.
2015-03-25:在过去的90天中,该网站的一部分被列出了可疑活动138时间。... Google访问此网站时发生了什么?...在过去90天内在网站上测试的42410页中,有450页导致未经用户同意下载和安装恶意软件。Google上一次访问该网站的上次是在2015-03-25,最后一次在该网站上发现可疑内容是在2015-03-25。...恶意软件包括169个特洛伊木马,126个病毒,43个后门。
- ^“对大数据的操纵能否改变世界的想法?”.全国.存档从2017年1月12日的原始。检索5月14日,2017.
- ^克罗基特,扎卡里(2018年9月28日)。“ Inside Wayback Machine,Internet的时间胶囊”.喧嚣.存档从2018年10月2日的原始。检索10月26日,2018.
- ^弗吉尼亚州赫弗南(2018年9月18日)。“互联网上的事情破裂和衰败 - 这是一件好事”.有线.存档来自2018年9月25日的原始。检索10月26日,2018.
- ^“捐赠给互联网档案:免费和可藉用书籍,电影,音乐和Wayback机器的数字图书馆”。 Adafruit。存档从2020年12月2日的原始。检索12月2日,2020.
- ^米歇尔(2014年5月9日)。“ Wayback Machine击中了4亿!”。互联网档案。存档从2014年8月26日的原件。检索3月25日,2015.
- ^“互联网档案”。互联网档案。存档原本的2020年12月31日。检索3月8日,2021.
- ^“ Archive.org网站信息”.Alexa Internet。存档原本的2013年10月28日。检索10月29日,2013.
- ^“ Archive.org网站概述”。 Alexa Internet。存档原本的2015年4月9日。检索4月9日,2015.
- ^“ Archive.org交通,人口统计和竞争对手-Alexa”。 2019年3月23日。原本的2019年3月23日。检索4月5日,2019.
- ^“ Wayback Machine API | Internet存档”.Archive.org.
- ^Waybackpy上github
- ^“开发人员”.
- ^“互联网档案中公共API的文档”。 2018年12月13日。
- ^“某些网站由于robots.txt或其他排除而无法使用”。存档原本的2011年4月15日。
- ^“互联网档案经常问问题”。存档原本的2014年4月17日。
- ^考克斯,约瑟夫(2018年5月22日)。“ Wayback机器正在删除出售给缠扰者的恶意软件的证据”.存档从2018年5月23日的原件。检索5月23日,2018.
- ^“ Robots.txt适用于搜索引擎对网络档案的运作不佳”.互联网档案。 2017年4月17日。检索6月29日,2019.
- ^“管理删除请求和保留档案完整性的建议”.加利福尼亚大学。 2002年12月14日。存档来自2017年9月18日的原始。检索9月14日,2017.
- ^“追溯机器人。。互联网档案。 2014年7月7日。存档从2017年10月10日的原始。检索9月14日,2017.
- ^格雷厄姆,马克(2017年4月17日)。“ Robots.txt适用于搜索引擎对网络档案的运作不佳”.互联网存档博客.存档从2017年4月17日的原始。检索4月16日,2017.
- ^“ Archivierung des Internet:Internet存档IgnoriertKünftigRobots.txt”(在德国)。 Heise在线。存档从2017年4月27日的原件。检索5月14日,2017.
- ^“ Suchmaschinen:Internet档案将使KünftigRobots.txt-Inträgeignorieren - golem.de”(在德国)。存档来自2017年6月19日的原始。检索5月14日,2017.
- ^“ Internet存档将忽略robots.txt文件以保持历史记录准确”。数字趋势。 2017年4月24日。存档从2017年5月16日的原始。检索5月14日,2017.
- ^Sampath Kumar,B.T。;Prithviraj,K.R。(2014年10月21日)。“使生命死了:Wayback Machine在检索消失的URL中的作用”。信息科学杂志.41(1):71–81。doi:10.1177/0165551514552752.ISSN 0165-5515.S2CID 28320982.
- ^一个bcde“ Wayback Machine不会审查档案,导演在奥运会文章擦洗后说”.存档从2017年1月6日的原始。检索5月14日,2017.
- ^莱珀,吉尔(2015年1月26日)。“网络昨天说什么”.纽约客.存档从2015年1月25日的原件。检索5月14日,2017.
- ^“科学游行始于此人的'Reddit上的'丢人线'.华盛顿邮报.存档来自2017年4月23日的原始。检索4月23日,2017.
- ^“科学家要去华盛顿进军吗?”.华盛顿邮报.存档从2017年1月31日的原始。检索1月31日,2017.
- ^弗利,凯瑟琳·埃伦。“全球科学游行始於单个reddit线程”.石英.存档从2017年4月24日的原始。检索4月23日,2017.
- ^格雷厄姆,马克(2018年10月1日)。“维基百科上有超过900万个断开的链接现已被救出”.
- ^格雷厄姆,马克(2020年9月17日)。“ Cloudflare和Wayback机器,与更可靠的网络联合起来”.互联网存档博客。检索9月17日,2020.
- ^“互联网档案经常问问题”.互联网档案。 2014年4月2日。原本的2014年4月2日。检索11月23日,2018.
- ^一个b贝茨,玛丽·埃伦(Mary Ellen)(2002)。“ Wayback Machine”。在线的.26:80。
- ^“ YouTube -Archiveteam”.Archiveteam.org.存档从2020年8月5日的原件。检索8月6日,2020.
- ^“互联网档案经常问问题”.Archive.org.存档从2013年4月20日的原始。检索10月18日,2018.
- ^一个bc劳埃德,霍华德(2009年10月)。“下令禁用机器人.txt”(PDF)。存档原本的(PDF)2019年8月8日。检索10月15日,2009.
- ^科尔特斯,安东尼奥(2009年10月)。“反对拆除机器人的运动”。存档原本的2010年10月27日。检索10月15日,2009.
- ^Gelman,Lauren(2004年11月17日)。“互联网档案的网页快照可作为证据”.数据包.2(3)。存档原本的2011年4月30日。检索1月4日,2007.
- ^Howell,Beryl A.(2006年2月)。“证明网络历史:如何使用互联网存档”(PDF).互联网法杂志:3–9。存档原本的(PDF)2010年7月5日。检索8月6日,2008.
- ^“在虚拟地方寻找互联网证据的证据”.存档来自2019年7月1日的原始。检索6月14日,2020.
- ^Levitt,Carole A。;Rosch,Mark E.(2010)。查找诸如Pro之类的信息:挖掘互联网的公开资源进行调查研究,汤姆1。美国律师协会。第194-196页。ISBN 978-1-60442-890-2.存档从2020年12月18日的原始。检索6月14日,2020.
- ^Wynn W. Coggins(2002年秋季)。“商业方法专利领域的先前艺术 - 电子文档何时是出于艺术目的的印刷出版物?”.USPTO。存档原本的2012年9月21日。检索8月15日,2012.
- ^“揭穿Wayback Machine”。存档原本的2010年6月29日。
- ^巴尔,马丁(2002)。“ Wayback Machine和Google Cache -Eine Verletzung Deutschen Urheberrechts?”.朱尔普(德语):9。doi:10.7328/jurpcb/20021719.存档来自2009年8月23日的原始内容。
- ^“互联网存档常见问题解答”.存档从2014年4月17日的原始。检索4月16日,2014.
- ^鲍曼(Lisa M)(2002年9月24日)。“净档案沉默科学批评家”。 cnet news.com。存档原本的2012年5月15日。检索1月4日,2007.
- ^杰夫(2002年9月23日)。“从Wayback机器中排除”(博客).Wayback Machine论坛。互联网档案。存档从2007年2月11日的原始。检索1月4日,2007.作者和日期表示论坛线程的启动.
- ^米勒,欧内斯特。“谢尔曼,为科学学设定Wayback机器”.立法。耶鲁大学法学院。存档原本的(博客)2012年11月16日。检索1月4日,2007.
- ^Dye,Jessica(2005)。“网站起诉到过去有争议的互联网旅行”。生气。 28。11:8–9。
- ^埃里克·班曼(Bangeman)(2006年8月31日)。“ Internet档案安置在Wayback Machine上”.ARS技术.存档从2007年11月5日的原始。检索11月29日,2007.
- ^一个bInternet Archive诉Shell,505 F.Supp.2d 755在Justia.com上,1:2006CV01726(科罗拉多州地方法院2006年8月31日)(“'2007年4月25日宣布的和解协议。
- ^一个bBabcock,Lewis T.,首席法官(2007年2月13日)。"Internet Archive诉Shell民事诉讼编号06CV01726LTBCBS“(PDF).存档(PDF)从2014年1月25日的原件。检索3月25日,2015.
1)Internet档案驳回了壳牌转换和民事盗窃的反诉(第二诉原因)的动议,2)互联网档案驳回壳牌违反合同的反诉(第三条诉讼因由)的动议被拒绝;3)Internet档案驳回了Rico和Cocca(第四诉原因)在Rico和Cocca下驳回壳牌的反诉动议。
- ^克拉本,托马斯(2007年3月16日)。“科罗拉多州的女人起诉抓住网络爬行者合同”。纽约,纽约,美国:信息周,UBM Tech,UBM LLC。存档从2014年9月4日的原始。检索3月25日,2015.
计算机可以代表人员签订合同。《统一电子交易法》(UETA)说,即使没有人意识到或审查了电子代理的行为或由此产生的条款和协议,就可以通过当事方的电子代理的相互作用来形成“合同”。
- ^Samson,Martin H.,Phillips Nizer LLP(2007)。“ Internet Archive诉Suzanne Shell”.InternetLibrary.com。法律和法院的互联网图书馆决定。存档从2014年8月3日的原始。检索3月25日,2015.
更重要的是,举行法院,仅仅是壳牌档案的复制壳网站,并在其数据库中展示,这并不构成对被告财产的必要行使。重要的是,法院指出,被告在所有时间拥有并经营自己的网站。法院说:“壳牌未能指控事实表明互联网档案行使了自治领或对其网站的控制权,因为壳牌的投诉明确指出,在Wayback Machine上存档时,她继续拥有并操作该网站。壳牌没有任何权限支持复制文档本身足够剥夺用途来支持转换的观念。相反,许多电路已经确定不是。
- ^布鲁斯特(2007年4月25日)。“互联网档案和苏珊娜·壳牌定居诉讼”.Archive.org。美国科罗拉多州丹佛市:互联网档案。存档从2010年12月5日的原始。检索3月25日,2015.
双方都真诚地遗憾诉讼可能造成的任何动荡。互联网档案馆和壳牌女士都没有宽容任何可能造成公众关注此诉讼的一方造成伤害的行为。当事方没有从事这种行为,并要求公众对本诉讼的友好解决方案的回应与他们的意愿一致,即对任何一方都不会进一步的伤害或动荡。
- ^理查德·斯托布(Stobbe)(2014年12月5日)。“被遗忘的权利”的“版权含义”或如何删除互联网存档”.蒙达克.存档来自2018年11月18日的原始。检索3月8日,2019.
- ^麦克维,格伦尼(2014年10月16日)。菲尔波特,詹姆斯;魏斯曼,亚当;Bucholz,Ren;水壶,布伦特;珍珠,亚伦(编辑)。“ Davydiuk诉Internet Archive Canada,2014 FC 944”.canlii.加拿大法律协会联合会.存档从2020年12月18日的原始。检索3月8日,2019.
- ^Richard F. Southcott(2016年11月30日)。菲尔波特,约翰;阿尔顿,亚历克斯;Bucholz,Ren(编辑)。“ Davydiuk诉Canada Internet Archive and Internet Archive,2016 FC 1313(Canlii)”.canlii。安大略省渥太华:加拿大法律协会联合会.存档来自2019年6月29日的原始。检索3月8日,2019.
- ^考克斯,约瑟夫(2018年5月22日)。“ Wayback机器正在删除出售给缠扰者的恶意软件的证据”.副.存档从2022年1月24日的原件。检索1月24日,2022.
- ^康格,凯特。“支持加拿大互联网的历史以拯救特朗普”.TechCrunch.存档来自2016年12月27日的原始。检索5月14日,2017.
- ^“在哪里可以找到网上消失的东西,还有很多:互联网档案”。国际公共广播电台。存档从2017年3月28日的原件。检索5月14日,2017.
- ^奇尔格温,理查德。“在俄罗斯没有后卫:普京阻止Archive.org”.寄存器.存档从2016年10月7日的原始。检索5月14日,2017.
- ^“俄罗斯不会走路,阻止互联网档案”。数字趋势。 2015年6月26日。存档来自2016年4月17日的原始。检索5月14日,2017.
- ^“â€р栓函.°(俄语)。 2016年4月18日。存档从2019年4月5日的原件。检索10月18日,2020.
- ^“帮助我们保持档案免费,可访问和读者私人|互联网档案博客”。 2016年11月29日。存档从2017年5月21日的原件。检索5月14日,2017.
- ^Sakr,Sharif(2013年11月7日)。“ Wayback Machine Web档案存活了破坏性的火灾,但需要帮助才能恢复”。存档原本的2020年11月9日。检索4月3日,2022.
- ^“互联网档案:提议对DMCA的更改将使我们“审查网络”"。消费主义者。 2016年6月7日。存档来自2016年11月11日的原始。检索5月14日,2017.
- ^赫伯,乌尔里希。“死去的特朗普 - 安格斯特格拉斯”(在德国)。 Heise在线。存档来自2016年12月7日的原始。检索5月14日,2017.
- ^Lafrance,Adrienne(2015年10月14日)。“互联网的黑暗时代”.大西洋组织.存档从2017年5月7日的原件。检索5月14日,2017.
- ^“整个互联网将在加拿大归档以保护特朗普”。母板。 2016年11月29日。存档从2017年5月16日的原始。检索5月14日,2017.
- ^Lafrance,Adrienne(2016年6月3日)。“人类对完全知识的恐惧”.大西洋组织.存档来自2016年12月2日的原始。检索5月14日,2017.
外部链接
- 官方网站
- 互联网历史很脆弱。这个档案确保它不会消失。旧金山:PBS Newshour。存档原本的2022年1月6日。检索9月19日,2018.