网络归档计划清单
本文包含全球网络存档计划的列表。为了更轻松地阅读,将信息分为三个表:网络存档计划,存档数据和访问方法。
此Wikipedia页面最初是根据研究论文获得的结果生成的,该调查是关于Arquivo.pt (葡萄牙Web-Archive)团队发表的有关网络存档计划的调查。
网络归档计划
姓名 | 国家 | 创造年 | 技术 | 在职员工人数 | 评论 | |
---|---|---|---|---|---|---|
全职 | 兼职 | |||||
术语Web档案结束 | 美国 | 2008 | Heritrix , Wayback | 6–10 | Web存档术语的结束在总统政府结束时,在政府的立法,执行或司法分支机构中捕获并节省了美国政府联邦政府网站( .gov ,.mil等)。从2008年开始,迄今为止,EOT已保留了2008年,2012年和2016年管理变更的网站,目前正在为2020年的过渡做好准备。项目合作伙伴包括CA数字图书馆,互联网档案馆,国会图书馆,乔治华盛顿大学,斯坦福大学,北德克萨斯大学和美国政府出版社。 | |
Archive.St | 美国 | 2017 | Archive.st美国提供的自定义编程 | >1 | 0 | Archive.st以.jpg和HTML档案的形式提供免费的在线网络档案。 |
欧盟网络档案 | 欧洲联盟 | 2013 | 档案服务 | 1 | 欧盟Web档案库汇编了欧盟机构网站的捕获,该网站托管在europa.eu域和子域中。其目的是长期保留欧盟Web内容,并使公众访问它。该档案是由欧盟历史档案馆于2013年创建的,2018年,欧盟出版社接管了这项任务,并创建了欧盟Web档案服务。欧盟法律押金模式涵盖了归档网站的收集,该模式收集了欧洲机构在全面的书目中产生的所有材料。 | |
阿拉巴马州政府和政治网站和社交媒体档案 | 美国 | 2005 | 档案服务 | |||
澳大利亚的网络档案 | 澳大利亚 | 1996 | Pandora数字档案系统(Pandas) ,Heritrix,Bamboo, Nla Trove , Httrack ,Webrecorder,Outbackcdx。 | 4 | >10 | 澳大利亚国家图书馆领导着澳大利亚网络档案馆的“潘多拉”组成部分,该档案采用了选择性的方法,并且是提供策展输入的10个机构的协作计划。潘多拉(Pandora)将熊猫工作流系统(由NLA在1990年代后期开发)将HTTRACK作为默认收割机。澳大利亚国家图书馆还使用Heritrix Harverster和Webrecorder进行澳大利亚政府(澳大利亚政府网络档案)网站进行大量收获访问内容的限制。除了这些方法外,国家图书馆还进行了整个.AU领域的年收获,这是使用Heritrix和Wayback与Internet档案馆合作完成的。 2019年,澳大利亚政府网络档案馆潘多拉(Pandora)和整个领域收获通过NLA的Trove Discovery Service纳入了新的单一发现和交付门户。 |
承诺项目 | 比利时 | 2017 | Heritrix ,Pywb | 7 | Promise项目是一个为期两年的项目(2017 - 2019年),探讨了与归档比利时网络有关的政策有关,法律,技术和科学问题。该项目的目的是a)确定网络构造领域的最佳实践b)制定保留比利时网络的策略c)设立一个试点以保存并提供对归档的比利时网络和D)提出建议实施可持续的网络构造服务。该项目是由比利时皇家图书馆和比利时的国家档案馆与根特大学合作(媒体,创新和传播研究小组,以及根特数字人文科学中心),纳穆尔大学(信息,法律和社会研究中心) )和Haute-écolebruxelles-brabant(InitédeRechercheet de eciences en l'Information et lo de la文档)。 2019年10月,座谈会的结论是“保存网络:比利时网络档案的承诺”)在KBR举行。主要研究结果是在此座谈会期间提出的。 | |
KBR Web档案 | 比利时 | 2020 | 1 | KBR或比利时皇家图书馆正在根据Promise Research项目的发现(2017- 2019年)开发一个运营网络档案。运营政策和技术基础设施将根据Promise项目中概述的战略制定。 | ||
kadoc-ku leuven | 比利时 | 2022 | Httrack , Heritrix , ArchiveWeb.Page , replayweb.page | 0 | 1 | 主题档案库集中在比利时宗教,文化和社会之间的相互作用。 2023年,一个针对法兰德斯和布鲁塞尔的社交媒体存档的研究项目结束了。 |
MT.GOV连接 | 美国 | 2007 | 档案服务 | 1 | 蒙大拿州立图书馆的国家机构网站收集,其历史可追溯至1996年的法定授权,以识别,获取,描述和提供对州出版物的永久访问权限。可在https://archive.org/details/montanastatelibrary上获得数字化历史状态出版物 | |
斯蒂利奥 | 全世界 | 2011 | Puppeteer, V8 Engine , Gecko , Webkit , Amazon Web Services | 3 | 4 | SaaS解决方案定期网站和社交媒体归档。在固定的持续时间内提供静态和动态网页的屏幕截图归档,可以根据要求自定义。有助于调节,趋势跟踪,广告横幅验证,版本更改。 |
PageFreezer .com | 全世界 | 2009 | PageFreezer的深层网络爬行者, Hadoop ,Cassandra,弹性搜索 | 60 | SaaS网站和社交媒体归档解决方案。提供自动收集,重播,全文搜索和数据导出网站,博客,社交媒体和企业协作平台,以符合FDA, FINRA ,FSA,SEC,SEC,联邦证据规则,FOIA和记录管理法律。 | |
webpreserver.com | 全世界 | 2015 | WebPreserver | Chrome WebBrowser插件和基于Web的服务,以收集有关ediscovery的经过认证的,合法的网页和社交媒体页面。 Web快照可以在EDRM-XML,WARC,PDF和本机HTML中导出。 WebPreserver.com服务允许法律团队与WebPreserver工具一起组织,标记和协作捕获的数字证据。 | ||
欧洲 | 德国 | 2009 | ||||
网络结构奥地利 | 奥地利 | 2008 | NetarchiveSuite, Heritrix ,OpenWayback | 1 | 1 | |
德意志国家占地 | 德国 | 2012 | OIA GMBH的工具 | 6 | 选择性网络档案的爬网是由德国公司OIA GMBH完成的。访问仅限于德国国家图书馆的阅览室。 | |
Dilimag(数字文学杂志) | 奥地利 | 2007 | WebCurator | 2 | 一位技术人员,一个用于收集和元数据。 | |
Bibliothèqueet Archives Nationals duQuébec (BANQ) | 加拿大 | 2012 | Heritrix , Wayback 。 | 2 | ||
加拿大图书馆和档案馆的网络归档程序 | 加拿大 | 2005 | 档案服务 | 4 | 3 | 加拿大的网络档案是一项根据《加拿大图书馆和档案法》第8(2)条进行的数字保存目的进行的立法活动。四个FTE和三名兼职人员在该计划上工作。加拿大图书馆和档案馆的网络档案也用于实施法律存款。 |
网络信息收集和保存-WICP(中国网络档案) | 中国 | 2003 | Heritrix , Wayback和Nutchwax 。 | |||
克罗地亚网络档案馆(hrvatski arhiv weba- haw) | 克罗埃西亚 | 2004 | 爬网:潮湿软件, Heritrix | 2 | 2 | 克罗地亚网络档案馆(HAW)是从互联网收获的内容的集合。 2004年,该档案开始是选择性捕获Web资源的概念。自2011年以来,每年每年进行全体.HR领域收获。以及针对国家利益事件的主题/事件收获。档案的内容可通过HAW网站公开获得。 (2家图书馆员全职,1名图书馆员兼职, NUL ),2个IT专业人员兼职(SRCE-萨格勒布大学,大学计算中心) |
Webarchiv (捷克共和国国家图书馆) | 捷克共和国 | 2000 | Heritrix , Wayback和Seeder 。 | 5 | 2 | 捷克共和国国家图书馆维护的捷克网络档案( Webarchiv )重点是归档捷克国家网络。采集政策包括三行:选择性收获(基于选择标准的资源收集),主题收集(重点关注捷克网络领域的重要主题)和全面的收获(国家域上内容的自动收获)。员工包含1位经理,3.5策展人 + 1.5技术人员。 |
Netarkivet /丹麦网络档案馆(丹麦皇家图书馆) | 丹麦 | 2005 | 时间表/爬网: NetarchiveSuite , Heritrix , browsertrix , ArchiveWeb。
访问/搜索/发现前端和播放: Solrwayback 。仍安装了替代播放的Wayback ,但计划迁移到PYWB。 |
1 | 5.5 fte | 自2005年以来,丹麦法律存款法包括在丹麦互联网部分的收集和保存。该任务由丹麦皇家图书馆承担。
没有公众访问丹麦网络档案。档案只有与丹麦研究机构有联系的研究人员可以访问,他们已要求并授予特别许可将其用于特定研究目的。 该网站https://www.kb.dk/en/find-materials/collections/netarkivet旨在告知研究人员,网站所有者和其他有关方面有关丹麦网络档案的信息。 |
爱沙尼亚网络档案 | 爱沙尼亚 | 2010 | Heritrix , Squidwarc , Phantomjs和Puppeteer ,用于网站首页, PYWB ,自定义策展人工具的屏幕截图。 | 3 | 1 | 自2006年以来,法律存款法允许爱沙尼亚国家图书馆作为法律存款副本收集爱沙尼亚网站。网络收获是完成的,档案由爱沙尼亚国家图书馆维护。 |
芬兰网络档案 | 芬兰 | 2006 | Heritrix , Solr , Pywb , Browsertrix Crawler , Webrecorder -Addon , Outbackcdx , Twarc2 , YT -DPL 。 | 3 | >3 | 由芬兰国家图书馆维护。每年收获所有 *.fi域以及位于芬兰的网络服务器。在这些收获之外,图书馆手动选择相关网站。 |
BNF-网络法律存款 | 法国 | 2006 | Heritrix , NetarchiveSuite ,BCWeb, OpenWayback ,Solrwayback,Warc Indexer/Solr | 11 | 在法国,自2006年以来,信息协会(称为DADVSI)的版权及相关权利法将法律存款的范围扩大到“标志,信号,著作,图像,声音或任何形式的信息”。电子方式- 换句话说,网络的合法存款。归档法国网络是一项法律承诺,它继续了BNF的遗产任务。由于在技术上不可能永久收集所有Web内容,因此从法律存款中完整的目标的目的已演变为一种采样方法,以创建数字收集,以显示法国互联网用户的生产和行为。 | |
ina(美国国家国家研究所) | 法国 | 2009 | 爬网:基于firefox的Crocket,基于phantomjs /访问的Fantomas:涡流 /搜索:基于Elasticsearch的Dowser | 7 | ||
Bibliotheksservice-Zentrum Baden-Württemberg | 德国 | 2003 | 档案服务 | 0.5 | BSZ在各种档案收藏的委员会中收集了大约20个城市,市政当局,地区和相关公司以及州图书馆的网站。公共访问。数据存储:旧金山(Archive-IT)以及Baden-Wuerttemberg存储基础架构的备份。 | |
德国政府的网络档案 | 德国 | 2005 | ||||
国家széchényi图书馆网络档案 | 匈牙利 | 2017 | Heritrix ,Wayback,Pywb,Brozzler, Webrecorder , WCT | 3 | 2 | 从2017年4月到2019年12月,国家Széchényi图书馆( http://www.oszk.hu )作为其全面的IT IT基础设施开发计划的一部分,运行了一个网络存档飞行员项目。 2020年,网络档案成为国家Széchényi图书馆的永久性服务。从2021年开始,建立了法律框架,并根据文化法和相应政府法令的修改段落进行了网络档案。他们运行主题,基于事件和域收获。他们有一个带有元数据和全文搜索功能的小型演示集。其余的档案无法公开可用。 |
冰岛 | 冰岛 | 2004 | Heritrix , OpenWayback | |||
爱尔兰国家图书馆网络档案馆 | 爱尔兰 | 2011 | 档案服务 | 1 | 0.5 fte | 爱尔兰国家图书馆通过其NLI选择性网络档案有选择地归档爱尔兰文化,文化和政治重要性的网站。 |
以色列网络档案 | 以色列 | 2011 | Heritrix , Web策展人工具, Wayback ,Rosetta | 1 | >3 | 以色列国家图书馆收集“ .IL”域,1个项目经理兼职,1个技术领导者全职,1个图书馆员兼职,1 IT基础设施兼职 |
佛罗伦萨国家中央图书馆 | 义大利 | 2018 | 档案服务 | 该项目的目的是根据《国家法律押金法》的原则收集和归档意大利历史和文化具有“文化兴趣”的网站。 Archive-IT系列可公开使用。 | ||
日本国家饮食图书馆的网络档案项目(翘曲) | 日本 | 2002 | Heritrix ,OpenWayback, Solr | 4 | 1 | 自2002年以来,网络档案项目(WARP)一直在归档网站。《国家饮食图书馆法》于2009年修订,并于2010年4月生效,允许NDL归档日本官方机构的网站:政府,饮食,饮食,法院,当地,当地政府,独立行政组织和大学。在日本举行的文化和国际活动的网站以及与在线期刊有关的网站也根据其网站管理员的许可进行存档。 |
韩国国家图书馆- 绿洲(在线归档和搜索互联网资源) | 韩国 | 2001 | 自己的系统基于执行数据管理和搜索功能的Oracle DBMS和专业搜索引擎(IRS)。 | 3 | 11 | |
BibliothèqueNationale du Luxembourg | 卢森堡 | 2015 | Heritrix , Wayback ,Browsertrix,Solr | 2 | 卢森堡国家图书馆为.lu域以及选择性和基于事件的爬网进行季度的广泛爬行。
在卢森堡网络档案中收获的网站丰富了国家图书馆的股份,该馆藏允许为子孙后代保存数字出版物。 Webarchive.lu是卢森堡Web档案的信息和参与平台。 |
|
Koninklijke Bibliotheek | 荷兰 | 2007 | Heritrix 3.3, Web策展人工具3.0 , Wayback ,KB E-Depot系统 | ~10 | 1个爬网工程师,1个软件开发人员和9位收集专家,所有兼职(相当于4个全日制)。 KB有选择地收集研究和文化价值的荷兰地点。 | |
拉脱维亚国家图书馆 | 拉脱维亚 | 2005 | Web策展人工具和Wayback | 1 | 目前仅存储保存,开发公共场所(ETA 2012年6月)。拉脱维亚的网络收获术语是“Rasmošana”。 | |
新西兰网络档案 | 纽西兰 | 1999 | Web策展人工具,Heritrix3, Webrecorder ,Archiveit,browsertrix,pywb,Outbackcdx, Rosetta | 5 | >10 | 自2008年以来,全国领域的收获就已经进行,自2015年以来每年与互联网档案馆合作。选择性收获是由新西兰国家图书馆主要使用Web策展人工具进行的。三个全职员工收获网站和许多名册员工收获HTML系列或HTML专着。由一位专门的Web档案工程师和更广泛的部门ITM的支持。与Rosetta合作的员工处理了数字保存问题。 |
挪威国家图书馆 | 挪威 | 2001 | ||||
arquivo.pt | 葡萄牙 | 2007 | 内部开发, Heritrix , Wayback , Nutchwax , Pywb , Apache Solr , Brozzler , Webrecorder.net工具 | 5 | Arquivo.pt是一项研究基础架构,可保留自1996年以来从网络收集的信息,并在此集合上提供了公共搜索服务。 Arquivo.pt以几种语言保存网站,并提供英文用户界面。可以自动处理存档的数据,以通过分布式处理平台或通过促进添加值应用程序开发的应用程序编程界面进行大数据研究。 Arquivo.pt团队还为与Open-Access发表的网络归档有关的科学和技术文章做出了贡献。 | |
卡卡克的网络档案 | 塞尔维亚 | 2009 | httrack | 1 | ||
网络档案新加坡 | 新加坡 | 2006 | Wayback , Heritrix , Solr | 3 | Web档案新加坡由新加坡国家图书馆委员会(NLB)管理。 NLB对网站进行域和选择性归档,重点关注新加坡内容。该藏品在新加坡国家图书馆可查看,其选定内容由在线可用的版权所有者清除。 | |
数字资源( Bratislava的大学图书馆) | 斯洛伐克共和国 | 2015 | Heritrix 3.2.0, OpenWayback 2.2.0, Solr 5.2.1, Invenio ,自定义策展人工具, ArchiveWebpage.org | 4 | 1 | Bratislava的大学图书馆(ULIB)在2008 - 2009年进行了WebHarvesting的第一个实验。 2015年,乌利布(Ulib)运行了一个用于网络和电子出生归档的平台(在实施国家项目“数字资源”期间,这是欧洲地区发展基金会支持的) -www.webdepozit.sk/ ) 。 |
斯洛文尼亚网络档案 | 斯洛维尼亚 | 2007 | Heritrix ,OpenWayback, Web策展人工具 | 1 | ||
Archivo de la webespañola | 西班牙 | 2009 | NetarchiveSuite ,OpenWayback, Solr | 3+主管 | 2 | 由西班牙国家图书馆通过区域图书馆的合作维护。采用选择性和广泛收获的混合方法。自2009年至2013年以来,每年都会使用Heritrix和Wayback合作,每年每年进行全部.es域收获。自2014年以来,西班牙国家图书馆使用NetarchiveSuite进行了选择性收获。国家图书馆= 3名图书馆员,全职2次爬网工程师兼职。区域图书馆=兼职的几位图书馆员。自2015年10月26日以来,该法律存款法允许西班牙国家图书馆和地区图书馆收集西班牙网站,作为法律押金的一部分,并使公众可以观察版权法则。 |
Padicat:加泰罗尼亚的网络档案 | 西班牙 | 2005 | Heritrix ,OpenWayback,OutbackCDX和Cat 。 | 2 | Padicat是加泰罗尼亚(Catalunya)创建的加泰罗尼亚的开放访问网络档案馆:负责在西班牙收集,保存和分发加泰罗尼亚书目遗产的公共机构。 | |
ondarenet-巴斯克数字遗产档案 | 西班牙 | 2008 | Heritrix , Wayback , Nutchwax和Web策展人。 | 1 | ||
瑞典(kulturarw3) | 瑞典 | 1996 | NetarchiveSuite , Heritrix 。用于存储,维护和访问的内部系统,但搬到PYWB或Solrwayback 。 | 1.25 | 瑞典的网络收获项目始于1996年,第一次收获于1997年进行。2002年,每天收获某些报纸网站。 2009年11月 - 2011年5月在运营中停了下来,但是在互联网档案馆的帮助下,2010年收获了收获。由于收获平台的问题,2016年,2018年和2019年没有收获领域收获。在2017年5月至2018年12月之间,报纸网站的每日收获被暂停,但每天都在扩大瑞典报纸网站。自2013年4月以来,瑞典国家图书馆还通过《电子材料法律存款法》收到在线材料。 | |
Aleph档案 | 美国瑞士 | 2010 | 网络归档平台,捕获域名,高性能搜索引擎,近实时索引,网络监控工具 | >10 | 用于在线捕获和保存的企业级自动网络档案平台。用强大而定性的技术支持Ediscovery。
旨在旨在捕获,保存和利用其网络内容的公司,机构和机构;动态网站,Wiki,社交媒体,论坛,评论,免责声明和广告(FDA, FINRA ,FSA,SEC,FOIA),营销或纯保存目的。 |
|
外籍档案中心博客档案 | 海牙,荷兰 | 2019 | 档案服务 | 该项目的重点是由居住在国外的任何人撰写的博客。我们保留这些博客及其内容,因为我们认识到它们的文化和历史价值。在我们的收藏中添加博客档案将为选择美国作为学习场所的学生和其他学者的研究机会。将根据非常具体的标准选择存档的博客,并将定期检查其质量。 | ||
网络归档存储桶 | 瑞士,美国,加拿大 | 2012 | WARC软件开发套件,钴,Holon Web服务器 | “ Web档案存储桶”是Aleph Archives发起的一项计划,旨在保留数据并为库和组织提供免费使用的Web档案归档工具和组件。
网络档案库提供了一组工具,可以帮助档案管理员和专业人士日常工作。 |
||
网络档案瑞士 | 瑞士 | 2008 | Heritrix , Wayback ,Pywb,Webrecorder,Browsertrix Cloud | 6 | 2个爬网工程师,3人质量保证(全职共享少于1个),1位协调员。进行选择的策展人是瑞士各地的合作伙伴图书馆。 | |
NTU Web档案系统,NTUWAS | 台湾 | 2007 | 露西恩 | 3 | ||
网络档案台台湾 | 台湾 | 2007 | ||||
英国网络档案 | 英国 | 2004 | Heritrix , Web策展人工具, Wayback ,用于搜索的Solr 。 | |||
英国政府网络档案馆(UKGWA) | 英国 | 2003 | MirrorWeb | 7 | 1 | 英国国家档案馆的英国政府网络档案馆(UKGWA)是一个完全开放的网络档案。它包括5,000多个中央政府网站和社交媒体定期(1996年)。 OSP27文件中概述了UKGWA的范围。 Web归档操作的技术方面由MirrorWeb提供。 |
英国议会网络档案 | 英国 | 2009 | MirrorWeb | 1 | 2 | 英国议会网络档案库捕获,保存和制作在网络上发布的英国议会信息。网络档案包括从2009年到现在的网站和社交媒体。 Web归档操作的技术方面由MirrorWeb提供。 |
欧盟退出网络档案 | 英国 | 2020 | MirrorWeb | 英国国家档案馆的欧盟退出网络档案是一个完全开放的网络档案。它包含从欧洲超级联盟(欧洲立法网站)获取的各种文件,包括条约,立法文件,欧盟官方杂志,判例法和其他支持材料,以及欧洲法院以英语的判决,法语和德语。该集合包含在2020年12月31日晚上11点在GMT完成实施期内发布的所有内容。
它为欧盟法律提供了一个全面的官方英国参考点,因为它站在实施期末。 Web归档操作的技术方面由MirrorWeb提供。 |
||
MirrorWeb | 全世界 | 2012 | Heritrix ,Pywb用于公共档案馆,在MirrorWeb平台内定制档案。自定义社交媒体档案工具。 | 40 | MirrorWeb为金融服务和公共部门实体提供了一个网站和社交媒体档案平台。他们运行了一系列公共档案,其中两个包括:英国政府网络档案馆和英国议会网络档案。 | |
互联网档案(提供存档服务) | 美国 | 1996 | Heritrix , Wayback , Nutchwax和其他由Internet档案开发的工具 | 150 | Internet存档的Wayback Machine是世界上最大,最古老的Web档案馆,可追溯到1996年。InternetArchive还提供各种Web存档服务,包括Archive-IT ,Save Page Now和域级别的合同爬网。 Wayback Machine是Internet存档和合作伙伴收藏的公开访问服务。 | |
斯坦福大学图书馆 | 美国 | 2007 | Heritrix , Httrack , Wayback , CDL Web档案服务, Internet存档档案 | 2 | 5 | 斯坦福大学图书馆自2007年以来一直从事网络档案项目,并于2013年开始建立一个网络档案计划。SUL参与的藏品包括斯坦福大学档案馆,湾区政府,国会研究服务(CRS)报告(CRS)报告,报告,信息自由法( Foia) ,逃亡的美国执行机构等等。 SUL还参与了合作网络档案项目,例如加利福尼亚州政府领域的档案馆,加利福尼亚大学和加利福尼亚大学图书馆的图书馆和CA州图书馆,术语Web档案馆的结束,以及Ivy Plus图书馆联合会。 |
哥伦比亚大学图书馆 | 美国 | 2009 | 档案服务 | 2 | >1 | 哥伦比亚大学图书馆(CUL)Web Resources收集计划档案档案档案中选择了与现有的CUL收集优势相对应的网站,哥伦比亚大学分支机构生产的网站以及来自CUL物理档案中论文或记录的组织或个人的网站。在2008年开始网络档案。 |
康奈尔大学图书馆 | 美国 | 2011 | 档案服务 | 1 | >1 | |
北卡罗来纳州政府网站档案 | 美国 | 2005 | 档案服务 | 3 | ||
拉丁美洲网络档案项目 | 美国 | 2005 | 档案服务 | |||
太平洋群岛的网络归档项目 | 美国 | 2009 | 档案服务 | 4 | ||
国会图书馆网络档案馆 | 美国 | 2000 | Heritrix , Wayback和Digiboard,内部策展/权限工具 | 6 | 80 | 兼职人员每月花几个小时(平均)选择收藏的内容。 |
哈佛图书馆 | 美国 | 2006 | 档案 | >10 | 哈佛图书馆的网络收藏集由10个策展单元的收藏组成,可变的员工为技术和策展活动做出了贡献。哈佛还参与了通过常春藤和图书馆联合会收集的合作网络收集。
|
|
加利福尼亚数字图书馆的网络归档服务(WAS服务) | 美国 | 2005 | Heritrix , Wayback , Nutchwax | 4 | >1 | 策展人投入服务的小时数非常可变。 |
Bentley历史图书馆(密歇根大学)网络档案 | 美国 | 2000 | Httrack ,Teleport Pro,是服务(2010-) | 2 | ||
德克萨斯大学圣安东尼奥网络档案馆 | 美国 | 2009 | 档案 | 3 | 小时数的变化取决于如何安排爬网。 | |
Qumram | 瑞士 | 2010 | Qumram Web归档 /网络信息治理软件套件 | 商业网络归档 /网络信息治理软件套件。提供远程收获和交易网络归档。允许与任何可能的Web应用程序(WCMS,Portal,SharePoint,ESHOP,自定义应用程序)以及存储库(数据库,文件系统,电子存档或记录管理系统,基于云的解决方案)进行集成。允许捕获和复制公共信息以及特定的用户交互。 | ||
saperion | 德国 | 2011 | Saperion ECM Web内容存档 | 商业企业内容管理套件专门研究法规合规性。该产品基于Qumram的Chronos Web档案软件套件的集成,提供收获和交易网络档案。 Web内容只是内容到达saperion的另一个渠道。其他可能是扫描仪,传真,电子邮件,移动设备,办公室套件或任何其他创建ERP系统等内容的系统。 | ||
Bibliotheca Alexandrina的互联网档案馆 | 埃及 | 2002 | Heritrix ,OpenWayback,WarCrefs | 3 | 当前的爬行兴趣:1月25日以后的埃及,阿拉伯联盟CCTLDS 重复数据删除:使用WARCREFS工具在BA群集中重复解说Web存档内容 |
|
AUEB Web存档 | 希腊 | 2010 | Heritrix , Wayback和Nutchwax 。 | 1 | 1 | 该项目是大学图书馆功能的一部分。 |
世界银行网络档案 | 美国 | 2007 | HTTRACK CRAWLER,ORACLE RDBMS,Google Search Appliance | 0 | 3 | |
俄罗斯国家数字档案馆 | 俄罗斯 | 2010 | Wpull,Grab Site, Httrack Crawler,为社交媒体档案开发的临时脚本。实验: Heritrix , Wayback | 使用WPULL收集了约5000个政府网站(2018年5月),并作为下载档案提供。 | ||
档案团队 | 全世界 | 2009 | wpull,临时脚本 | 1 | ~100 | 志愿者团体。他们部分存档的地理位置,雅虎!视频, Google视频等。 |
维基蒂姆 | 全世界 | 2011 | 临时脚本 | 0 | 0 | 志愿者团体。保留了超过20,000个Wikis。 |
北德克萨斯大学网络赛 | 美国 | 1997 | Heritrix , Wayback ;以前是Httrack | 2 | 网络活动是政府网站的档案,这些网站已经停止运营(通常是已解决的政府机构的网站和已发布最终报告的委员会的网站)。该系列的主题列出了政府信息的广泛性质。特别是该系列的网站涵盖了支持大学课程和特定课程优势的主题。 | |
存档 | 全世界 | 2012 | Apache Accumulo , HDFS ,铬,临时脚本 | 1 | 1 | 从社区网站(Wiki,论坛,博客等)节省外部链接。可以保存Web 2.0页的快照。 |
纽约大学的驯服图书馆和罗伯特·瓦格纳劳动档案馆 | 美国 | 2007 | 是服务 | 1 | 1 | 档案网站与纽约市和国家劳动以及离开运动有关。项目包括:替代大众媒体 /新闻;无政府主义;动物权益;艺术和文化左派;公民权利和公民自由;共产主义,社会主义,托洛茨基主义;经济和社会正义(包括占领华尔街);教育和学生运动;选举政治和政党 /政治行动(美国左派);环保 /绿色运动;女权主义和妇女运动;关塔那摩湾拘留营与战争犯罪(美国);住房;互联网/网络空间民主;犹太美国进步和左派活动;工会和组织(美国);左学术界和理论,知识分子和其他知名人士; LGBT权利;其他左派行动主义;和平运动;囚犯权利和政治犯;进步政策/教育组织。 |
前药 | 全世界 | 2012 | Heritrix ,Preservica Core产品,Wayback | 基于云的异质归档服务,可以从多个来源摄入(包括通过Heritrix摄入的Web存档)。能够在WARC文件中迁移内容并以Wayback的形式进行迁移。摄入作为工作流程运行,因此需要很少的努力来运行它。由Preservica开发,支持和运行。 | ||
乌克兰的中央州电子档案 | 乌克兰 | 2007 | httrack , wget | 2 | 有兴趣保留网站并创建此类网站的主题收藏的档案,目前正在存储网站的档案集,其中包括2010年至今乌克兰总统选举的话题乌克兰,乌克兰的联合国教科文组织世界遗产,塔拉斯·舍申科(Taras Shevchenko)诞生200周年。 | |
约克大学图书馆,约克大学图书馆的回腰机 | 加拿大 | 2012 | browsertrix , pywb | 1 | 0 | |
纽约艺术资源联盟(NYARC) | 美国 | 2012 | 档案服务 | 1 | ~3 | 弗里克艺术参考图书馆,布鲁克林博物馆图书馆和档案馆以及现代艺术博物馆(MOMA)图书馆(MOMA)图书馆与档案专家艺术历史网络资源之间的合作。 |
荷兰声音和视觉研究所(声音与视觉)网络档案 | 荷兰 | 2011 | Heritrix , Elasticsearch用于全文索引,前端的Drupal | ~7 | 自2008年以来,从欧盟研究项目Liwa开始,声音和视力就参与了网络档案项目。经过几个飞行员,网络档案项目在2014年进行了扩展。 | |
根茎(组织) | 美国 | 1999 | Artbase , Webrecorder , Oldweb.today | 3 | 1 | Rhizome运行的数字保护计划,由Dragan Espenschied领导,该计划的重点是创建免费的开源软件工具,以分散Web档案和软件保存实践,并确保访问其Born-Digigital Art的收藏。 Oldweb.today和Webrecorder是其专门针对Web归档的工具。 |
德克萨斯大学奥斯汀图书馆,人权文献倡议 | 美国 | 2009 | 档案服务 | 1 | 1 | 德克萨斯大学图书馆的人权文献倡议(HRDI)捕获了人权组织的网站,以便在这些经常遇到的网站被删除的情况下提供安全访问人权文档的访问。 |
肯塔基州图书馆和档案馆 | 美国 | 2009 | 档案,Wayback | >1 | 0 | 该集合包括在行政,立法和司法部门中为肯塔基州机构的网站捕获。还符合董事会,理事会,委员会,准政府机构和代理计划的独立网站。该集合中通过从Wayback机器转移到我们的帐户中,包括2000-2008的网站的捕获。 |
加利福尼亚大学旧金山图书馆 | 美国 | 2007 | 档案, Wayback , CDL服务 | >1 | 0 | 该收集记录了UCSF的网络构成,以及更大的健康科学重点是艾滋病历史;麻醉学;生物技术和生物医学研究;烟草控制和调节;神经科学;和计算医学。员工是一位全职数字档案管理员,除了网络架构外,还负有各种责任。 |
Ivy Plus图书馆联合会 | 美国 | 2013 | 档案馆,针叶树 | 1 | 1 | Ivy Plus图书馆联合会的Web Resources收集计划是一项协作收集开发工作,旨在构建策划的,可自由使用的主题收集,但处于危险中的Web内容,以支持参与库及其他地区的研究。参与的图书馆是:布朗,芝加哥,哥伦比亚,康奈尔,达特茅斯,杜克大学,哈佛大学,约翰·霍普金斯,麻省理工学院,宾夕法尼亚州,普林斯顿,斯坦福大学和耶鲁大学。可以通过存档访问收集。 |
马来西亚政府网络档案(MYGWA) | 马来西亚 | 2017 | Wayback, Wget ,Wpull | >1 | 0 | 自2017年以来,马来西亚国家档案馆开始在马来西亚档案归档公共部门的网站。 |
HTTP档案 | 爬网受欢迎的网站进行数据分析 | |||||
国家医学图书馆(美国) | 美国 | 2009 | 档案馆,针叶树 | ~8 | NLM Web收集是由国家医学图书馆和其他战略收集工作的收集开发指南指导的。收集包括全球健康事件,阿片类药物流行,艾滋病毒/艾滋病,健康和医学博客以及NLM自己的网络存在。 | |
史密森尼图书馆和档案馆(美国) | 美国 | 2000 | Heritrix , Archive-IT , Webrecorder , Conifer ,Browsertrix,其他 | 5 | 史密森尼图书馆和档案馆收集了记录机构历史的网站和社交媒体帐户。
|
|
幽灵档案 | 美国 | 2021 | Webrecorder | 1 | ||
常见的爬网 | 美国 | 2008 | Apache Nutch , Apache Tika , Pywb ,内部工具 | 3 | 3 |
存档数据
姓名 | 存档的内容(数百万) | 磁盘空间被占用(TB) | 存档格式 | TLD/Broad Crawls | 选择性爬网(是/否) | 评论 |
---|---|---|---|---|---|---|
欧盟网络档案 | 沃克 | 。欧洲联盟 | Y | .EU 250个网站europa.eu域和子域中,应网站所有者的要求(选择性爬网)每季度爬行一次 +临时爬网。地位2019年2月。 | ||
澳大利亚的网络档案 | 11000 | 600 | 沃克 | .au | Y | .AU Crawls(1996–2018):101.5亿个文件(530 TB)。选择性爬网(1996- 2019年):7.55亿档案(44 TB)。 AGWA(2011–2018):5.25亿档案(58 TB)。 |
我们的数字岛,塔斯马尼亚网络档案馆 | 0.336 | httrack | Y | 保存与塔斯马尼亚州有关的在线内容。 ODI自成立以来就在1984年《塔斯马尼亚图书馆法》中的“书籍”定义范围内进行了假设。因此,不需要从发布者那里捕获出版商的许可。 | ||
网络结构奥地利 | 4095 | 164 | 弧 | .at , .wien , .tirol | Y | 数据的副本存储在高安全性数据存储单元中。 |
德意志国家占地 | 沃克 | .de | Y | 只有一个实验性TLD爬网。 | ||
Dilimag(数字文学杂志) | 0.03 | 0.996 | 弧 | 从2007-03-01到2010-12-23的项目。 Dilimag项目用于收集,描述和归档数字德国文学杂志。 | ||
Bibliothèqueet Archives Nationals duQuébec (BANQ) | 167 | 31 | 弧/战 | Y | 收获始于2009年。魁北克网站的选择性爬网。 | |
加拿大政府网络档案馆(GCWA) | 1750 | 70 | 弧/战 | .gc.ca | Y | 加拿大图书馆和档案馆(LAC)的网络存档始于2005年,专注于收集联邦政府的网络席位,并捕捉联邦选举,奥运会和加拿大纪念活动。自2009年以来,加拿大研究兴趣的主题网络集已被策划为正在进行的计划活动。 |
网络信息收集和保存-WICP(中国网络档案) | .gov.cn | Y | 关于对社会,经济等有很大影响的事件以及“ Gov.cn”域中的地点的收获。 | |||
克罗地亚网络档案馆(hrvatski arhiv weba- haw) | 231 | 13 | 镜子,沃克 | .hr | Y | 自2004年以来,选择性收获超过5000个网络资源。自2011年每年对国家.HR领域的收获以及主题收获。所有存档的内容均通过HAW网站公开获得。 |
Webarchiv (捷克共和国国家图书馆) | 9412 | 350 | 弧/战 | .cz | Y | 收获始于2001年。 |
Netarkivet/丹麦网络档案馆(丹麦皇家图书馆) | 36000 | 634 | 弧/战 | .dk | Y | +36亿个对象:
|
爱沙尼亚网络档案 | 874 | 56 | 弧/战 | .ee | Y | 自2010年以来,档案是选择性,活动和局部爬网。整个国家域爬网都是自2015年以来每年完成的。除了TLD .EE,Estonia与Estonia相关的Web内容是从其他TLD-S等诸如.eu,.org,.org,.com等收获的。 |
芬兰网络档案 | 4300 | 300 | 弧/ WARC / .JSON / .MP4 | .fi , .ax | Y | 还抓取托管在芬兰物理上的机器上,独立于其域名。 |
BNF-网络法律存款 | 48 000 | 1 800 | 弧/战 | .FR +在法国托管的所有站点 | Y | BNF正在制作.fr TLD中的所有站点,以及在法国托管和生产的所有站点,忽略了机器人排除标准和文件的许可。 |
BNL Web-Archive | 543 | 41 | 沃克 | 。鲁 | Y | BNL每年进行2个域爬网,以及基于事件的和选择性的爬网。 |
ina(美国国家国家研究所) | 105800 | 2359 | 达夫 | Y | 截至2021-03-08
Daff处理完整的内容重复数据删除,因此磁盘上的大小考虑了压缩和重复数据删除;压缩弧格式的等效磁盘存储大约为10 pb |
|
E-Diaspora(TélécomParistech,FMSH) | 1030 | 13 | 达夫 | Y | Daff处理完整的内容重复数据删除,因此磁盘上的大小考虑了压缩和重复数据删除;压缩弧格式的等效磁盘存储大约为51 tb | |
互联网记忆基础 | 180 | 沃克 | 可以由合作伙伴完成 | Y | 以前是欧洲档案馆。与Internet Memory Research合作,该研究提供了Archivethenet服务(ATN服务)。选择性爬网(140 TB),域爬网(40 TB)预计将在2012年增长到1pb。在2012年,新的数据中心和新的爬虫。 | |
Bibliotheksservice-Zentrum Baden-Württemberg | 9 | 沃克 | Y | BSZ在各种存档馆藏的委员会中收集了大约20个城市,市政当局,地区 +其相关公司和州图书馆的网站。公共访问。数据存储:旧金山(Archive-IT)以及Baden-Wuerttemberg存储基础架构的备份。 | ||
德国政府的网络档案 | Y | 德国联邦议会。可选择的。定期或在某些事件中是www.bundestag.de的快照(快照)和德国Bundestag制作的其他网络平台。这些可在迄今为止可用的网络存档中可用。 | ||||
冰岛 | ||||||
以色列网络档案 | 弧/战 | .il | Y | .il Crawls(2006- 2011年):飞行员爬网(500 GB)。选择性爬网(1996,2011) | ||
日本国家饮食图书馆的网络档案项目(翘曲) | 12670 | 1313 | 沃克 | - | Y | 截至2023年3月 根据许可(2002-2010)的15 TB选择性爬网。根据2010年4月的立法,启动了官方机构站点的网络档案。 |
韩国国家图书馆 - 绿洲(在线归档和搜索互联网资源) | 24 | Y | 在存档之前需要同意。目标56,401个网站。网络归档在数字资源管理系统下进行管理。在2011年,将重建网络档案系统。 | |||
Koninklijke Bibliotheek | 407 | 36 | 沃克 | Y | 大约(每年)的选择性爬网。 20.400站点(2020年12月) | |
新西兰网络档案 | 4300 | 260 | 弧/战 | .nz | Y | .NZ Crawls(2008-2023):4亿多个URL(260TB)。选择性爬网33,500个网站(约9TB)。法定押金涵盖了诞生的数字材料(包括网站)。 |
挪威国家图书馆 | ||||||
arquivo.pt | 17 716 | 876 | 弧/战 | 专注于.pt ,但也专注于其他域 | Y | 自2007年以来,自2010年以来,自2010年以来的在线出版物的选择。欧洲联盟。 |
卡卡克的网络档案 | 0.255 | 0.013 | httrack | Y | 与卡卡克市有关的130个地点的选择性爬网。与捷克共和国国家图书馆的网络统治团队合作。 | |
网络档案新加坡 | 沃克 | .sg | Y | 与新加坡相关站点和.sg域归档的选择性爬网。 | ||
数字资源( Bratislava的大学图书馆) | 1 921 | 89 | 沃克 | .sk +其他带有滑动内容的TLD | Y | 斯洛伐克网络的收获始于2015年。从那时起,ULB进行了六次(2016-2021)全域收获(国家.sk域的收获),多个选择性爬网和主题爬网(主题为中心和活动的活动)。 |
斯洛文尼亚网络档案 | 30 | 沃克 | 自2007年以来,选择性爬网是自2014年以来的国家领域爬网。 | |||
Archivo de la webespañola | 2539 | 117 | 沃克 | .es | Y | Domain .ES Crawls(2009-2013):与Internet Archive合作,有24.21万个文件(111 TB)。选择性爬网(2014–2015):119密耳(6 TB)。每天约有30个新闻媒体网站爬行。尚未公开推出。 |
Padicat:加泰罗尼亚的网络档案 | 620 | 32,5 | 弧/战 | 。猫 | Y | 根据一般趋势,存档模型是一个混合系统,该系统包括:在互联网上发布的开放访问数字资源的大规模汇编(.cat);加泰罗尼亚组织网站输出的系统归档;通过与加泰罗尼亚公共生活(选举,博物馆等)主题整合的数字资源的主题整合来促进研究线 |
巴斯克数字遗产档案 | 21 | 0.8 | 弧 | Y | ||
瑞典(kulturarw3) | 5700 | 360 | 多部分模拟 | 。 | Y | 散装每年大约两次。 每天约有140家报纸的选择性爬网。 |
Aleph档案 | >10000000 | >25 | 本地HTML , WARC ,WARC2, ARC和HTTRACK到WARC迁移工具 | Y | 用于在线捕获和保存的企业级自动网络档案平台。用强大而定性的技术支持Ediscovery。
旨在旨在捕获,保存和利用其网络内容的公司,机构和机构;动态网站,Wiki,社交媒体,论坛,评论,免责声明和广告(FDA, FINRA ,FSA,SEC,FOIA),营销或纯保存目的。 |
|
网络档案瑞士 | 80 | Arc , Warc | Y | 主要选择的.ch爬网 | ||
NTU Web档案系统,NTUWAS | 200 | 14 | Y | |||
网络档案台台湾 | ||||||
英国网络档案 | 20.6 | 沃克 | Y | 有选择性爬网已获得以前的权限。现在还根据2013年4月颁布的非印刷法律押金立法进行英国批发域级爬网。该内容仅在由六个合法存款库之一控制的场所中可用。 UKWA是从2007年结束的英国网络档案财团的衍生产品。 | ||
Hanzo档案 | 7 | 沃克 | Y | 商业网络档案服务和设备,适用于政府和公司的合规性或法律义务 /需求扩展到其网站,Intranet和社交媒体。欧洲和美国的许多“黑暗”档案。 | ||
英国政府网络档案 | 1000 + | 150 |
弧
WARC邮政2017年7月 |
在2003年至2005年之间,互联网档案代表英国政府网络档案馆进行了网络档案的技术方面。在2005年至2017年7月之间,Web档案服务的技术方面已签订到Internet Memory Foundation。从2017年7月开始,MirrorWeb接管了合同,并将整个档案转移到了云层。英国政府网络档案馆是2004年至2009年英国网络档案财团的一部分。 | ||
互联网档案(提供存档服务) | 690000 | 21000 | 全世界 | Y | 提供存档服务,并领导档案访问项目(Internet Archive Arc访问工具)。收集在埃及亚历山大的书目中进行了反映。 | |
哥伦比亚大学图书馆网络资源收集计划 | 723 | 50.4 | 弧/战 | Y | 选择性爬网经许可或通知。主题收藏:人权;纽约市建筑环境;纽约市宗教;反抗。还捕获哥伦比亚大学网络领域。 | |
北卡罗来纳州政府网站档案 | 51.5 | 3.8 | 沃克 | Y | ||
拉丁美洲网络档案项目 | Y | |||||
太平洋群岛的网络归档项目 | 5.5 | 弧/战 | Y | 包括18个国家的地点。 | ||
国会图书馆网络档案馆 | 7741 | 420 | 弧/战 | Y | 以前是密涅瓦。有选择性爬网,并获得通知和许可;主要是事件和主题收藏。 | |
哈佛大学图书馆:网络档案收集服务(蜡) | 19 | 0.661 | 弧 | Y | 选择性爬网没有以前的授权。 | |
加利福尼亚数字图书馆的网络归档服务(WAS服务) | 216 | 25.2 | 弧/战 | 可以由合作伙伴完成 | Y | 向全球合作伙伴提供网络归档服务(WAS)。是在加利福尼亚数字图书馆开发的。 |
Bentley历史图书馆(密歇根大学)网络档案 | 34.5 | 2.6 | 弧/战 | Y | 自2010年以来一直是服务。 | |
德克萨斯大学圣安东尼奥网络档案馆 | 26 | 1.135 | 弧/战 | Y | 大学管理,教职员工;以及在包括圣安东尼奥组织在内的圣安东尼奥和南德克萨斯州主题地区的选择性捕获;圣安东尼奥在线期刊和博客; Tejano和Conjunto音乐;德克萨斯州,圣安东尼奥和里奥格兰德山谷的同性恋,女同性恋,双性恋,变性人和酷儿相关网站;移民/边境地区;墨西哥烹饪博客;圣安东尼奥餐厅;德克萨斯州的可再生能源;里奥格兰德谷组织;里奥格兰德分水岭和德克萨斯州的水问题。 | |
AUEB Web存档 | 3 | 沃克 | aueb.gr | N | 从域AUEB.gr捕获的数据量在10GB至14.9GB之间。数据存储在压缩磁盘上,需要在8.8GB至9.7GB之间,导致空间节省在12%至35%之间。对于新爬网,我们只能存储以来自上次爬网以来更改的网页。因此,我们从域AUEB.gr爬行13.1GB,但我们仅存储在磁盘1.6GB上,从而节省了88%的空间。 | |
世界银行网络档案 | 0.143 | httrack | 不,到目前为止 | Y | 自2007年以来,已收获了450个具有历史或研究价值的地点,每个站点在离线之前或大型升级之前进行了存档。 | |
北德克萨斯大学网络赛 | 0.887 | 沃克 | .gov | Y | ||
Bibliotheca Alexandrina的互联网档案 | 80000 | 1000 | 弧/战 | 埃及新闻和政治 | Y | |
约克大学数字图书馆 | 0.435 | 沃克 | yorku.ca +教师要求 | Y | ||
荷兰声音和视觉研究所(声音与视觉)网络档案 | 弧/战 | Y | 在其他Av-Heritage中,声音和愿景的任务是由荷兰公共广播公司播出的归档计划。因此,Web档案的重要组成部分是与这些程序相关的公共广播网站的网站。此外,网站的存档没有直接与该集合的链接,但以更广泛的媒体历史方式感兴趣。例子是商业广播公司的网站。 | |||
肯塔基州图书馆和档案馆 | 3 | 0.3007 | 沃克 | Y | ||
加利福尼亚大学旧金山图书馆 | 12.5 | 0.587 | 弧/战 | Y | 员工和教职员工要求的网站,以及不断增长的清单,试图尽可能全面捕获所有UCSF网站。 | |
Ivy Plus图书馆联合会 | 347 | 16 | 弧/战 | Y | 带通知的选择性爬网。政治和政治抗议,建筑,作曲家,游戏,地质,网络漫画,纪录片,艺术,宗教,性,气候变化等等的主题收藏。 | |
马来西亚政府网络档案(MYGWA) | 10 | 沃克 | .gov.my | Y | 仅爬网仅马来西亚公共部门网站。观点是按主题,即管理,经济,安全和社会的看法。 | |
国家医学图书馆(美国) | 122 | 9.1 | 沃克 | Y | ||
史密森尼图书馆和档案馆(美国) | 10 | 沃克 | Y | |||
常见的爬网 | 弧/战 | 全世界 | Y |
访问方法
姓名 | URL历史记录(是/否) | 元数据(目录/高级)搜索(是/否) | 全文搜索(是/否) | 纪念品合规性(否/本地/代理) | 评论 |
---|---|---|---|---|---|
欧盟网络档案 | Y | Y | Y | 通过[2]可以自由访问 | |
澳大利亚的网络档案 | Y | Y | Y | 不 | 选定的站点可通过目录结构公开获得。域收获不是。 Pandora档案是通过NLA的单个搜索服务Trove索引和搜索的。 澳大利亚领域的收获是全文索引,但目前尚未公开可用。 URL可以通过其门户网站搜索澳大利亚政府网络档案。 |
我们的数字岛,塔斯马尼亚网络档案馆 | Y | Y | N | 不 | 通过HTML生成的缩略图,以在HTTRACK中补充图像。信息是在目录中组织的:AZ主题上市,AZ标题上市。 |
网络结构奥地利 | Y | N | Y | 不 | 可以在线搜索URL或(部分)FullText的版本。这些网站只能在奥地利国家图书馆的特殊码头上访问。具有书签功能,该功能允许在线保存版本并在图书馆网络终端中召回它们。 |
德意志国家占地 | Y | Y | Y | 不 | 仅在德国国家图书馆的阅览室中访问。元数据包含在可公开访问的图书馆目录中。 |
Dilimag(数字文学杂志) | Y | Y | N | 不 | 元数据公开可用,对于存档版本而言,根据正确的持有人协议提供免费或限制的访问。全文搜索在新版本中实现(自2015年2月以来在线)。 |
Bibliothèqueet Archives Nationals duQuébec (BANQ) | Y | N | N | 不 | 根据合作伙伴政策提供访问权限。 |
加拿大政府网络档案馆(GCWA) | Y | Y | Y | 代理人 | 加拿大图书馆和档案馆使其联邦政府的网络档案(皇冠版本下)公开访问。索引可用于通过创作组织和URL字母顺序发现加拿大联邦网络资源。全文索引基于Lucene。 |
网络信息收集和保存-WICP(中国网络档案) | Y | 不 | 档案内容仅在中国国家图书馆的Intranet中可用。有些收藏可以公开可用,并提供元数据搜索,并且可以按收集浏览。 | ||
克罗地亚网络档案馆(hrvatski arhiv weba- haw) | Y | Y | Y | 代理人 | 完全开放访问。 |
Webarchiv (捷克共和国国家图书馆) | Y | N | N | N | 由于版权限制,仅在线提供与出版商签署协议的存档网站。对于其他资源,您可以找出是否已存档了一个给定的网站和收获版本的数量。可以从国家图书馆的公共终端获得对Webarchiv中所有资源的无限访问。 |
netarkivet.dk | Y | N | Y | 不 | 在线访问仅通过Citrix登录向研究人员授予,以基于SOLR和代理解决方案免费提供文本搜索,该解决方案可以通过Wayback访问档案。它已经建立了一个框架,用于运行批处理作业,并具有数据挖掘的可能性。 |
爱沙尼亚网络档案 | Y | Y | N | 不 | 仅在版权所有者的许可下才允许公开访问存档内容。完整的档案只能进入网络档案人员。 |
芬兰网络档案 | Y | N | 15%的材料。 | 不 | URL搜索但现场访问内容。全文搜索可用于15%的材料。 |
BNF-网络法律存款 | Y | N | 收集的15% | 不 | 授权用户可以通过位于巴黎和阿维尼农的BNF研究图书馆的阅览室以及地区和海外地区的合作伙伴图书馆访问。 Wayback是定制的,界面被翻译成法语。全文搜索仅在特定集合上可用(即新闻,Covid-19,早期的法国网络)。基于档案中关于给定主题的档案的选择来构建特殊的收集画廊。 |
ina(美国国家国家研究所) | Y | Y | Y | 不 | 全文索引基于Lucene。为了适应经常爬网的结果(某些页面每小时爬网)进行聚类以处理类似版本的页面 |
E-Diaspora(TélécomParistech,FMSH) | Y | N | N | 不 | 目前有1381个网站爬到了有关网络移民使用的档案馆,社会研究研究人员已经根据该档案iNA启动了一个长期项目,正在处理爬网和存储 |
互联网记忆基础 | Y | Y | Y | 不 | 根据合作伙伴政策提供访问和搜索服务。 |
Bibliotheksservice-Zentrum Baden-Württemberg | Y | Y | Y | 本国的 | 存档网站可通过Archive-IT访问;集成在SWB联合目录中。大部分快照的全部开放访问,有些受IP限制。 |
德国政府的网络档案 | Y | N | N | 不 | Web档案本身是www.bundestag.de和其他网站的快照。单击几年可以进行导航。 |
冰岛 | 本国的 | ||||
以色列网络档案 | N | Y | N | 不 | 仍在开发和飞行员 |
日本国家饮食图书馆的网络档案项目(翘曲) | Y | Y | Y | 本国的 | 所有存档的网站均可在该处可用。在网站管理员的许可下,在互联网上也可以访问其中85%。 |
韩国国家图书馆- 绿洲(在线归档和搜索互联网资源) | Y | Y | Y | 不 | 100%的存档索引。启用搜索主题分类(例如宗教,科学,艺术)。可用搜索。 |
Koninklijke Bibliotheek | Y | N | N | 不 | 可以在KB阅读室的终端上访问Web档案,该终端可转换到完整的成员(“现场”)。 |
新西兰网络档案 | Y | Y | Y | 本国的 | 域收获:使用PYWB的选定员工可用,并限于URL搜索。选择性收获:每个网站都在目录中描述(提供主题,作者,标题和URL搜索),并且可以通过Internet单击指向存档副本的链接来通过Internet查看。使用全文搜索可以访问选择性收获的一小部分。 |
挪威国家图书馆 | N | Y | 不 | 站点集成在目录中。左栏启用式钻头导航。 | |
arquivo.pt-葡萄牙网络架构 | Y | Y | Y | 本国的 | 可以免费获得全文和URL搜索服务。还支持图像搜索。可以通过Hadoop平台或公开可用的应用程序编程界面来开采存档数据以开发Web应用程序。 |
卡卡克的网络档案 | N | N | N | 不 | 计划将来开发搜索引擎。 HTTRACK的一个不良特征是它在归档期间重命名文件,因此网站的原始结构也丢失了,也是文件名称。 |
网络档案新加坡 | Y | Y | Y | 不 | 该藏品在新加坡国家图书馆可查看,其选定内容由在线可用的版权所有者清除。 |
数字资源(Bratislava的大学图书馆) | Y | Y | N | 不 | 可以找出是否已存档网站以及存在多少收获版本。由于版权限制,仅公开可用的网站数量有限(根据与出版商的协议)。对其他存档资源的访问可在Bratislava的大学图书馆本地获得。 |
斯洛文尼亚网络档案 | Y | N | Y | 不 | 选择性爬网的档案是可以公开访问的。通过浏览和全文搜索可以使用。国家领域爬网尚无法访问,但将来将是。 |
Archivo de la webespañola | y(未来) | y(未来) | y(未来) | 不 | 计划在短期期间提供现场访问。 |
Padicat:加泰罗尼亚的网络档案 | Y | Y | Y | 不 | 完全开放访问。 |
巴斯克数字遗产档案 | Y | Y | Y | 不 | |
瑞典(kulturarw3) | Y | N | N | 不 | 通过图书馆大楼中专用的机器的公共访问。 |
Aleph档案 | Y | Y | Y | 不 | 用于在线捕获和保存的企业级自动网络档案平台。用强大而定性的技术支持Ediscovery。
旨在旨在捕获,保存和利用其网络内容的公司,机构和机构;动态网站,Wiki,社交媒体,论坛,评论,免责声明和广告(FDA, FINRA ,FSA,SEC,FOIA),营销或纯保存目的。 |
网络档案瑞士 | Y | Y | Y | 不 | 瑞士网络档案馆是瑞士国家图书馆的收藏,其中包含瑞士的网站。瑞士Web档案馆已集成到瑞士国家图书馆的访问系统E-Helvetica中,可访问整个数字馆藏。因此,您可以对Web存档的一部分进行全文搜索。但是,只有在瑞士国家图书馆的阅览室和我们的合作伙伴图书馆的阅览室中,才能查看网站的存档版本,这些版本可以帮助我们建立瑞士网站的集合。但是您可以从任何地方查看存档版本的元数据。 |
NTU Web档案系统,NTUWAS | Y | Y | Y | 不 | 礼物页面缩略图,映射到地理位置的存档页面。 |
网络档案台台湾 | Y | Y | Y | 不 | |
PageFreezer | Y | Y | Y | 不 | 企业类要求档案和重播网站,博客,Ajax,Flash,flash,视频,音频和社交媒体,以保护诉讼保护,Ediscovery和法规遵守FDA,FINRA,FSA,FSA,SEC,SEX,SOX,联邦证据和记录管理法规, 。政府机构和公共上市公司在药品,食品,金融,医疗保健和零售业中使用。 |
英国网络档案 | Y | Y | N | 本国的 | |
Hanzo档案 | Y | Y | Y | 不 | 商业网络档案服务和设备。访问包括全文搜索,注释,修订,URL/历史记录,存档策略和时间浏览,以及用于高级电子发现应用程序的可配置元数据架构。用于合规性或法律义务 /需求的政府和公司,扩展到其网站,Intranet和社交媒体。欧洲和美国的许多“黑暗”档案。 |
英国政府网络档案馆(UKGWA) | Y | Y | Y | 本国的 | 全文搜索是在英国政府网络档案馆(UKGWA)上运行的。用户可以使用所有网站的完整列表浏览集合 |
欧盟退出网络档案 | Y | Y | Y | 本国的 | 全文搜索是在欧盟退出Web档案中运行的 |
互联网档案(提供存档服务) | Y | Y | Y | 本国的 | URL历史记录可用于所有存档数据。元数据和全文仅搜索选定的爬网。直到2002年,Alexa Shell Perl工具制作的研究平台
AV_Tools和P2平台用于并行处理。它被更简单的访问和直接方法替换,该方法可以自动访问文件,但没有处理平台进行处理。 |
哥伦比亚大学图书馆网络资源收集计划 | Y | Y | Y | 不 | 可通过档案服务访问。 |
北卡罗来纳州政府网站档案 | Y | Y | Y | 不 | 可通过档案服务访问。 |
拉丁美洲网络档案项目 | Y | Y | Y | 不 | 可以通过全文搜索或按国家浏览或通过专门的样本收集来访问内容。 |
太平洋群岛的网络归档项目 | Y | Y | Y | 不 | 由Archive-IT服务支持。 |
国会图书馆网络档案馆 | Y | Y | N | 代理人 | 通过LCWA提供访问。记录mods(元数据对象描述性架构)格式。 |
哈佛大学图书馆:网络档案收集服务(蜡) | Y | Y | Y | 不 | |
加利福尼亚数字图书馆的网络归档服务(WAS服务) | Y | Y | Y | 不 | 获得私人学习,奖学金和研究的访问。大多数与合作伙伴决定是否要提供访问权的档案尚未发布。有16个合作伙伴使用该服务,他们创建了80多个网络档案,只有30个可以公开访问。 Nutchwax性能不允许进行完整的存档搜索。即将到达SOLR的过渡将允许完整的档案和特定收集的全文搜索。 |
Bentley历史图书馆(密歇根大学)网络档案 | Y | Y | Y | 不 | 由加利福尼亚数字图书馆的WAS提供支持。访问是公开的,但使用限制用于私人研究,奖学金和研究。 |
德克萨斯大学圣安东尼奥网络档案馆 | Y | Y | Y | 本国的 | 可通过档案馆服务和德克萨斯档案存储库在线数据库访问 |
AUEB Web存档 | Y | Y | Y | 不 | |
世界银行网络档案 | Y | Y | Y | 不 | 通过标准Web浏览器开放访问收集的URL历史记录。全文搜索仅在每个单独的站点内可用。元数据上的搜索可通过Web Archives Collection中的高级搜索获得。 |
北德克萨斯大学网络赛事 | N | Y | Y | 不 | |
纽约大学的驯服图书馆和罗伯特·瓦格纳劳动档案馆 | Y | Y | Y | 不 | 通过IS服务以及通过NYU的Finding Aids Portal搜索的辅助设备提供访问。 |
约克大学数字图书馆 | Y | Y | Y | ||
荷兰声音和视觉研究所(声音与视觉)网络档案 | Y | Y | N | 已公开获得协议的选定站点。全文索引是通过Elasticsearch完成的,前端是内置的。 | |
肯塔基州图书馆和档案馆 | Y | Y | Y | 不 | 完全开放访问 |
加利福尼亚大学旧金山图书馆 | Y | Y | Y | 本地(通过IA ) | 存档IT服务提供了存档内容的捕获和访问,因此所有功能均与存档 - IT相同 |
Ivy Plus图书馆 | Y | Y | Y | 不 | 可通过档案服务访问。 |
马来西亚政府网络档案(MYGWA) | Y | Y | Y | 不 | 开放访问 |
国家医学图书馆(美国) | Y | Y | Y | 通过存档提供访问 | |
史密森尼图书馆和档案馆(美国) | Y | Y | Y | 通过存档提供访问 |
也可以看看
- Wikipedia:Wikipedia上的网络档案列表