网络归档
网络档案是收集全球网络部分的过程,以确保将信息保存在未来的研究人员,历史学家和公众的档案中。 Web档案管理员通常会由于网络上的大小和信息量而采用Web爬网进行自动捕获。 Wayback Machine是基于批量爬行方法的最大的Web档案组织,该组织努力维护整个网络的存档。
在网络上创建和记录的人类文化的日益增长的部分使得不可避免的是,越来越多的图书馆和档案将不得不面对网络档案的挑战。国家图书馆,国家档案馆和各种组织的各种财团也参与了文化上重要的网络内容。
商业网络档案软件和服务也适用于需要归档自己的网络内容以供公司遗产,监管或法律目的进行归档的组织。
历史和发展
虽然自1990年代中期至后期以来,网络的策划和组织一直很普遍,但第一个大规模的网络档案项目之一是Internet Archive ,这是Brewster Kahle在1996年创建的非营利组织。它自己的搜索引擎,用于查看存档的Web内容,即Wayback Machine ,于2001年。截至2018年,Internet档案馆拥有40 pb的数据。 Internet档案还开发了许多自己的工具来收集和存储其数据,包括Petabox有效,安全地存储大量数据,而Heritrix(Heritrix )是与北欧国家图书馆结合使用的Web爬网。在同一时间启动的其他项目包括加拿大国家图书馆,澳大利亚的潘多拉,塔斯马尼亚网络档案馆和瑞典的Kulturarw3的网络档案项目。
从2001年到2010年,国际网络档案研讨会(IWAW)提供了一个分享经验和交换想法的平台。国际互联网保护联盟(IIPC)成立于2003年,它促进了国际合作,以开发用于创建Web档案的标准和开源工具。
现已停产的互联网记忆基金会成立于2004年,由欧洲委员会成立,目的是归档欧洲的网络。该项目开发并发布了许多开源工具,例如“丰富的媒体捕获,时间连贯性分析,垃圾邮件评估和术语进化检测”。基金会的数据现在由Internet档案存储,但目前不可公开访问。
尽管事实上对其保存没有集中责任,但Web内容仍在迅速成为官方记录。例如,2017年,美国司法部确认政府将总统的推文视为官方声明。
收集方法
Web档案管理员通常会存档各种类型的Web内容,包括HTML网页,样式表, JavaScript ,图像和视频。他们还存档有关收集资源的元数据,例如访问时间, MIME类型和内容长度。该元数据可用于建立存档集合的真实性和出处。
远程收获
最常见的Web档案技术使用网络爬网器来自动收集网页的过程。 Web Crawler通常会以用户使用浏览器查看Web的方式访问网页,因此提供了一种相对简单的远程收获Web内容的方法。用于网络归档的网络爬网示例包括:
有各种免费服务,可以使用网络爬行技术来“按需”来归档Web资源。这些服务包括Wayback Machine和Webcite 。
数据库归档
数据库归档是指用于存档数据库驱动网站的基础内容的方法。通常,通常需要使用XML将数据库内容提取到标准架构中。一旦以该标准格式存储,就可以使用单个访问系统提供多个数据库的存档内容。分别由 法国族裔国家和澳大利亚国家图书馆开发的DeepArc和Xinq工具来说明这种方法。 DeepArc使关系数据库的结构可以映射到XML模式,并且内容导出到XML文档中。然后,XINQ允许该内容在线交付。尽管无法准确保留网站的原始布局和行为,但XINQ确实允许复制基本的查询和检索功能。
交易归档
交易归档是一种事件驱动的方法,它收集了Web服务器和Web浏览器之间发生的实际交易。它主要用作保存在给定日期实际上在特定网站上实际查看的内容的证据的一种手段。对于需要遵守法律或监管要求以披露和保留信息的组织,这可能特别重要。
交易归档系统通常是通过将每个HTTP请求拦截到Web服务器中的每个HTTP请求,从而过滤每个响应以消除重复内容,并将响应永久存储为bitstreams。
困难和局限性
爬虫
依靠网络爬行作为收集网络的主要手段的网络档案受到网络爬行的困难的影响:
- 机器人排除协议可以请求爬行者无法访问网站的部分。一些Web档案管理员可能会忽略该请求,无论如何这些部分。
- 网站的大部分可能隐藏在深层网络中。例如,如果爬行者无法遵循指向结果页面的链接,则网络表格背后的结果页面可能位于深网。
- Crawler陷阱(例如,日历)可能会导致爬行者下载无限数量的页面,因此通常配置爬网以限制其爬网的动态页面的数量。
- 大多数归档工具都无法捕获本页面。据观察,在存档时通常会错过广告横幅和图像。
但是,重要的是要注意,本机格式网络存档,即,具有工作链接,媒体等的完全可浏览的Web档案,只有使用Crawler技术才真正有可能。
网络是如此之大,以至于爬行的很大一部分需要大量的技术资源。此外,网络变化如此之快,以至于部分网站的某些部分可能会遭受爬网之前的修改。
一般限制
与对常规浏览器请求相比,一些Web服务器配置为将不同的页面返回到Web Archiver请求。这通常是为了欺骗搜索引擎将更多用户流量引导到网站,并且通常是为了避免问责制,或仅向可以显示它的浏览器提供增强的内容。
网络档案管理员不仅必须应对网络归档的技术挑战,而且还必须与知识产权法抗衡。彼得·莱曼(Peter Lyman)指出:“尽管网络被普遍视为公共领域资源,但它是版权的;因此,档案管理员没有复制网络的合法权利”。但是,某些国家的国家图书馆有法律权利在法定押金的延长下复制部分网络的部分权利。
一些私人非营利网络档案,例如Webcite , Internet档案或Internet Memory Foundation,允许内容所有者隐藏或删除他们不希望公众可以访问的内容。其他网络档案只能从某些位置访问或已监管使用。 Webcite引用了Google赢得的最近针对Google的缓存的诉讼。
法律
2017年,美国金融监管机构的金融行业监管局(FINRA)发布了一个通知,指出所有从事数字通信的业务都必须保留记录。这包括网站数据,社交媒体帖子和消息。一些版权法可能会抑制网络归档。例如, Sci-Hub的学术存档属于当代版权法的范围。该网站提供了对学术工作的持久访问,包括没有开放访问许可证的工作,从而有助于科学研究的档案,否则可能会丢失。