链路腐烂
链接腐烂(也称为链接死亡,链接断开或参考腐烂)是随着时间的流逝而倾向于停止的超链接现象,以指向其最初针对的文件,网页或服务器,因为该资源已重新安置到新地址或成为新地址或成为新地址永久不可用。不再指向其目标的链接,通常称为破碎,死亡或孤立的链接,是一种悬空指针的一种特定形式。
链接腐烂的速率是研究和研究的主题,因为它对互联网保存信息的能力具有重要意义。在研究之间,该速率的估计值差异很大。信息专业人士警告说,Link Rot可能会使重要的档案数据消失,从而可能影响法律体系和奖学金。
流行率
许多研究检查了链接腐烂在万维网中的频率,在使用URL引用Web内容的学术文献中以及数字库中。
2002年的一项研究表明,数字库中的链接腐烂比网络上的腐烂要慢得多,发现一年后约3%的物体不再可访问(等于将近23年的半衰期)。
2003年的一项研究发现,在网络上,每周每周破产中每200个链接中约有一个链接,这表明半衰期为138周。 2016 - 2017年对雅虎的链接研究的研究很大程度上证实了这一速度。目录(经过21年的开发后,在2014年停止更新)发现该目录的链接的半衰期是两年。
2004年的一项研究表明,Web链接的子集(例如针对特定文件类型或由学术机构托管的文件类型的子集)可能具有截然不同的半衰期。选择用于出版的URL的寿命似乎高于平均URL。 Weblock 2015年的一项研究分析了来自三个主要开放访问发行商的全文信息中的参考文献中的180,000多个链接,发现了大约14年的半衰期,通常证实了2005年的一项研究,发现D中一半的URL在D中引用了D中的一半。 - Lib杂志文章发表10年后活跃。其他研究发现,学术文献中的链接腐烂率更高,但通常表明半衰期为四年或更高。 2013年在BMC生物信息学上进行的一项研究分析了汤姆森路透科学网络引用指数中的近15,000个链接,发现网页的中位寿命为9。3年,仅存档了62%。一项2021年对1996年至2019年之间发表的《纽约时报》文章中外部联系的研究发现,半衰期约为15年(内容主题之间存在显著差异),但指出13%的功能链接不再导致原始内容- A现象称为内容漂移。
一项2023年的研究研究了美国Covid-19仪表板,发现2021年2月23%的州仪表板不再在2023年4月的上一个URL上提供。
原因
链接腐烂可能是由于几次出现而导致的。可以删除目标网页。托管目标页面的服务器可能会失败,从服务中删除或搬迁到新的域名。早在1999年,人们注意到,可以将大量的材料存储在硬盘驱动器上,“单个磁盘故障可能就像亚历山大的图书馆燃烧。”域名的注册可能会失效或转移到另一方。某些原因将导致链接未能找到任何目标并返回错误,例如HTTP 404 。其他原因将导致与链接作者预期的链接与目标内容的链接。
断开链接的其他原因包括:
- 对导致URL变化的网站的重组(例如
domain.net/pine_tree
可能被移至domain.net/tree/pine
) - 将以前的免费内容搬迁到付费墙后面
- 服务器体系结构的更改导致代码,例如PHP的功能不同
- 动态页面内容(例如搜索结果)会随着设计而变化
- 删除目标页面和/或其内容
- 链接中存在特定于用户的信息(例如登录名)
- 故意通过内容过滤器或防火墙阻止
- 域名注册的到期
预防和检测
防止链接腐烂的策略可以集中精力放置其持续存在可能性更高的内容,创作链接较小的链接被打破的可能性较小,采取措施维护现有链接或修复目标已重新定位或删除的链接。
无法随时间变化的URL的创建是防止链接腐烂的基本方法。蒂姆·伯纳斯·李(Tim Berners-Lee)和其他网络先驱者为预防计划提供了支持。
与链接作者有关的策略包括:
- 链接到主要来源而不是次要来源,并确定稳定站点的优先级
- 避免链接指向研究人员个人页面上的资源
- 使用干净的URL或以其他方式采用URL标准化或URL规范化
- 使用永久链接和持续标识符,例如ARKS, DOIS ,处理系统参考, purls或Content Grodessing
- 避免链接到网页以外的文档
- 避免深入联系
- 链接到网络档案,例如Internet存档, Webcite , Archive.today , perma.cc ,Amber或Arweave
与现有链接保护有关的策略包括:
- 使用诸如HTTP 301之类的重定向机制自动将浏览器和爬网机转移到重新定位内容。
- 使用可以自动更新链接的内容管理系统当同一站点内的内容重新定位或自动用规范URL替换链接时
- 将搜索资源集成到http 404页
可以手动或自动完成破裂链接的检测。自动化方法包括用于内容管理系统的插件以及独立的破炼炼接检查器,例如Xenu的Link Sleuth 。自动检查可能无法检测到返回软404的链接或返回200个响应但指向已更改的内容的链接。
也可以看看
进一步阅读
- 马克威尔,约翰; Brooks,David W.(2002)。 “断断续续的链接:教育www超链接的短暂性”。科学教育与技术杂志。 11 (2):105–108。 doi : 10.1023/a:1014627511641 。 S2CID 60802264 。
- 戈麦斯,丹尼尔; Silva,MárioJ。(2006)。 “在网络上建模信息持久性” (PDF) 。第六届Web工程国际会议论文集。 ICWE'06。从2011-07-16的原始(PDF)存档。检索2010年9月14日。
- 罗伯特·P·德拉瓦尔(Dellavalle);埃里克·J·海斯特(Hester); Heilig,Lauren F。;德雷克,阿曼达·L。 Kuntzman,Jeff W。;玛拉(Marla) Schilling,Lisa M.(2003)。 “走,走了,走了:丢失了互联网参考” 。科学。 302 (5646):787–788。 doi : 10.1126/science.1088234 。 PMID 14593153 。 S2CID 154604929 。
- Koehler,Wallace(1999)。 “网页和网站构成和永久性的分析”。美国信息科学学会杂志。 50 (2):162–180。 doi : 10.1002/(SICI)1097-4571(1999)50:2 <162 :: aid-asi7> 3.0.co; 2-b 。
- Carmine Sellitto(2005)。 “无常的网络式引用的影响:123个学术会议出版物的研究” (PDF) 。美国信息科学与技术学会杂志。 56 (7):695–703。 Citeseerx 10.1.1.473.2732 。 doi : 10.1002/asi.20159 。