链接数据

A network of over a thousand circles clustered into groups and linked with lines into a web.
链接的开放数据云中的wikidata。数据库表示为圆圈(Wikidata表示为'WD'),如果将其数据对齐,则灰色线将网络中的数据库链接。
DBpedia as the most interlinked LOD dataset and crystallization point of the Linked Open Data Cloud since 2008
DBPEDIA是自2008年以来链接开放数据云的最相互联系的LOD数据集和结晶点,该数据集是由https://lod-cloud.net/生成的

计算中,链接数据是结构化数据,它与其他数据相互联系,因此通过语义查询变得更有用。它以HTTPRDFURI等标准的Web技术为基础,但是它并没有使用它们仅用于人类读者为网页提供服务,而是扩展了它们以通过计算机可以自动读取的方式共享信息。链接数据愿景的一部分是互联网成为全球数据库

万维网联盟(W3C)的主任蒂姆·伯纳斯·李(Tim Berners-Lee)在2006年有关语义Web项目的设计说明中创造了这个词。

链接的数据也可能是开放数据,在这种情况下,通常将其描述为链接的开放数据。

原则

蒂姆·伯纳斯·李(Tim Berners-Lee)在2006年的“链接数据”注释中概述了链接数据的四个原则,并沿着以下几行进行了解释:

  1. 统一的资源标识符(URI)应用于命名和识别单个事物。
  2. 应该使用HTTP URI来允许这些事物查找,解释和随后“重新引起”。
  3. 有关名称应标识的有用信息,请通过RDFSPARQL等提供开放标准。
  4. 在网络上发布数据时,应转介使用其基于HTTP URI的名称。

蒂姆·伯纳斯·李(Tim Berners-Lee)随后在2009年的一次TED会议上重申了这些原则,并沿着以下几行进行了措辞:

  1. 所有概念上的事物都应从HTTP开始。
  2. 查找HTTP名称应以标准格式返回有关有关事物的有用数据。
  3. 同一件事通过其数据有关系的其他任何东西也应以HTTP开始给出一个名称。

成分

因此,我们可以将以下组件确定为所设想的全局链接数据系统所必需的,以及其中的任何实际链接数据子集:

链接的开放数据

链接的开放数据是链接的数据,它们是开放数据。 Tim Berners-Lee给出了与链接数据区分的链接开放数据的最清晰定义。

链接的开放数据(LOD)是链接的数据,该数据是在开放许可下发布的,这不会免费阻止其重复使用。

- Tim Berners-Lee,链接的数据

大型链接的开放数据集包括DBPEDIAWikibaseWikidata和Open ICECAT。

五星级链接开放数据

链接开放数据的部署计划

在2010年,蒂姆·伯纳斯(Tim Berners-Lee)提出了一个5星方案,用于对网络上的开放数据质量进行评分,为此,最高排名是链接的开放数据:

  • 1星:数据以某种格式公开提供。
  • 2星:数据以结构化格式提供,例如Microsoft Excel文件格式(.xls)。
  • 3颗星:数据以非专有的结构化格式获得,例如逗号分隔值(.CSV)。
  • 4星:数据遵循W3C标准,例如使用RDF和使用URI
  • 5星:所有其他恒星,以及指向其他链接的开放数据源的链接。

历史

至少自2007年2月创建了“链接开放数据”邮件列表以来,“链接的开放数据”一词一直在使用。邮件列表最初是由马萨诸塞州理工学院明喻项目主持的。

链接开放数据社区项目

上图显示了截至2014年8月,连接了哪些链接的开放数据数据集。这是由链接的开放数据云项目生产的,该项目于2007年启动。有些集合可能包含可免费获得的受版权保护数据。
与上述图相同,但在2017年2月,显示了仅两年半的增长。

W3C语义Web教育和外展组的链接开放数据社区项目的目标是通过在网络上发布各种开放数据,并通过在网络上发布各种开放数据集,并通过从不同数据源中设置RDF链接来扩展网络。 2007年10月,数据集由超过2000亿的RDF三元组组成,这些三元组与超过200万个RDF链接相互联系。到2011年9月,这已经增长到310亿RDF三元组,相互链接约500400万个RDF链接。 2014年发布了详细的统计分解。

欧盟项目

有许多涉及链接数据的欧盟项目。其中包括全时钟周围的链接开放数据(LATC)项目,用于机器可读的立法数据的AKN4EU项目,PlanetData项目,DAPAAS(DAPA-PLATFORM-AS-AS-A-SERVICE)项目以及链接的开放数据2 (LOD2)项目。数据链接是欧盟开放数据门户的主要目标之一,该目标可提供数千个数据集供任何人重复使用和链接。

本体论

本体是对数据结构的形式描述。一些知名的本体论是:

  • FOAF - 描述人,其性质和关系的本体论
  • Umbel - 20,000个主题概念类别的轻量级参考结构及其从Opencyc得出的关系,可以充当外部数据的绑定类别;还链接了DBPedia和Yago的150万个指定实体

数据集

  • DBPEDIA - 一个数据集,其中包含Wikipedia提取的数据;它包含大约340万个概念,其中包括10亿三倍,包括11种不同语言的摘要
  • GeOnames - 提供全球超过7,500,000个地理特征的RDF描述
  • Wikidata - 一个协作创建的链接数据集,充当其Wikimedia Foundation兄弟姐妹项目的结构化数据的中心存储
  • 全球研究标识符数据库GRID ) - 一个从事学术研究的89,506家机构的国际数据库,并有14,401个关系。网格模型两种类型的关系:定义下属关联的亲子关系,以及描述其他关联的相关关系
  • KnowwhereGraph - 使用语义网和链接的数据技术,在人与其环境之间的交叉点上的30个数据层的120亿个综合三元图表
  • Open ICECAT-包含产品数据表,相关数字资产和使用统计信息多语言开放目录。

数据集实例和类关系

可单击的图表显示了单个数据集及其在DBPEDIA产生的LOD云中的关系(如右图所示)。

也可以看看