CiteSeerX

CiteseerX
站点类型
书目数据库
所有者宾夕法尼亚州立大学信息科学与技术学院
URLCiteseerx.ist.psu.eduEdit this at Wikidata
登记可选的
发射2008; 14年前/ 1997; 25年前
当前状态积极的
内容许可
创意共享BY-NC-SA许可证[1]

CiteseerX(以前称为Citeseer)是公众搜索引擎数字图书馆对于科学和学术论文,主要在计算机信息科学.

Citeseer的目标是改善学术和科学文献的传播和获取。作为任何人可以自由使用的非营利服务,它被认为是开放访问试图改变的运动学术和科学出版为了让更多的科学文献获得更多机会。Citeseer免费提供开放档案倡议元数据在所有索引文档和链接时,请在可能的情况下索引文档DBLPACM门户。推广打开数据CiteseerX根据非商业目的共享其数据创意共享许可证.[1]

Citeseer被认为是学术搜索工具的前身谷歌学术微软学术搜索.[2]类似Citeseer的发动机和档案通常仅从公开可用的网站收获文档,并且不爬网发行商网站。因此,在索引中更有可能代表其文档的作者。

Citeseer在某一时刻将其名称更改为ResearchIndex,然后将其更改。[3]

历史

Citeseer和Citeseer.ist

Citeseer是由研究人员创建的Lee GilesKurt Bollacker史蒂夫·劳伦斯1997年,他们在NEC研究所(现在NEC实验室),新泽西州普林斯顿, 美国。Citeseer的目标是在网络上积极爬网和收获学术和科学文档,并使用自动引文索引允许通过引用或通过文档进行查询,将其排名引文影响。有一次,它被称为ResearchIndex。

Citeseer于1998年公开,并在当时在学术搜索引擎中无法获得许多新功能。其中包括:

  • 自主引文索引会自动创建一个引用索引,可用于文献搜索和评估。
  • 计算数据库中引用的所有文章的引用统计和相关文档,而不仅仅是索引文章。
  • 参考链接允许使用引文链接浏览数据库。
  • 引用环境显示了引用给定论文的背景,使研究人员可以快速,轻松地了解其他研究人员对一份感兴趣的文章有何评论。
  • 使用引用和基於单词的措施显示了相关文档,并为每个文档显示了一个主动且连续更新的书目。

Citeseer被授予美国专利#6289342,标题为“自主引文索引和文献使用引文上下文浏览“,2001年9月11日。该专利于1998年5月20日提交,并优先于1998年1月5日。2004。

在NEC之后,2004年,它被托管为Citeseer.ist。全球资讯网在信息科学与技术学院,宾夕法尼亚州立大学,并拥有超过700,000个文件。为了增强访问,性能和研究,类似版本的Citeseer在大学中得到了支持麻省理工学院苏黎世大学新加坡国立大学。但是,这些版本的Citeseer被证明很难维护,并且不再可用。由于Citeseer仅在网络上免费索引索引,并且无法访问发布者元数据,因此它返回的引文计数少于网站,例如谷歌学术,有发布者元数据。

自2005年以来,由于其建筑设计的局限性,Citeseer从2005年以来就无法进行全面更新。它具有计算机和信息科学研究文档的代表性抽样,但覆盖范围有限,因为它仅限于公开可用的论文,通常是在作者的主页或作者提交的论文。为了克服其中一些局限X.

CiteseerX

CiteseerX替换了Citeseer和所有对Citeseer的查询都重定向。CiteseerX[4]是公众搜索引擎数字图书馆存储库用于科学和学术论文,主要关注计算机信息科学.[4]但是,最近的CiteseerX一直在扩展到其他学术领域,例如经济学,物理和其他领域。它于2008年发行,它是基于以前的Citeseer搜索引擎和数字图书馆的宽松开源基础架构,地震和新算法及其实现。它是由研究人员Isaac Councill博士和C.Lee Giles信息科学与技术学院宾夕法尼亚州立大学。它继续支持Citeseer概述的目标,以在公共网络上积极爬网并收获学术和科学文档,并通过引用的引用对文档的排名进行引用查询。参与其发展。最近,引入了一个表搜索功能。[5]它是由国家科学基金会NASA, 和微软研究.

CiteseerX继续被评为世界顶级存储库之一,并在2010年7月被评为第一。[6]目前,它拥有超过600万个文档,拥有近600万独特的作者和1.2亿引用。

CiteseerX还与其他研究人员共享其软件,数据,数据库和元数据亚马逊S3rsync.[7]其新的模块化开源体系结构和软件(以前可在SourceForge但是现在继续github)建立在Apache Solr和别的apache和开源工具,可以在文档收集,排名,索引和信息提取中成为新算法的测试床。

CiteseerX缓存一些已扫描的PDF文件。因此,每个页面都包含一个DMCA可用于报告侵犯版权的链接。[8]

当前功能

自动化信息提取

CiteseerX使用自动化信息提取通常基于机器学习方法等工具,以提取学术文献元数据,例如标题,作者,摘要,引用等。因此,作者和标题中有时会出现错误。其他学术搜索引擎也有类似的错误。

专注的爬行

CiteseerX爬网主要来自作者网页和其他开放资源,并且无法访问发布者元数据。因此,引用计数X通常比Google Scholar和Microsoft学术搜索中的那些可以访问发布者元数据的人。

用法

CiteseerX根据独特的IP地址,在全球范围内拥有近100万用户,每天都有数百万次命中。2015年,文档PDF的年度下载量接近2亿。

数据

CiteseerX数据定期在创意共享BY-NC-SA许可证在全球研究人员的情况下,已经并且已在许多实验和比赛中使用。

多亏了它OAI-PMH端点,[9]Citeseerx是一个开放档案它的内容像一个机构存储库学术搜索引擎, 例如根据Unmainwall消费者。

其他基于海滨的搜索引擎

Citeseer模型已扩展以涵盖业务中的学术文件Smellsearch并与EbizSearch进行电子商务。但是,这些不是由其赞助商维护的。这两者的较旧版本曾经可以在bizseer.ist上找到,但不再使用。

其他类似Seer的搜索和存储库系统也用于化学,化学X先知对于考古学,考古学。另一个是为机器人构建的。txt文件搜索,Botseer。所有这些都建立在使用开源索引器的开源工具Seersuite上露西恩.

也可以看看

参考

  1. ^一个b“ Citeseerx数据政策”。存档原本的在2012-01-05。检索2015-11-10.
  2. ^Ajith的Kodakateri Pudhiyaveetil;苏珊(Gauch);卢恩(Hiep);Eno,Josh(2009)。“ Citeseerx的概念推荐系统”.第三届ACM推荐系统会议论文集 - Recsys '09。纽约,纽约,美国:ACM出版社:241。doi10.1145/1639714.1639758.ISBN 978-1-60558-435-5.S2CID 13900679.
  3. ^劳伦斯,史蒂夫(2001)。“ ResearchIndex:内部最大的自由科学文献索引”。国际知识捕获会议论文集-K -CAP 2001。 p。 3。doi10.1145/500737.500740.ISBN 1581133804.S2CID 19592721.
  4. ^一个b“关于Citeseerx”.存档从2010-07-22的原始。检索2010-05-07.
  5. ^“ Citeseerx团队”。宾夕法尼亚州立大学。存档原本的在2018-07-26。检索2018-05-01.
  6. ^“排名世界存储库:前800个存储库”。网络对称实验室。2010年7月。原本的在2010-07-24。检索2010-07-24.
  7. ^“关于Citeseerx数据”。宾夕法尼亚州立大学。存档原本的在2012-01-05。检索2012-01-25.
  8. ^例如,“ Citeseerx - DMCA注意”.Citeseerx 10.1.1.604.4916。存档原本的在2022-03-18。由于DMCA撤离通知,已删除了带有标识符“ 10.1.1.604.4916”的文档。如果您认为删除是错误的,请通过“反馈”页面与我们联系,以及此页面中提到的标识符。{{}}引用期刊需要|journal=帮助
  9. ^赫斯特,托尼(2011-12-08)。“使用OAI-PMH作为单个记录级查询接口与Citeseer””.存档从2020-11-24的原始。检索2020-04-25.

进一步阅读

外部链接