一种引文语料数据集的自动化构建方法与实例  

A citation text automatic extraction method and a citation corpus dataset

在线阅读下载全文

作  者:胡奕柯 张丽丽[1] 惠嘉怡 刘瑞霖 HU Yike;ZHANG Lili;HUI Jiayi;LIU Ruilin(Computer Network Information Center,Chinese Academy of Science,Beijing,P.R.China 100083;University of Chinese Academy of Sciences,Beijing,P.R.China 100049)

机构地区:[1]中国科学院计算机网络信息中心,北京100083 [2]中国科学院大学,北京100049

出  处:《中国科学数据(中英文网络版)》2024年第4期396-406,共11页China Scientific Data

基  金:国家自然科学基金(72104229)。

摘  要:数据论文是数据集的描述文档。追踪数据论文引用情况,有助于更好地了解数据出版及其数据开放共享情况。为更好地支持引文语义研究需要,本文提出一种引文文献语料自动抽取方法。该方法围绕数据论文施引文献及其元数据,提供一套涵盖引文全文结构化清洗、参考文献搜索匹配、引文文本遍历、引文位置识别与引文段落自动抽取,最终整编形成引文语料数据集的全过程解决方案。选取地球科学领域数据期刊《地球系统科学数据》(Earth System Science Data,ESSD)2014至2023年间引用量前十名数据论文的6007篇施引文献,采取自动化方法、辅助人工校验,形成包括10459条引文段落信息在内的语料数据集。经检验,该自动化方法具有较高质量和可靠性,其查全率达97.37%,结合人工质控后,数据集抽样准确率达到92.54%。该引文语料自动抽取方法以及ESSD语料数据集实例的整编实践,为更好地了解数据出版与共享提供了数据支撑,亦可为其他引文语料数据集的建设使用。Data papers are descriptive reports on published datasets.Tracking data-paper citations may help us better understand data reusability through publishing.To facilitate semantic citation analysis,this data paper proposes a method to capture citation contents automatically.Based on the citing articles'full texts and their metadata,this method achieved the automatic capture of citation contents corpus throughout the whole process of citation corpus dataset production,including citing-article data cleaning,target reference matching,citation text traversal and matching,citation paragraph capture,extraction,and compilation.For validation,we established a citation content corpus based on the top ten most cited data papers’6,007 citing articles published through the Earth System Science Data(ESSD)platform from 2014 to 2023.The sample citation content corpus includes 10,459 citation content records.The recall rate of automatic data capture is up to 97.37%,and the accuracy is no less than 92.54%,demonstrating the comparative reliability of the method.This method and the created sample dataset provide solutions to better understand data publishing and may be useful for publishing other citation corpora.

关 键 词:数据引用 引文语料 机器学习 引文文本 数据论文 数据复用性 《地球系统科学数据》 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] G230.7[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象