检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:胡奕柯 张丽丽[1] 惠嘉怡 刘瑞霖 HU Yike;ZHANG Lili;HUI Jiayi;LIU Ruilin(Computer Network Information Center,Chinese Academy of Science,Beijing,P.R.China 100083;University of Chinese Academy of Sciences,Beijing,P.R.China 100049)
机构地区:[1]中国科学院计算机网络信息中心,北京100083 [2]中国科学院大学,北京100049
出 处:《中国科学数据(中英文网络版)》2024年第4期396-406,共11页China Scientific Data
基 金:国家自然科学基金(72104229)。
摘 要:数据论文是数据集的描述文档。追踪数据论文引用情况,有助于更好地了解数据出版及其数据开放共享情况。为更好地支持引文语义研究需要,本文提出一种引文文献语料自动抽取方法。该方法围绕数据论文施引文献及其元数据,提供一套涵盖引文全文结构化清洗、参考文献搜索匹配、引文文本遍历、引文位置识别与引文段落自动抽取,最终整编形成引文语料数据集的全过程解决方案。选取地球科学领域数据期刊《地球系统科学数据》(Earth System Science Data,ESSD)2014至2023年间引用量前十名数据论文的6007篇施引文献,采取自动化方法、辅助人工校验,形成包括10459条引文段落信息在内的语料数据集。经检验,该自动化方法具有较高质量和可靠性,其查全率达97.37%,结合人工质控后,数据集抽样准确率达到92.54%。该引文语料自动抽取方法以及ESSD语料数据集实例的整编实践,为更好地了解数据出版与共享提供了数据支撑,亦可为其他引文语料数据集的建设使用。Data papers are descriptive reports on published datasets.Tracking data-paper citations may help us better understand data reusability through publishing.To facilitate semantic citation analysis,this data paper proposes a method to capture citation contents automatically.Based on the citing articles'full texts and their metadata,this method achieved the automatic capture of citation contents corpus throughout the whole process of citation corpus dataset production,including citing-article data cleaning,target reference matching,citation text traversal and matching,citation paragraph capture,extraction,and compilation.For validation,we established a citation content corpus based on the top ten most cited data papers’6,007 citing articles published through the Earth System Science Data(ESSD)platform from 2014 to 2023.The sample citation content corpus includes 10,459 citation content records.The recall rate of automatic data capture is up to 97.37%,and the accuracy is no less than 92.54%,demonstrating the comparative reliability of the method.This method and the created sample dataset provide solutions to better understand data publishing and may be useful for publishing other citation corpora.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38