数据论文引证意图自动识别研究--以生物医学领域为例  

Research on Automatic Recognition of Citation Intent in Data Papers:A Case Study in the Biomedical Field

在线阅读下载全文

作  者:黄珊[1] 刘茹 石燕青 杨波[2] Huang Shan;Liu Ru;Shi Yanqing;Yang Bo(College of Artificial Intelligence,Nanjing Agriculture University,Jiangsu Nanjing 210095;College of Information Management,Nanjing Agriculture University,Jiangsu Nanjing 210095)

机构地区:[1]南京农业大学人工智能学院,江苏南京210095 [2]南京农业大学信息管理学院,江苏南京210095

出  处:《情报理论与实践》2024年第8期190-200,共11页Information Studies:Theory & Application

基  金:国家社会科学基金一般项目“科学数据集的自组织模式和质量评价研究”的成果之一,项目编号:18BTQ077。

摘  要:[目的/意义]探索数据论文引用意图自动识别方法,为实现更高效的科学数据组织和数据共享提供参考和依据。[方法/过程]以生物医学领域为例,在构建大规模数据论文引用句标准语料库的基础上,通过引用句的内容特征对引用意图进行分类,提出基于深度学习技术的数据论文引用意图自动识别方法。[结果/结论]利用文本分类手段对数据论文引用意图进行自动识别具有可行性,深度预训练的语言模型PubMedBert性能优良且具有明显的领域优势,能够应用于大规模语料实践任务中。在数据论文引用意图中,半数以上是实质性引用且这类引用呈上升趋势。[Purpose/significance]This paper explores a method to automatically identify the citation intention of data papers,which is helpful to reveal the usage efficiency of data papers and realize more efficient scientific data organization and data sharing.[Method/process]This paper takes data-intensive discipline of biomedical field as the research object.Based on the construction of a standard corpus of large-scale data paper citation sentences,we classify citation intention through the content features of the citation sentences,and propose a deep learning-based method for automatic citation intention recognition in data papers.[Result/conclusion]The results show that it is feasible to use text classification to automatically identify the citation intention of data papers.The PubMedBert model has excellent performance and obvious domain advantages.It performs well on all indicators and can be applied to large-scale corpus practice tasks.Among the data paper citation intentions,more than half are substantive citations.

关 键 词:数据论文 引用意图 开放科学 文本分类 

分 类 号:R318[医药卫生—生物医学工程] TP391.1[医药卫生—基础医学] TP18[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象