基于度量级融合的论文元数据提取方法  被引量:1

Publication Metadata Extraction Approach Based on Measurement Fusion

在线阅读下载全文

作  者:张付志[1,2] 刘华中[1,2] 

机构地区:[1]燕山大学信息科学与工程学院,秦皇岛066004 [2]河北省计算机虚拟技术与系统集成重点实验室,秦皇岛066004

出  处:《情报学报》2013年第3期235-243,共9页Journal of the China Society for Scientific and Technical Information

基  金:教育部科技发展中心网络时代的科技论文快速共享专项研究资助课题(2011109)

摘  要:针对现有的元数据提取方法提取精度不高且适应能力较差的问题,本文提出一种基于度量级融合的论文元数据提取方法。首先,提取论文首部的特征,利用已标注的数据集对HMM、SVM和CRF三种统计学习方法进行训练,生成相应的元数据提取模型;然后,根据贝叶斯判决理论推导出和规则,并利用和规则对三种提取模型产生的后验概率进行融合决策,实现论文元数据的提取;最后,通过设定时间段和文档数阈值,采用基于时间段统计的方法动态更新三种提取模型,以确保模型的有效性。在不同的数据集上对各种提取方法的性能进行了实验对比,结果表明,本文提出的方法不仅提高了元数据提取精度,而且具有较强的适应能力。Aim at the problems of low extraction precision and weak adaptability of the existing metadata extraction methods, in this paper we propose a novel approach of metadata extraction from papers based on measurement fusion. We first extract features of paper header, train the three statistical learning methods of HMM,SVM and CRF using the labeled data set, and generate corresponding metadata extraction models. Then we derive sum rule based on Bayesian decision theory and make fusion decision for the posterior probability generated from the three extraction models by means of the sum rule so as to extract metadata of papers. Finally, by setting time period and the threshold of document numbers, we use statistical method based on time period to dynamically update the three extraction models in order to ensure the effectiveness of the models. We conduct experiments on different datasets and draw a comparison of the performance between extraction methods. Experimental results show that the proposed approach not only improves the precision of metadata extraction, but also enhances the adaptability.

关 键 词:元数据提取 统计学习 度量级融合 后验概率 和规则 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象