检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]燕山大学信息科学与工程学院,秦皇岛066004 [2]河北省计算机虚拟技术与系统集成重点实验室,秦皇岛066004
出 处:《情报学报》2013年第3期235-243,共9页Journal of the China Society for Scientific and Technical Information
基 金:教育部科技发展中心网络时代的科技论文快速共享专项研究资助课题(2011109)
摘 要:针对现有的元数据提取方法提取精度不高且适应能力较差的问题,本文提出一种基于度量级融合的论文元数据提取方法。首先,提取论文首部的特征,利用已标注的数据集对HMM、SVM和CRF三种统计学习方法进行训练,生成相应的元数据提取模型;然后,根据贝叶斯判决理论推导出和规则,并利用和规则对三种提取模型产生的后验概率进行融合决策,实现论文元数据的提取;最后,通过设定时间段和文档数阈值,采用基于时间段统计的方法动态更新三种提取模型,以确保模型的有效性。在不同的数据集上对各种提取方法的性能进行了实验对比,结果表明,本文提出的方法不仅提高了元数据提取精度,而且具有较强的适应能力。Aim at the problems of low extraction precision and weak adaptability of the existing metadata extraction methods, in this paper we propose a novel approach of metadata extraction from papers based on measurement fusion. We first extract features of paper header, train the three statistical learning methods of HMM,SVM and CRF using the labeled data set, and generate corresponding metadata extraction models. Then we derive sum rule based on Bayesian decision theory and make fusion decision for the posterior probability generated from the three extraction models by means of the sum rule so as to extract metadata of papers. Finally, by setting time period and the threshold of document numbers, we use statistical method based on time period to dynamically update the three extraction models in order to ensure the effectiveness of the models. We conduct experiments on different datasets and draw a comparison of the performance between extraction methods. Experimental results show that the proposed approach not only improves the precision of metadata extraction, but also enhances the adaptability.
关 键 词:元数据提取 统计学习 度量级融合 后验概率 和规则
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49