基于三阶条件随机场的论文元数据提取方法  被引量:1

Metadata Extraction from Papers Based on Third-order Conditional Random Fields

在线阅读下载全文

作  者:于洪涛 虞海明[1] 张付志[1] 

机构地区:[1]燕山大学信息科学与工程学院,河北秦皇岛066004

出  处:《小型微型计算机系统》2014年第3期606-609,共4页Journal of Chinese Computer Systems

基  金:河北省自然科学基金项目(F2011203219;F2013203124)资助;教育部科技发展中心网络时代的科技论文快速共享专项研究课题(2011109)资助;河北省高等学校科学技术研究重点项目(ZH2012028)资助

摘  要:针对现有论文元数据提取方法精度不高和上下文信息利用较少的问题,通过对二阶条件随机场模型的状态转移特征进行扩展,提出了一种基于三阶条件随机场的论文元数据提取方法.首先,利用分隔符对论文头部文本进行分块预处理,选择局部、布局、词典特征作为特征集进行特征提取;然后,采用L-BFGS算法并引入平滑处理学习三阶条件随机场模型的参数;最后,以论文头部提取出的特征序列作为输入,利用改进的Viterbi算法,高效求解出该论文头部信息的标记序列.实验结果表明,基于三阶条件随机场模型的方法优于其他现有提取方法.Aiming at the problems that the existing metadata extraction method is not so accurate and do not make the best of contextu- al information, in this paper we propose an approach of metadata extraction from papers based on Third-order Conditional Random Fields ( CRFs) by extending the state transition of second-order CRFs. Firstly, we segment headers of papers into blocks by separa- tors, and extract features from each blocks using features set including local features, layout features and lexicon features. Secondly, we introduce of a new smoothing technique and employ the L-BFGS algorithm for parameter estimation of this model. Finally, we ex- tract the metadata from papers efficiently and accurately using the improved Viterbi algorithm. Experimental results show that the pro- posed method, outperforms other existing methods.

关 键 词:元数据提取 条件随机场 三阶 文本分块 平滑处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象