检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]燕山大学信息科学与工程学院,河北秦皇岛066004
出 处:《小型微型计算机系统》2014年第3期606-609,共4页Journal of Chinese Computer Systems
基 金:河北省自然科学基金项目(F2011203219;F2013203124)资助;教育部科技发展中心网络时代的科技论文快速共享专项研究课题(2011109)资助;河北省高等学校科学技术研究重点项目(ZH2012028)资助
摘 要:针对现有论文元数据提取方法精度不高和上下文信息利用较少的问题,通过对二阶条件随机场模型的状态转移特征进行扩展,提出了一种基于三阶条件随机场的论文元数据提取方法.首先,利用分隔符对论文头部文本进行分块预处理,选择局部、布局、词典特征作为特征集进行特征提取;然后,采用L-BFGS算法并引入平滑处理学习三阶条件随机场模型的参数;最后,以论文头部提取出的特征序列作为输入,利用改进的Viterbi算法,高效求解出该论文头部信息的标记序列.实验结果表明,基于三阶条件随机场模型的方法优于其他现有提取方法.Aiming at the problems that the existing metadata extraction method is not so accurate and do not make the best of contextu- al information, in this paper we propose an approach of metadata extraction from papers based on Third-order Conditional Random Fields ( CRFs) by extending the state transition of second-order CRFs. Firstly, we segment headers of papers into blocks by separa- tors, and extract features from each blocks using features set including local features, layout features and lexicon features. Secondly, we introduce of a new smoothing technique and employ the L-BFGS algorithm for parameter estimation of this model. Finally, we ex- tract the metadata from papers efficiently and accurately using the improved Viterbi algorithm. Experimental results show that the pro- posed method, outperforms other existing methods.
关 键 词:元数据提取 条件随机场 三阶 文本分块 平滑处理
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:13.59.90.172