一种基于启发式搜索的论文元数据提取算法  被引量:1

METADATA EXTRACTION ALGORITHM FOR DISSERTATIONS BASED ON HEURISTIC SEARCH

在线阅读下载全文

作  者:张付志[1] 侯娜[1] 刘慧[1] 马玉静[1] 

机构地区:[1]燕山大学信息科学与工程学院,河北秦皇岛066004

出  处:《计算机应用与软件》2009年第9期86-88,94,共4页Computer Applications and Software

基  金:河北省自然科学基金项目(F2008000877)

摘  要:随着大量的科研论文以电子文档的形式出现,为了高效地检索这些科研文献资料,从中精确地抽取这些论文头部的元数据信息显得十分有必要。在条件随机场模型的基础上,提出了一种启发式搜索算法来对论文头部的元数据信息进行提取。该算法首先利用文本分块技术和特征提取规则来对文本进行预处理,然后结合条件随机场概率模型利用启发式搜索来进行元数据的提取。实验结果表明,在相同概率模型的基础上,该算法有着较好的性能,在精确度和召回率方面都有了明显的提高。With the presence of large quantity of scientific research dissertations in electronic documents format,it is very necessary to accurately extract the metadata information from the dissertation headers in order to retrieve these dissertations efficiently and effectively. In this paper it proposes a heuristic search algorithm based on conditional random fields model to extract the metadata from the header of the dissertations. Firstly, the algorithm uses text blocking technology and feature extraction rule to pre-treat the file text, and then combines with the proba- bility model of the conditional random fields to extract the metadata with heuristic search algorithm. The experimental results show that the algorithm has a better performance on the basis of the same probability models. It improves the performance in precision and recall rate a lot.

关 键 词:信息提取 元数据提取 条件随机场 文本分块 启发式搜索 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程] TP393.18[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象