隐马尔可夫模型解决信息抽取问题的仿真研究被引量：5

Application Research of Hidden Markov Model on Web Information Extraction

出　　处：《计算机仿真》2010年第5期132-135,共4页Computer Simulation

基　　金：陕西省自然科学基金资助项目(2007F25);西安财经学院科研基金资助项目(07XCK04);陕西省教育厅专项科研计划项目(09JK440)

摘　　要：研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。As much information appears on the Internet, Web information extraction became an important means of massive network information processing. It is difficult to effectively extract the Web information. In order to improve and enhance the recall rate and precision rate of massive heterogeneousWeb information, this paper proposes an algorithm based on Hidden Markov Model （HMM） for Web information extraction. The algorithm is applied to pro- cessing rule knowledge for pages to create HTML Tree. And then Shannon entropy is used to locate date fields. Next, the algorithm constructs HMM by Maximum Likelihood. The experimental results show that by processing and applying mass structural information of Web papers with HMM, this method has good performance in Recall and Precision.

关键词：隐马尔可夫模型信息抽取极大似然机器学习

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

隐马尔可夫模型解决信息抽取问题的仿真研究被引量：5

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

隐马尔可夫模型解决信息抽取问题的仿真研究 被引量：5

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

隐马尔可夫模型解决信息抽取问题的仿真研究被引量：5