基于广义隐马尔可夫模型的网页信息抽取方法被引量：3

Web information extraction based on a generalized hidden Markov model

出　　处：《山东大学学报（理学版）》2007年第11期49-52,共4页Journal of Shandong University(Natural Science)

基　　金：国家自然科学基金资助项目(60573139)

摘　　要：针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。最后通过实验说明改进的GHMM对于网页信息抽取有很高的精确率。Since web pages are based on the web-specific layout structure feature, instead of using the transitional sequential state transition order, a new state transition order was proposed by using a vision based page segmentation algorithm （VIPS）. In addit- ion, the supposed state transition and the emission symbol conditions were improved by using the second-order Markov chain, and then a novel generalized hidden Markov model （GHMM） was proposed based on the improvement. Finally,through an example, it shows that the modified GHMM has a very high precision for web information extraction.

关键词：基于视觉的网页分割广义隐马尔可夫模型二阶Markov链 WEB信息抽取

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于广义隐马尔可夫模型的网页信息抽取方法被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于广义隐马尔可夫模型的网页信息抽取方法 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于广义隐马尔可夫模型的网页信息抽取方法被引量：3