基于单元识别的网页信息抽取方法被引量：1

A Web information extraction method based on unit identification

出　　处：《广西大学学报（自然科学版）》2011年第5期787-791,共5页Journal of Guangxi University（Natural Science Edition）

基　　金：广西科学研究与技术开发计划(桂科能1140008-3B);广西高校优秀人才资助计划(RC2007004);广西教育厅科研基金(200708LX360)

摘　　要：建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法。分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率。The chain-based father structure tree is established to describe and store Web page information,and an efficient Web information extraction algorithm based on unit identification is designed and implemented by applying Htmlparser and a description method with regular expressions.The analysis and experimental results show that the proposed Web information extraction method can improve the retrieval precision and recall ratio.

关键词：单元识别信息抽取父亲结构树 HTMLPARSER 正则表达式

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于单元识别的网页信息抽取方法被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于单元识别的网页信息抽取方法 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于单元识别的网页信息抽取方法被引量：1