基于单元识别的网页信息抽取方法  被引量:1

A Web information extraction method based on unit identification

在线阅读下载全文

作  者:柳永念[1] 钟诚[1] 焦小焦[1] 

机构地区:[1]广西大学计算机与电子信息学院,广西南宁530004

出  处:《广西大学学报(自然科学版)》2011年第5期787-791,共5页Journal of Guangxi University(Natural Science Edition)

基  金:广西科学研究与技术开发计划(桂科能1140008-3B);广西高校优秀人才资助计划(RC2007004);广西教育厅科研基金(200708LX360)

摘  要:建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法。分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率。The chain-based father structure tree is established to describe and store Web page information,and an efficient Web information extraction algorithm based on unit identification is designed and implemented by applying Htmlparser and a description method with regular expressions.The analysis and experimental results show that the proposed Web information extraction method can improve the retrieval precision and recall ratio.

关 键 词:单元识别 信息抽取 父亲结构树 HTMLPARSER 正则表达式 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象