基于DOM树的可适应性多信息块Web信息抽取  被引量:1

Adaptive Information Block Web Information Extraction Based on DOM Tree

在线阅读下载全文

作  者:杨文超[1] 乔鸿[1] 

机构地区:[1]山东师范大学管理科学与工程学院,山东250014

出  处:《网络安全技术与应用》2012年第11期62-64,共3页Network Security Technology & Application

摘  要:Web信息抽取通常采用的是一种归纳学习方法,从指定的模版网页中归纳到抽取规则,这种方法虽然能够准确地抽取出信息,当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。本文针对这一难题,提出一种基于DOM树的可适应性多信息块Web信息抽取,该方法首先通过NekoHtml将网页解析成DOM树,然后确定包含关键词组的信息块,从而实现Web信息抽取。经过大量网站的实验证明该方法适用于不同站点的信息抽取,并且能对多信息块的Web页面进行信息抽取。Web information extraction is usually applied to an inductive learning method,from the specified template webpage induction to extract rules,although this method can accurately extract the information,when the template of the web site is changed,must regain the extraction rules,so this extractor maintenance cost is relatively high,but poor adaptability.To solve this problem,proposed one kind based on the DOM tree adaptive multi information block web information extraction,the method begins by NekoHtml webpage is parsed into a DOM tree,and then determine the keyword group information block,thus realizing the information extraction of web.After a large number of site experiments show that the method is suitable for different site information extraction,and can the information block Web pages for information extraction.

关 键 词:DOM树 WEB信息抽取 可适应性 多信息块 

分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象