模板化的Web列表页面信息自动抽取方法的研究  被引量:1

Research on Automatic Extraction of Information from Templated Web List Pages

在线阅读下载全文

作  者:王琛[1] 

机构地区:[1]江苏建筑职业技术学院信息传媒与艺术学院,徐州221116

出  处:《现代计算机(中旬刊)》2013年第8期77-80,共4页Modern Computer

基  金:江苏建筑职业技术学院院级科研项目(No.JYA310-14)

摘  要:提出一种模板化的Web列表页面信息自动抽取方法,并对其实现的关键技术进行了阐述,包括页面预处理,Web列表页面中数据区域、数据记录的定位方法。同时提出一种有效的对DOM子树进行属性对齐和标注的方式,并给出相关算法。实验结果表明,该方法能够自动寻找并抽取Web列表页面的主要信息,具有较高的查全率和查准率。Presents a method of automatic extraction of information on templated web list pages. Describes its key technoligies, including web page pre-processing operation,the location of the main data areas and the data records areas. Proposes an effective approach to align and mark data attributes of DOM subtree and gives the correlate algorithm. Experimental results shows this method can automatically locates and extracts the main information of Web list pages and achieves high recall and precision.

关 键 词:WEB信息抽取 列表页面 DOM 网页去噪 数据属性对齐 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象