基于CURE算法的网页分块及正文块提取研究  被引量:1

An approach based on CURE algorithm of Web page segmentation and information extraction

在线阅读下载全文

作  者:王超[1] 徐杰锋[1] 

机构地区:[1]中国石油大学(华东)计算机与通信工程学院计算机科学与技术系,山东青岛266000

出  处:《微型机与应用》2012年第12期11-14,共4页Microcomputer & Its Applications

摘  要:研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。This paper discusses an approach based on CURE algorithm of Web pages segmentation and text extraction rules. The main idea is to add attributes to nodes of a standardization DOM tree to convert it into the extended DOM tree with the infor- mation node offset. Subsequently, we use the CURE algorithm to cluster information nodes. And each result of the cluster represent different block of the page. Finally, we extracts three nmin features of the text block and construct information weights formula which can distinguish text blocks.

关 键 词:WEB信息抽取 聚类算法 页面分块 正文块提取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象