基于DOM树和DBSCAN算法的Web信息提取被引量：1

Web Information Extraction based on DOM tree and DBSCAN Algorithm

出　　处：《电子技术（上海）》2015年第6期88-92,96,共6页Electronic Technology

基　　金：山东省自然科学基金项目(ZR2009GM009);山东省科技攻关项目(2012GGB01193)

摘　　要：文章针对互联网中网页结构多样、易变等因素,通过研究网页结构中存在的一般规律,并结合DOM树和DBSCAN聚类算法,提出了新的Web信息提取算法。并详细介绍了构建DOM树和基于DBSCAN算法的网页内容提取。最后通过实验证明该算法能有效地获取网页中的正文信息,不依赖于网页结构,具有较强的通用性。This article presents a new algorithm of web information extraction which combined DOM tree with DBSCAN algorithm by researching the universal rules of various and changeful structures of webpages on the Internet. Then, construct DOM tree and webpage content extraction based on DBSCAN are introduced in detail. It shows that the algorithm can obtain the main information in webpage effectively through the experiment results. Besides, the algorithm has strong universality, which is independent of the webpage＇s structure.

关键词：DOM树 DBSCAN WEB信息提取

分类号：TP311.13[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于DOM树和DBSCAN算法的Web信息提取被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于DOM树和DBSCAN算法的Web信息提取 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于DOM树和DBSCAN算法的Web信息提取被引量：1