基于DOM树和DBSCAN算法的Web信息提取  被引量:1

Web Information Extraction based on DOM tree and DBSCAN Algorithm

在线阅读下载全文

作  者:何云钢 曹宝香[1] 

机构地区:[1]曲阜师范大学信息科学与工程学院,山东日照276826

出  处:《电子技术(上海)》2015年第6期88-92,96,共6页Electronic Technology

基  金:山东省自然科学基金项目(ZR2009GM009);山东省科技攻关项目(2012GGB01193)

摘  要:文章针对互联网中网页结构多样、易变等因素,通过研究网页结构中存在的一般规律,并结合DOM树和DBSCAN聚类算法,提出了新的Web信息提取算法。并详细介绍了构建DOM树和基于DBSCAN算法的网页内容提取。最后通过实验证明该算法能有效地获取网页中的正文信息,不依赖于网页结构,具有较强的通用性。This article presents a new algorithm of web information extraction which combined DOM tree with DBSCAN algorithm by researching the universal rules of various and changeful structures of webpages on the Internet. Then, construct DOM tree and webpage content extraction based on DBSCAN are introduced in detail. It shows that the algorithm can obtain the main information in webpage effectively through the experiment results. Besides, the algorithm has strong universality, which is independent of the webpage's structure.

关 键 词:DOM树 DBSCAN WEB信息提取 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象