检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]曲阜师范大学信息科学与工程学院,山东日照276826
出 处:《电子技术(上海)》2015年第6期88-92,96,共6页Electronic Technology
基 金:山东省自然科学基金项目(ZR2009GM009);山东省科技攻关项目(2012GGB01193)
摘 要:文章针对互联网中网页结构多样、易变等因素,通过研究网页结构中存在的一般规律,并结合DOM树和DBSCAN聚类算法,提出了新的Web信息提取算法。并详细介绍了构建DOM树和基于DBSCAN算法的网页内容提取。最后通过实验证明该算法能有效地获取网页中的正文信息,不依赖于网页结构,具有较强的通用性。This article presents a new algorithm of web information extraction which combined DOM tree with DBSCAN algorithm by researching the universal rules of various and changeful structures of webpages on the Internet. Then, construct DOM tree and webpage content extraction based on DBSCAN are introduced in detail. It shows that the algorithm can obtain the main information in webpage effectively through the experiment results. Besides, the algorithm has strong universality, which is independent of the webpage's structure.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.16.154.37