基于扩展标记树的网页正文抽取  被引量:2

Content Extraction of Web Page Based on Extended Label Tree

在线阅读下载全文

作  者:夏天[1,2] 

机构地区:[1]数据工程与知识工程教育部重点实验室,北京100872 [2]中国人民大学信息资源管理学院,北京100872

出  处:《广西师范大学学报(自然科学版)》2011年第1期133-137,共5页Journal of Guangxi Normal University:Natural Science Edition

基  金:国家自然科学基金资助项目(09CTQ027);教育部科学技术研究重点项目(109005);中国人民大学科学研究基金项目(22382078)

摘  要:本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。A content extraction method based on extended label tree is proposed.Web page cleaning and auxiliary information for extracting purpose are realized,and the coordinates of position are also set during the construction phase of extended label tree.Text nodes are regarded as the identifiers of the content region,then,the neighbor text node set with maximum coverage is selected and revised to form the final content region.Through the neighbor first traversal algorithm,the title node is located and additional properties are extracted.Experimental results show that the proposed method can achieve high-precision for common article page extraction and has good adaptability.

关 键 词:网页正文抽取 扩展标记树 近邻优先遍历 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象