基于块分布的新闻网页内容提取  被引量:4

News content extraction based on block distribution

在线阅读下载全文

作  者:邱江涛[1,2] 唐常杰[2] 李川[2] 朱军 

机构地区:[1]西南财经大学经济信息工程学院,成都610075 [2]四川大学计算机学院,成都610065 [3]国家出生缺陷检测中心,成都610041

出  处:《吉林大学学报(工学版)》2009年第5期1326-1330,共5页Journal of Jilin University:Engineering and Technology Edition

基  金:'十一五'国家科技支撑计划项目(2006BAI05A01);国家自然科学基金项目(60773169);四川大学青年基金项目(06036)

摘  要:提出一种新的新闻网页内容提取方法。与已有的研究相比,它自动判别网页是否含有主内容,并且回避了模板和DOM-Tree方法所带来的局限。主要工作包括:①提出了一种网页分块方法,通过一趟遍历将网页主内容和噪声划分到不同的块中;②提出网页块分布的概念并研究了块分布的属性,根据块分布可以有效地使用分类方法来判别网页是否有主内容,采用孤立点分析的方法从网页块分布中提取主内容。本文通过理论和实验证明了该方法的有效性。An approach to extract news contents automatically from news web pages is proposed. Compared with existing methods, this approach can determine whether a web page contains news content first, then extract the news contents without using DOM-mreeor template. A new concept of Block is introduced and by one traversal the approach partitions web page into main content block and noise block. Further more, the concept of Web Page Block Distribution is introduced and the features of Block Distribution are investigated. The use of Block Distribution can effectively determine whether a web page contains news contents. Experiments show the approach is effective in extraction of news contents.

关 键 词:计算机应用 网页内容提取 块分布 WEB挖掘 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象