一种互联网新闻网页的采集分析方法  被引量:1

Method of collecting and analyzing news pages on Internet

在线阅读下载全文

作  者:吴定明[1] 赵东岩[1] 

机构地区:[1]北京大学计算机研究所,北京100871

出  处:《计算机工程与应用》2007年第36期169-172,共4页Computer Engineering and Applications

基  金:国家部委"十一五"预研项目(the Pre-Research Project of the"Eleventh Five-Year-Plan"of China Ministries and Commissions No.2006BAH02A10)

摘  要:设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、标题字体属性及日期,采用NewsPageRank算法计算每个新闻链接的权重。测试结果表明该方法对Internet上的新闻站点普遍具有较好的分析效果,性能可以满足实用要求。This paper gives a method of collecting web pages of news.That is downloading the entry web page of a specified website,distinguishing the characters of the pages to which the entry web page links,filtrating irrelevant contents and extracting all the correlative hyperlinks of news on the entry web page.Considering the style of titles,the pictures and date of news,the method analyzes multi-levels hyperlinks and gives the ranking of those hyperlinks using NewsPageRank algorithm.The result of testing shows that the method adapts to the majority of websites of news and has a good practicality.

关 键 词:链接分析 页面评估 互联网 网页采集 链接识别 链接权重 网页权重分析 新闻网页 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象