改进的PageRank在Web信息搜集中的应用  被引量:12

Application of an Improved PageRank in Web Crawler

在线阅读下载全文

作  者:秦拯[1] 张玲[2] 李娜[2] 

机构地区:[1]湖南大学软件学院,长沙410082 [2]湖南大学计算机与通信学院,长沙410082

出  处:《计算机研究与发展》2006年第6期1044-1049,共6页Journal of Computer Research and Development

基  金:国家自然科学基金项目(60273070);湖南省科技攻关基金项目(04GK3022)~~

摘  要:PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度·The PageRank algorithm is used in ranking Web pages. It estimates the pages' authority by taking into account the link structure of the Web. However, it assigns each outlink the same weight and is independent of topics, resulting in topic-drift. In this paper, an improved PagcRank algorithm based on topical segments is proposed. This algorithm segments the Web page into blocks and passes the page' s PageRank to outlinks in each block in proportion with the block's relativity to the given topic. Moreover, it regards the visited outlink as feedback to modify the block's relevance. The experiment in Web crawler shows that the new algorithm has better performance.

关 键 词:PAGERANK算法 主题分块 Web信息搜集 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP393[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象