检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]浙江工业大学信息工程学院,浙江杭州310014
出 处:《小型微型计算机系统》2007年第3期510-514,共5页Journal of Chinese Computer Systems
基 金:浙江省自然科学基金项目(Y105118)资助.
摘 要:PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRank算法框架.只要选择不同的相似度计算模型,就可以得到不同的TS-PageRank算法,形成一个网页排序算法簇.理论分析和数值仿真实验表明,该算法在不需要额外文本信息,也不增加算法时空复杂度的情况下,就能极大地减少主题漂移现象,从而提高查询效率和质量.The PageRank algorithm is a key algorithm used in famous search engine Google,but there exists a bad problem of topic-drift ,which results in too many web pages without any correlation with the user's search topic in the list of web pages searched by the algorithm. After analysing the PageRank algorithm and its modified algorithm ,a similarity model based on vir- tual file vector and similar degree of cosine,and put forward a TS-PageRank algorithm frame. We can get many different TS- PageRank algorithms and form a set of TS-PageRank algorithm,if we use different similarity model in the frame. The analysis of theory and numerical simulation illustrate that the TS-PageRank algorithm can avoid the problem of topic-drift and improve the quanlity of web search effectively without adding any other extra text information or increasing the degree of time and space complexity.
关 键 词:链接分析 主题相似度 PAGERANK算法
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229