检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学技术大学电子工程与信息科学系,安徽合肥230027 [2]中国科学技术大学计算机科学技术系,安徽合肥230027
出 处:《小型微型计算机系统》2006年第12期2177-2182,共6页Journal of Chinese Computer Systems
基 金:国家"九七三"计划项目(2003CB17000)资助
摘 要:回顾了当前应用于大型搜索引擎的主流网页排序算法,对其中的ARC算法进行了改进,提出了一种基于超链接和内容的网页排序算法—SHITS(Similarity-HITS)算法.SHITS算法用超链接所引用的网页内容代替了ARC算法中所采用的锚文本来评估该超链接的重要性,这一改进不仅提高了算法区分链接重要性的能力,也避免了对大量锚文本内容的分析.通过与相关算法的对比实验,结果表明SHITS算法网页排序的准确率明显优于其它算法.此外,SHITS算法也具有较好的效率计算代价小于ARC算法,与HITS算法相当.This paper reviews currently dominating webpage ranking algorithms ,improves the ARC algorithm among of them, and proposes an algorithm based on hyperlink and content--the SHITS(Similarity-HITS)algorithm. The SHITS algorithm uses the webpage content cited by the hyperlinks to evaluate the importance of these hyperlinks instead of the anchors used in the ARC algorithm,which not only improves the ability to differentiate the importance of hyperlinks,but also needn't analyze the content of the numerous anchors in web pages. From the contrastive experiment with the related algorithms, the result shows that the precision of the SHITS algorithm was significantly higher than that of other algorithms. Furthermore, the SHITS algorithm has a good performance :its computational cost is smaller than that of the ARC algorithm, and approximate to that of the HITS algorithm.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145