检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:邱继远[1] 岳振军[2] 荣传振[2] 马娅娅[3]
机构地区:[1]解放军理工大学通信工程学院研究生3队 [2]解放军理工大学通信工程学院 [3]中国人民解放军73198部队
出 处:《军事通信技术》2016年第1期74-79,共6页Journal of Military Communications Technology
基 金:江苏省自然科学基金资助项目(BK2012511)
摘 要:提出了以网页链接数量、时效性和主题相关性作为网页检索关键因素方法,解决了传统PageRank算法存在主题漂移、歧视新网页和计算量大等问题。应用层次分析法进行综合排序权重值计算,给出了各项指标的量化和可共度化方法,针对不同的应用需求,构建相应的成对比较矩阵,通过计算矩阵的最大特征值相应的归一化特征向量确定排序向量。在Hadoop分布式计算平台上实现了改进算法,并将改进后的算法和原算法及Hits算法的排序结果进行了对比分析,结果表明改进算法的查准率提升了22%左右。To overcome the weaknesses of the traditional PageRank algorithm,namely topic drifting,discrimination against new Web pages,high computation and etc,a method of Web page's retrieving was presented that uses the number of links,timeliness and relevance of the theme as the key factors.A comprehensive sort of improved PageRank algorithm with analytic hierarchy process was conducted.Quantification of the indicators and a method of spending together were given.According to varying application requirements,the algorithm constructs the different pairwise comparison matrix.The ordering vector can be confirmed by calculating the maximum normalized eigenvectors corresponding to the eigen values of the matrix.The improved algorithm was implemented on the Hadoop distributed computing platform.The sorting results of the improved algorithm and Hits algorithm were compared and analyzed.The results show that the improved algorithm query accuracy increases by about 22%.
关 键 词:网页排序 层次分析法 分布式计算平台 主题漂移 时效性
分 类 号:TP312[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.223.213.54