检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学信息网络工程研究中心,北京100084
出 处:《清华大学学报(自然科学版)》2006年第4期604-608,共5页Journal of Tsinghua University(Science and Technology)
基 金:国家"八六三"高技术项目(2003AA103110)
摘 要:为了解决传统T opN统计算法性能远远落后于实际需求的矛盾,该文针对T opN统计特征进行研究,并提出一种基于多次过滤的T opN统计算法M F-T opN。该算法首先从原始数据集中随机采样,得到k×N个元素的采样集合,再从该采样集合中查找从大到小的第N个元素;利用此记录作为阈值,对原始数据集进行过滤,淘汰掉低于该阈值的元素;重复上述操作,直到剩余的数据元素个数小于k×N为止。最后对剩余的数据元素进行排序,输出前N个。理论分析和实验结果证明M F-T opN在时间性能上比传统的T opN算法(如基于堆的排序算法)提高了50%左右。Abst A TopN sort algorithm based on multiple filtering was developed to improve the performance of the conventional TopN sort algorithm. The algorithm first constructs a sampling set of k × N elements by randomly sampling the original dataset. The algorithm then finds the N^th element (in decreasing order) from the sampling set, which is used to filter out elements of the original dataset that are smaller than this element. This process is repeated till the number of elements in the original dataset is less than k × N. The algorithm then sorts the remaining elements in the original dataset using quieksort and outputs the first N elements. A theoretical analysis and sample comparisons show that the temporal performance of this TopN algorithm is about 50% better than conventional TopN algorithms, such as heapsort.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.112