检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:孟彩霞[1]
机构地区:[1]西安邮电学院计算机科学系,陕西西安710061
出 处:《昆明理工大学学报(理工版)》2009年第5期26-30,35,共6页Journal of Kunming University of Science and Technology(Natural Science Edition)
基 金:国家自然科学基金(项目编号:60573096);陕西省自然科学基金项目(项目编号:2004f283);西安市科技创新支撑-应用发展研究计划项目(项目编号:YF07024)
摘 要:与传统静态数据库中的数据不同,数据流是一个按时间到达的有序的项集,这使得经典的频繁项集挖掘算法难以适用到数据流中.根据数据流的特点,提出了数据流频繁项集挖掘算法FP-SegCount.该算法将数据流分段并利用改进的FP-growth算法挖掘分段中的频繁项集.然后,利用Count Min Sketch进行项集计数.算法解决了压缩统计和计算快速高效的问题.通过和FP-DS算法的实验对比,FP-SegCount算法具有较好的时间效率.Different from data in traditional static database, a data stream is an ordered sequence of items that arrives in timely order. Classical frequent item - sets mining method is difficult to apply to data stream. Based on the characteristics of data streams, FP - SegCount algorithm is proposed in this paper to mine frequent item - sets from data streams. The algorithm partitions the data stream and uses modified FP - growth algorithm to mine frequent item- sets in every segment. It then counts item -sets in Count Min Sketch. This algorithm solves compressed statistics and ensures effective computation. Through experimentation and comparison with FP - DS algorithm, FP SegCount algorithm is shown to have a good time efficiency.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.205