检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]上海交通大学计算机科学与工程系,上海200240
出 处:《计算机仿真》2008年第1期96-99,共4页Computer Simulation
摘 要:随着人们利用信息技术生产和搜集数据的能力的提高,数据资料的规模急速膨胀,从庞大的数据中提取有用的知识和信息是数据挖掘的主要任务,而关联规则的挖掘是数据挖掘领域中的一个重要分支。Fp-growth算法是目前最有效的关联规则频繁模式挖掘算法之一,然而,由于在挖掘的过程中需要递归的生成频繁模式树,直接把Fp-growth算法应用在文本中的算法效率并不高。针对文本数据的稀疏性,提出了一个基于频繁模式树即Fp-tree和支持度矩阵相结合的最大频繁项目集挖掘算法,缩小了搜索空间,提高了算法的效率。算法分析和实验表明,算法对稀疏型数据集和稠密型数据均适用。The human' s ability of collecting and using data and information for production has been improved dramatically. The size of data is expended like rocket up. To draw useful knowledge and information from the numerous data is the main task of data mining. Mining association rules is an important aspect in data mining. The Fp - growth algorithm is one of the most efficient frequent pattern mining methods. However, Fp -growth method must generate a great number of condition Fp - tree recursively, it means, using Fp - growth directly to mine the textual database is unsatisfactory. The sparsity of dataset in textual databases is time - consuming using the original Fp - growth algorithm. The essay presents a new algorithm to find dataset efficient in textual database based on the AFp - growth algorithm, which uses the original Fp -tree structure and our matrix technique. It also presents experimental results which show that the methods outperform the Fp -growth algorithm in mining datasets in textual databases.
关 键 词:数据挖掘 关联规则 频繁模式增长 最大频繁项目集
分 类 号:TP31[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222