基于文本的关联规则提取方法的研究  被引量:5

An Algorithm for Mining Association Rule in Textual Database

在线阅读下载全文

作  者:黄嘉满[1] 张冬茉[1] 

机构地区:[1]上海交通大学计算机科学与工程系,上海200240

出  处:《计算机仿真》2008年第1期96-99,共4页Computer Simulation

摘  要:随着人们利用信息技术生产和搜集数据的能力的提高,数据资料的规模急速膨胀,从庞大的数据中提取有用的知识和信息是数据挖掘的主要任务,而关联规则的挖掘是数据挖掘领域中的一个重要分支。Fp-growth算法是目前最有效的关联规则频繁模式挖掘算法之一,然而,由于在挖掘的过程中需要递归的生成频繁模式树,直接把Fp-growth算法应用在文本中的算法效率并不高。针对文本数据的稀疏性,提出了一个基于频繁模式树即Fp-tree和支持度矩阵相结合的最大频繁项目集挖掘算法,缩小了搜索空间,提高了算法的效率。算法分析和实验表明,算法对稀疏型数据集和稠密型数据均适用。The human' s ability of collecting and using data and information for production has been improved dramatically. The size of data is expended like rocket up. To draw useful knowledge and information from the numerous data is the main task of data mining. Mining association rules is an important aspect in data mining. The Fp - growth algorithm is one of the most efficient frequent pattern mining methods. However, Fp -growth method must generate a great number of condition Fp - tree recursively, it means, using Fp - growth directly to mine the textual database is unsatisfactory. The sparsity of dataset in textual databases is time - consuming using the original Fp - growth algorithm. The essay presents a new algorithm to find dataset efficient in textual database based on the AFp - growth algorithm, which uses the original Fp -tree structure and our matrix technique. It also presents experimental results which show that the methods outperform the Fp -growth algorithm in mining datasets in textual databases.

关 键 词:数据挖掘 关联规则 频繁模式增长 最大频繁项目集 

分 类 号:TP31[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象