一个基于关联规则的多层文档聚类算法  被引量:4

Multi-level document clustering algorithm based on association rules

在线阅读下载全文

作  者:宋江春[1] 沈钧毅[1] 宋擒豹[1] 

机构地区:[1]西安交通大学电子与信息工程学院,陕西西安710049

出  处:《计算机应用》2005年第7期1570-1572,共3页journal of Computer Applications

基  金:国家自然科学基金资助项目(60173058)

摘  要:提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。A multi-level document clustering algorithm was proposed based on association rules, It constructed ducument feature vector of topic and keyword by using a new method of document feature extraction. Firstly, it found the initial ducument clusters by using fast algorithm of finding frequent item sets in topic vector space, then in keyword vector space, re-clustered the initial clusters according to the cluster distance and the link intensity. For processing initial clustering by using classical fast frequent item sets, the efficiency and the precision of the algorithm were highly increased. The new method of ducument feature extraction is also used to solve the problem that the dimention of the keyword vector space is too high with increasing of

关 键 词:文档挖掘 文档聚类 关联规则 文档主题特征向量 文档关键字特征向量 

分 类 号:TP311.11[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象