文本聚类集成问题中的谱算法  被引量:1

Spectral algorithms in document cluster ensemble

在线阅读下载全文

作  者:徐森 卢志茂 顾国昌[1] 

机构地区:[1]哈尔滨工程大学计算机科学与技术学院,哈尔滨150001 [2]哈尔滨工程大学信息与通信工程学院,哈尔滨150001

出  处:《控制与决策》2009年第8期1277-1280,共4页Control and Decision

基  金:国家自然科学基金项目(60603092);高等学校博士学科点专项科研基金项目(20070217043)

摘  要:聚类集成中的关键问题是如何根据不同的聚类成员组合为更好的聚类结果.引入谱聚类算法解决该问题,提出了基于相似度矩阵的谱算法(SMSA),但该算法高昂的计算代价使其不适合大规模文本集.进一步研究了谱聚类算法的特性,对超边的相似度矩阵进行谱分析,提出了基于超边相似度矩阵的元聚类算法(HSM-MCLA).真实文本数据集的实验结果表明:SMSA和HSM-MCLA比其他基于图划分的集成算法更优越;HSM-MCLA可获得与SMSA相当的结果,而计算需求却明显低于SMSA.A critical problem in cluster ensemble is how to combine multiple clusterers to yield a superior result. Spectral clustering is brought forth into solving this problem and similarity matrix spectral algorithm (SMSA) is proposed. Since the computational cost of SMSA is too high for large document datasets, the charaetiristic of spectral clustering algorithm is further investigated. The hyperedges' similarity matrix are spectral analysed and hyperedges similarity matrix-based meta clustering algorithm (HSM-MCLA) is proposed. Experiments on real world document sets show that both SMSA and HSM-MCLA outperform other cluster ensemble techniques based on graph partitioning, and HSM-MCLA attains comparable results to SMSA with much lower computational cost than SMSA.

关 键 词:聚类分析 聚类集成 谱聚类 文本聚类 矩阵近似 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象