使用“分裂-合并'策略改进文本聚类集成算法的研究  被引量:1

Improvement of document cluster ensemble algorithms using divide and merge strategy

在线阅读下载全文

作  者:卢志茂 徐森[2] 刘远超[3] 顾国昌 

机构地区:[1]哈尔滨工程大学模式识别与自然计算研究室,哈尔滨150001 [2]盐城工学院计算机工程系,盐城224051 [3]哈尔滨工业大学智能技术与自然语言处理实验室,哈尔滨150001

出  处:《高技术通讯》2010年第7期714-718,共5页Chinese High Technology Letters

基  金:863计划(2007AA01Z172);国家自然科学基金(60975042;60603092);高等学校博士学科点专项科研基金(20070217043)资助项目

摘  要:探讨了'分裂-合并'(DM)策略对文本聚类集成算法改进的效果。首先在聚类成员生成阶段运行使用DM策略的超球K均值(SKM)算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用凝聚层次聚类方法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用两个快速的谱聚类算法进行集成。在6组真实文本集上进行了实验,使用DM策略的两个聚类集成算法获得的平均标准化互信息(NMI)分别比改进前的算法提高了4.6和7.9个百分点,证明了DM策略可以有效提高文本聚类集成算法的聚类质量。The influence of the divide and merge (DM) strategy on document cluster ensemble algorithms was explored. Firstly, the spherical K-means (SKM) algorithm utilizing the DM strategy was performed for r times in the ensemble member generation phase, and each time more document sub-clusters were obtained and the agglomerative hierarchical method was used to merge these sub-clusters according to their similarity to attain r ensemble members. Then, two fast spectral clustering algorithms were performed to ensemble the r clusterings. The experiments on six real-world document sets showed that the DM strategy increased the normalized mutual information (NMI) of the two cluster ensemble algorithms by 4.6 and 7.9 percentage in average, respectively. These results prove that DM strategy can effectively improve the performance of document cluster ensemble algorithms.

关 键 词:聚类集成 谱聚类 文本聚类 分裂-合并(DM) 标准化互信息(NMI) 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象