基于主题子空间的文本模糊C均值聚类方法  被引量:2

Fuzzy C-means Text Clustering Based on Topic Sub-space

在线阅读下载全文

作  者:吉翔华[1] 陈超[2] 邵正荣[2] 俞能海[1] 

机构地区:[1]中国科学技术大学电子工程与信息科学系多媒体计算与通信教育部-微软重点实验室,安徽合肥230027 [2]中国科学技术大学图书馆,安徽合肥230027

出  处:《小型微型计算机系统》2007年第12期2225-2228,共4页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(60672056)资助;微软亚洲研究院基金项目(06120809)资助

摘  要:模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果.As an effective method of clustering, Fuzzy C-Means(FCM) clustering is applied in many areas such as data mining and information retrieval. The key of FCM effect is the establishment of initial centers and subordination degree matrix. This paper proposes a TS2FCM(Topic Sub-Space based Fuzzy C-Means) algorithm which extracts salient phrases to build topic sub- space and then extract initial centers and subordination degree matrix. The experiment indicates that TS2FCM obtains good clustering effect.

关 键 词:TS2FCM 主题子空间 模糊C均值聚类 文本聚类 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象