基于叙词表的K-means文本聚类修正方法  被引量:2

A Text Clustering Algorithm Of K-Means Based on Thesaurus

在线阅读下载全文

作  者:王娟[1] 李卓娥[1] 

机构地区:[1]上海大学图书馆,上海200444

出  处:《情报杂志》2011年第12期154-156,153,共4页Journal of Intelligence

基  金:上海市教委优青科研专项"国外主流图书馆学情报学主题词表分析对比"(编号:B.37-0501-09-001)阶段性研究成果

摘  要:以文献数据库为应用环境,提出一种基于叙词表的K-means文本聚类方法,该方法的核心思想为:首先,利用叙词表的概念分类体系,将文档集文本的特征词进行归类,形成k个聚类簇,并以此确定k个初始聚类中心;其次,在前面工作的基础上进行K-means聚类运算,直至标准函数收敛,聚类结果生成。实证分析结果显示此方法聚类效果良好。This paper proposes a text clustering algorithm of K-Means based on thesaus with the documcnt database as the applicauotn environment. The core of this algorithm is that: classify the characteristic wortis of the text documents collection by using the concept classification system of thesanrus to form K clusters and select K initial cluster centers,then carry out the K-Meand algorithm badrf on it until the standard function is convergent. The empirical results show that the clustering effect of this algorithm is better.

关 键 词:文本聚类 叙词表 分类体系 K-MEANS算法 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象