基于语义的高质量中文短信文本聚类算法  被引量:30

High Quality Algorithm for Chinese Short Messages Text Clustering Based on Semantic

在线阅读下载全文

作  者:刘金岭[1] 

机构地区:[1]淮阴工学院计算机工程系,淮安223003

出  处:《计算机工程》2009年第10期201-202,205,共3页Computer Engineering

摘  要:现有数据聚类方法在处理文本数据时,没有考虑词之间潜在的相似信息,导致聚类效果不理想。针对中文短信文本聚类提出一种基于语义的聚类算法。给出中文概念、词和中文短信文本的相似度度量方法,通过向下连锁裂变和向上两两归并完成中文短信文本聚类。实验结果表明,该算法的聚类质量高于传统算法。Existing data clustering method lacks considering of latent similar information existing among words, and it leads to unsatisfactory clustering result. Aiming at Chinese short message text clustering, this paper proposes a clustering algorithm based on semantic. It offers Chinese concept, and the measuring methods to calculate the similarity degree about words and Chinese short message text. It completes the clustering of Chinese short messages text through fission downwards and mergence of twos upwards. Experimental results show that this algorithm has better clustering quality than traditional algorithm.

关 键 词:短信文本 语义 概念相似度 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象