TCBLSA:一种中文文本聚类新方法  被引量:15

TCBLSA:A New Method of Chinese Text Clustering

在线阅读下载全文

作  者:王国勇[1] 徐建锁[1] 

机构地区:[1]天津大学系统工程研究所,天津300072

出  处:《计算机工程》2004年第5期21-22,37,共3页Computer Engineering

基  金:国家自然科学基金资助项目(60275020)

摘  要:根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度。This paper presents a new method of text clustering by latent semantic analysis. This method establishes vector space model of term weight by the theory of latent semantic analysis, and eliminates disadvantageous factors. This method decreases the number of vector, and advances the speed and precision of text clustering.

关 键 词:文本聚类 隐含语义分析 奇异值分解 向量空间模型 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象