基于LSI理论的文本自动聚类研究被引量：5

Automatic Text Clustering Based on Latent Semantic Index Theory

作　　者：常娥[1,2]

机构地区：[1]东南大学图书馆,南京210096 [2]东南大学科技情报研究所,南京210096

出　　处：《图书情报工作》2012年第11期89-92,共4页Library and Information Service

基　　金：教育部人文社会科学基金项目"中文原生数字资源管理研究"(项目编号:08JC870002)研究成果之一

摘　　要：结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。An improved method of automatic text clustering is proposed based on latent semantic indexing（LSI） theory and the K- means clustering method. Firstly, the documents keywords are extracted by using N-gram statistics method. Secondly, the document vector space model is constructed and reduced by using latent semantic indexing. Finally, the documents are clustered by using K- means clustering algorithm. The test results show that the text clustering accuracy is up to 84.7%

关键词：文本聚类 LSI模型N—gram算法K-means算法

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于LSI理论的文本自动聚类研究被引量：5

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于LSI理论的文本自动聚类研究 被引量：5

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于LSI理论的文本自动聚类研究被引量：5