改进的概率潜在语义分析下的文本聚类算法被引量：14

Improved text clustering algorithm of probabilistic latent with semantic analysis

出　　处：《计算机应用》2011年第3期674-676,693,共4页journal of Computer Applications

基　　金：中国博士后科学基金资助项目(20070420711);重庆市科委基金资助项目(2008BB2191)

摘　　要：概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法有效解决了参数随机初始化问题。经实验验证,所提出的方法对文本聚类的归一化互信息(NM I)和准确度都有明显提高。Trained by the Expectation Maximization （EM） algorithm, whose model parameters are randomly initialized, the performance of Probabilistic Latent Semantic Analysis （PLSA） model is quite dependent on the initialization of the model, and the result of iteration is not a global maximum, but a local one. The authors derived probabilities from Latent Semantic Analysis （LSA）, and then used it to initialize the parameters of PLSA model in documents clustering. The improved PLSA could effectively solve the puzzle of random initializing of EM. It is shown that the improved algorithm has a distinct improvement in Normalized Mutual Information （NMI） and accuracy.

关键词：文本聚类概率潜在语义分析参数初始化潜在语义分析

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

改进的概率潜在语义分析下的文本聚类算法被引量：14

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

改进的概率潜在语义分析下的文本聚类算法 被引量：14

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

改进的概率潜在语义分析下的文本聚类算法被引量：14