结合概率潜在语义分析的文本谱聚类方法研究

Research of spectral clustering based on probabilistic latent semantic analysis

出　　处：《计算机工程与应用》2011年第36期134-136,179,共4页Computer Engineering and Applications

基　　金：中央高校研究生科技创新基金(No.CDJXS11180012)

摘　　要：传统谱聚类的相似矩阵建立在VSM(Vector Space Model)之上,该模型把词看作孤立的单元,没有考虑自然语言中存在大量的同义词、多义词现象。针对这一问题,提出一种用概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)来提取文本中隐含语义信息的方法,并构建文本集的相似矩阵,从语义的角度考虑了文本之间的相关性。实验结果表明,利用该方法得到的聚类精度有较大提高,结果要好于传统的谱聚类算法,从而验证了该方法的有效性。Traditional similar matrix of spectral clustering is dependent on vector space model,which regards index word as independent unit and ignores a large number of synonyms and polysemy existing in natural language.To solve this problem,the paper comes up with a new method of extracting semantic information implicit in the text and constructing the similar matrix based on Probabilistic Latent Semantic Analysis（PLSA）,which takes into account the similarities of the texts.Experiments indicate that such similar matrix built by PLSA can greatly improve categorization precision,and bring better results than traditional way like spectral clustering,further proves the availability of PLSA.

关键词：文本聚类概率潜在语义分析谱聚类相似矩阵

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

结合概率潜在语义分析的文本谱聚类方法研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

结合概率潜在语义分析的文本谱聚类方法研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索