基于PLSA模型的观点句聚类算法研究  被引量:1

Research of Opinion Sentences Clustering Algorithm Based on PLSA Model

在线阅读下载全文

作  者:贾会玲[1] 吴晟[1] 李英娜[1] 李萌萌[1] 杨玺[1] 李川[1] 

机构地区:[1]昆明理工大学信息工程与自动化学院,昆明650500

出  处:《价值工程》2015年第31期167-169,共3页Value Engineering

基  金:国家自然科学基金项目(51467007)

摘  要:针对互联网评论文本中观点句情感特征的稀疏性及低频性,提出一种基于概率潜在语义分析(PLSA)模型的观点句聚类算法。利用PLSA对语料库中的观点句进行数据预处理与数据聚类,并以微平均F1为评价指标设计与采用潜在语义分析(LSA)方法的对比实验。分析与研究结果表明:(1)主题数在20附近时,聚类效果最为显著;主题数超过20时,聚类效果随着主题数的增加呈递减趋势,之后聚类效果趋于稳定;(2)与LSA算法相比,PLSA算法显示出较好的聚类效果,数据测试结果验证了该模型的有效性。研究结果对提高信息检索速度与个性化推送服务具有重要意义。A view sentence clustering algorithm called Probabilistic Latent Semantic Analysis(PLSA) model is promoted considering the insufficient characteristics of sparsity and low frequency of emotional characteristics in the Internet comment text view. PLSA method is used for data in the view sentences of corpus pre-process and cluster, and the contrast experiment between PLSA and Latent Semantic Analysis(LSA) taking micro-averaging F1 as the evaluation index is carried out. Analysis and research results show that:(1) Clustering effect is the most significant when the theme stories nearby 20; clustering effect decreases with the increment of theme stories, then tends to be stable;(2) Compared with LSA algorithm, PLSA algorithm shows better clustering effect, and data test results verify the validity of the model.Results presented in this paper may be helpful for the improvement of information retrieval speed and personalized push service.

关 键 词:观点句 聚类分析 PLSA 微平均F1 对比实验 

分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象