检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:贾会玲[1] 吴晟[1] 李英娜[1] 李萌萌[1] 杨玺[1] 李川[1]
机构地区:[1]昆明理工大学信息工程与自动化学院,昆明650500
出 处:《价值工程》2015年第31期167-169,共3页Value Engineering
基 金:国家自然科学基金项目(51467007)
摘 要:针对互联网评论文本中观点句情感特征的稀疏性及低频性,提出一种基于概率潜在语义分析(PLSA)模型的观点句聚类算法。利用PLSA对语料库中的观点句进行数据预处理与数据聚类,并以微平均F1为评价指标设计与采用潜在语义分析(LSA)方法的对比实验。分析与研究结果表明:(1)主题数在20附近时,聚类效果最为显著;主题数超过20时,聚类效果随着主题数的增加呈递减趋势,之后聚类效果趋于稳定;(2)与LSA算法相比,PLSA算法显示出较好的聚类效果,数据测试结果验证了该模型的有效性。研究结果对提高信息检索速度与个性化推送服务具有重要意义。A view sentence clustering algorithm called Probabilistic Latent Semantic Analysis(PLSA) model is promoted considering the insufficient characteristics of sparsity and low frequency of emotional characteristics in the Internet comment text view. PLSA method is used for data in the view sentences of corpus pre-process and cluster, and the contrast experiment between PLSA and Latent Semantic Analysis(LSA) taking micro-averaging F1 as the evaluation index is carried out. Analysis and research results show that:(1) Clustering effect is the most significant when the theme stories nearby 20; clustering effect decreases with the increment of theme stories, then tends to be stable;(2) Compared with LSA algorithm, PLSA algorithm shows better clustering effect, and data test results verify the validity of the model.Results presented in this paper may be helpful for the improvement of information retrieval speed and personalized push service.
关 键 词:观点句 聚类分析 PLSA 微平均F1 对比实验
分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249