基于密度Canopy的评论文本主题识别方法  被引量:1

Topic recognition method of comment text based on density Canopy

在线阅读下载全文

作  者:刘滨[1,2] 詹世源 刘宇[3] 雷晓雨 杨雨宽 陈伯轩 刘格格 高歆 皇甫佳悦 陈莉[6] LIU Bin;ZHAN Shiyuan;LIU Yu;LEI Xiaoyu;YANG Yukuan;CHEN Boxuan;LIU Gege;GAO Xin;HUANGFU Jiayue;CHEN Li(School of Economics and Management,Hebei University of Science and Technology,Shijiazhuang,Hebei 050018,China;Research Center of Big Data and Social Computing,Hebei University of Science and Technology,Shijiazhuang,Hebei 050018,China;Library,Hebei Professional College of Political Science and Law,Shijiazhuang,Hebei 050061,China;Glasgow College,University of Electronic Science and Technology of China,Chengdu,Sichuan 610000,China;School of Information Technology,Nanjing Police University,Nanjing,Jiangsu 210000,China;Air Force Early Warning Academy,Wuhan,Hubei 430019,China)

机构地区:[1]河北科技大学经济管理学院,河北石家庄050018 [2]河北科技大学大数据与社会计算研究中心,河北石家庄050018 [3]河北政法职业学院图书馆,河北石家庄050061 [4]电子科技大学格拉斯哥学院,四川成都610000 [5]南京警察学院信息技术学院,江苏南京210000 [6]中国人民解放军空军预警学院,湖北武汉430019

出  处:《河北科技大学学报》2023年第5期493-501,共9页Journal of Hebei University of Science and Technology

基  金:国家文化和旅游科技创新工程项目(2020年度);河北省省级科技计划资助项目(20310802D,21310101D)。

摘  要:融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进Kmeans算法。实验结果表明,提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法相比,在1852条戏剧评论数据集上,一致性指标值提高了22.9%。因此,所提出的SBERT-LDA-DC方法是有效的,对产品或服务提供者更好地了解用户意见、完善自身产品或提升服务水平提供了新方法,具有较强的实际应用价值。The method,which combines Sentence-BERT and LDA,takes the topic number of LDA as the k value in K-means algorithm,resulting in poor interpretability and low topic consistency.To solve this problem,a Sentence-BERT and LDA optimization method based on density Canopy(SBERT-LDA-DC)was proposed,which used density Canopy to improve the K-means algorithm.The experimental results indicate that this method is superior to similar methods using K-means and K-means++to cluster feature vectors on the consistency index.Compared with the SBERT-LDA method,the consistency index is improved by 22.9%on the 1852 drama comment dataset.The proposed SBERT-LDA-DC method is effective,which provides a new method for product or service providers to better understand user opinions and improve their own products or services,and has strong practical application value.

关 键 词:自然语言处理 主题识别 评论文本 Sentence-BERT LDA 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象