检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘滨[1,2] 詹世源 刘宇[3] 雷晓雨 杨雨宽 陈伯轩 刘格格 高歆 皇甫佳悦 陈莉[6] LIU Bin;ZHAN Shiyuan;LIU Yu;LEI Xiaoyu;YANG Yukuan;CHEN Boxuan;LIU Gege;GAO Xin;HUANGFU Jiayue;CHEN Li(School of Economics and Management,Hebei University of Science and Technology,Shijiazhuang,Hebei 050018,China;Research Center of Big Data and Social Computing,Hebei University of Science and Technology,Shijiazhuang,Hebei 050018,China;Library,Hebei Professional College of Political Science and Law,Shijiazhuang,Hebei 050061,China;Glasgow College,University of Electronic Science and Technology of China,Chengdu,Sichuan 610000,China;School of Information Technology,Nanjing Police University,Nanjing,Jiangsu 210000,China;Air Force Early Warning Academy,Wuhan,Hubei 430019,China)
机构地区:[1]河北科技大学经济管理学院,河北石家庄050018 [2]河北科技大学大数据与社会计算研究中心,河北石家庄050018 [3]河北政法职业学院图书馆,河北石家庄050061 [4]电子科技大学格拉斯哥学院,四川成都610000 [5]南京警察学院信息技术学院,江苏南京210000 [6]中国人民解放军空军预警学院,湖北武汉430019
出 处:《河北科技大学学报》2023年第5期493-501,共9页Journal of Hebei University of Science and Technology
基 金:国家文化和旅游科技创新工程项目(2020年度);河北省省级科技计划资助项目(20310802D,21310101D)。
摘 要:融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进Kmeans算法。实验结果表明,提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法相比,在1852条戏剧评论数据集上,一致性指标值提高了22.9%。因此,所提出的SBERT-LDA-DC方法是有效的,对产品或服务提供者更好地了解用户意见、完善自身产品或提升服务水平提供了新方法,具有较强的实际应用价值。The method,which combines Sentence-BERT and LDA,takes the topic number of LDA as the k value in K-means algorithm,resulting in poor interpretability and low topic consistency.To solve this problem,a Sentence-BERT and LDA optimization method based on density Canopy(SBERT-LDA-DC)was proposed,which used density Canopy to improve the K-means algorithm.The experimental results indicate that this method is superior to similar methods using K-means and K-means++to cluster feature vectors on the consistency index.Compared with the SBERT-LDA method,the consistency index is improved by 22.9%on the 1852 drama comment dataset.The proposed SBERT-LDA-DC method is effective,which provides a new method for product or service providers to better understand user opinions and improve their own products or services,and has strong practical application value.
关 键 词:自然语言处理 主题识别 评论文本 Sentence-BERT LDA
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.145.83.240