检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:冷泳林[1] 郭颖 孙晓红[2] 曲珮漪 LENG Yonglin;GUO Ying;SUN Xiaohong;QU Peiyi(College of Information Science and Technology,Bohai University,Jinzhou 121013,China;School of Management,Bohai University,Jinzhou 121013,China)
机构地区:[1]渤海大学信息科学与技术学院,辽宁锦州121013 [2]渤海大学管理学院,辽宁锦州121013
出 处:《渤海大学学报(自然科学版)》2023年第3期262-269,共8页Journal of Bohai University:Natural Science Edition
基 金:辽宁省社会科学基金项目(No:L14AGL002,No:L13AGL002).
摘 要:电子政务平台每天都会产生大量短文本数据,挖掘短文本数据对政府掌握民意有十分重要的作用.针对短文本信息量少,单一短文本向量表示模型产生的特征信息丢失问题,提出一种融合权重及主题特征的混合向量表示模型.该模型利用Word2vec和TF-IDF算法挖掘短文本的局部特征,利用BTM主题模型挖掘短文本全局特征,然后将两种特征向量进行连接构成短文本向量.针对短文本数据增量变化特征,通过增加限定阈值改进传统Single-Pass聚类算法,实现短文本的增量聚类.实验结果表明,该模型能够有效的提高短文本聚类效果.The E-government platforms generate a large amount of short texts every day.Clustering short texts play a very important role for the government's control of public opinion.This paper proposes a hybrid vector representation model that integrates weights and topic features to address the problem of feature information loss caused by a single short text vector representation model with limited information content.This model utilizes Word2vec and TF-IDF algorithms to mine local features of short texts,and utilizes BTM topic model to mine global features of short texts.Then,the two feature vectors are connected to form a short text vector.For the incremental changes of short texts,the Single-Pass clustering algorithm is improved by adding limited thresholds to achieve incremental clustering of short texts.The experimental results show that the hybrid vector representation model proposed in this paper can effectively improve clustering performance.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.117.246.69