检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王德志 梁俊艳[2] WANG De-zhi;LIANG Jun-yan(School of Computer Engineering,North China Institute of Science and Technology,Langfang 065201,China;Library,North China Institute of Science and Technology,Langfang 065201,China)
机构地区:[1]华北科技学院计算机学院,河北廊坊065201 [2]华北科技学院图书馆,河北廊坊065201
出 处:《计算机工程与设计》2021年第9期2501-2508,共8页Computer Engineering and Design
基 金:国家重点研发计划基金项目(2018YFC0808306);河北省物联网监控工程技术研究中心基金项目(3142018055)。
摘 要:针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法。在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样。基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题。To solve the problem of low accuracy of small sample classification data generated by unbalanced data sets in the text multi classification,a hybrid average clustering sampling algorithm based on contour coefficient dynamic K-means clustering was presented.Clustering cluster was used for over sampling the small sample data set in the unbalanced data set.For large sample data set,clustering cluster was used for equal proportional undersampling.Based on micro-blog disaster data set,text convolution neural network was designed and the algorithm was verified.Experimental results indicate that the proposed algorithm can effectively improve the accuracy and F1 value of text unbalanced data set.It solves the problem of unbalanced text data set classification.
关 键 词:不平衡数据集 情感分类 文本多分类 聚类 深度学习
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30