检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张晓瑜 高扬[2] 苗星星 祝永霞 ZHANG Xiaoyu;GAO Yang;MIAO Xingxing;ZHU Yongxia(No.32317 Troops of PLA,Urumqi 830000;No.32319 Troops of PLA,Urumqi 830000;The Army Border Sea Defense Academy of PLA,Urumqi 830000)
机构地区:[1]中国人民解放军32317部队,乌鲁木齐830000 [2]中国人民解放军32319部队,乌鲁木齐830000 [3]陆军边海防学院,乌鲁木齐830000
出 处:《计算机与数字工程》2024年第2期496-501,共6页Computer & Digital Engineering
摘 要:微博噪音过滤具有去除垃圾样本、降低数据规模等作用。利用聚类算法产生噪音种子词,在未标注数据上采用FP-Growth算法对种子词扩展,生成噪音特征词词典,结合用户和内容特征,引入支持向量机模型用于噪音微博过滤。实验结果正确率为84%,召回率为79%,F1值为81%,证明该模型产生的噪音特征词有助于提升微博过滤的效果。Microblog noise filtering can remove garbage samples and reduce data scale.The noise seed words are generated by the clustering algorithm.FP-Growth algorithm is used to expand the seed words on unlabeled data to generate a noise feature word dictionary.Combining user and content characteristics,the support vector machine model is introduced to filter noise microblogs.The experimental results shows that the precision is 84%,the recall is 79%,the F1 value is 81%,which proves that the noise char-acteristics generated by the model can help to improve the filtering effect of microblog.
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.171