检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李润川[1,2,3] 昝红英[1] 申圣亚 毕银龙 张中军[5]
机构地区:[1]郑州大学信息工程学院,河南郑州450000 [2]郑州大学互联网医疗与健康服务河南省协同创新中心,河南郑州450000 [3]郑州大学产业技术研究院,河南郑州450000 [4]郑州大学外语学院,河南郑州450000 [5]周口师范学院计算机科学与技术学院,河南周口466001
出 处:《山东大学学报(理学版)》2017年第7期73-79,共7页Journal of Shandong University(Natural Science)
基 金:国家社会科学基金资助项目(14BYY096);国家自然科学基金资助项目(61402419);国家高技术研究发展863计划资助项目(2012AA011101);国家重点基础研究发展计划973课题资助项目(2014CB340504)
摘 要:垃圾短信已日益成为影响人们日常生活的严重问题,由于短信属于短文本,长度较短,特征稀疏,尤其是垃圾短信为逃避过滤机制,其结构和内容常常不规范,所以传统的文本特征提取方法并不能完全适用于短信分类。从短信的结构及语义两个角度提取特征项,并建立语义特征词表,采用基于多特征融合的方法来向量化表示短信文本。针对短信数据集中存在的噪声及数据不平衡问题,分别比较了NB、SVM、DT、LR、MLP、RF分类器的性能差别。实验表明,采用RF分类算法,能有效减弱噪声干扰及数据不平衡性所带来的影响。通过在CCF 2015中国好创意竞赛题目"垃圾短信基于文本内容识别"所提供的数据集上进行验证,取得了很好的效果。Spam message has increasingly become a serious problem affecting people's daily live. the informative texts are short and sparse, especially the spam message, in order to avoid filtering mechanism, its structure and content is not always standardized so that the traditional text feature extraction method does not fully apply to text classification. This paper extract the feature item from the structure and semantics of two angles of short message, establish semantic feature list and use multi-feature fusion method to quantitatively express SMS text. According to noise and data imbalance problem exists in message, this paper compares the performance differences of NB, SVM, DT, LR, MLP and RF. The experiment shows that the RF classification algorithm can effectively reduce the impact of noise interference and data imbalance. Through the experiments on the data set which provided by Spam Message Based on Text Content Recognition in CCF 2015 China Creative Competition proved that our method works well.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.118.171.154