基于多特征融合的垃圾短信识别  被引量:7

Spam messages identification based on multi-feature fusion

在线阅读下载全文

作  者:李润川[1,2,3] 昝红英[1] 申圣亚 毕银龙 张中军[5] 

机构地区:[1]郑州大学信息工程学院,河南郑州450000 [2]郑州大学互联网医疗与健康服务河南省协同创新中心,河南郑州450000 [3]郑州大学产业技术研究院,河南郑州450000 [4]郑州大学外语学院,河南郑州450000 [5]周口师范学院计算机科学与技术学院,河南周口466001

出  处:《山东大学学报(理学版)》2017年第7期73-79,共7页Journal of Shandong University(Natural Science)

基  金:国家社会科学基金资助项目(14BYY096);国家自然科学基金资助项目(61402419);国家高技术研究发展863计划资助项目(2012AA011101);国家重点基础研究发展计划973课题资助项目(2014CB340504)

摘  要:垃圾短信已日益成为影响人们日常生活的严重问题,由于短信属于短文本,长度较短,特征稀疏,尤其是垃圾短信为逃避过滤机制,其结构和内容常常不规范,所以传统的文本特征提取方法并不能完全适用于短信分类。从短信的结构及语义两个角度提取特征项,并建立语义特征词表,采用基于多特征融合的方法来向量化表示短信文本。针对短信数据集中存在的噪声及数据不平衡问题,分别比较了NB、SVM、DT、LR、MLP、RF分类器的性能差别。实验表明,采用RF分类算法,能有效减弱噪声干扰及数据不平衡性所带来的影响。通过在CCF 2015中国好创意竞赛题目"垃圾短信基于文本内容识别"所提供的数据集上进行验证,取得了很好的效果。Spam message has increasingly become a serious problem affecting people's daily live. the informative texts are short and sparse, especially the spam message, in order to avoid filtering mechanism, its structure and content is not always standardized so that the traditional text feature extraction method does not fully apply to text classification. This paper extract the feature item from the structure and semantics of two angles of short message, establish semantic feature list and use multi-feature fusion method to quantitatively express SMS text. According to noise and data imbalance problem exists in message, this paper compares the performance differences of NB, SVM, DT, LR, MLP and RF. The experiment shows that the RF classification algorithm can effectively reduce the impact of noise interference and data imbalance. Through the experiments on the data set which provided by Spam Message Based on Text Content Recognition in CCF 2015 China Creative Competition proved that our method works well.

关 键 词:垃圾短信 多特征融合 数据不平衡 随机森林 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象