基于随机森林特征选择的垃圾短信识别  被引量:1

Spam Message Recognition Based on Random Forest Feature Selection

在线阅读下载全文

作  者:赵志升[1] 傅轩昂 靳晓松 刘洋[1] ZHAO Zhi-sheng;FU Xuan-ang;JIN Xiao-song;LIU Yang(Hebei North University,Zhangjiakou 075000,China)

机构地区:[1]河北北方学院,河北张家口075000

出  处:《电脑与信息技术》2018年第6期24-26,共3页Computer and Information Technology

基  金:2017年河北省“大学生创新创业训练计划”项目;河北省高等学校科学技术重点项目(项目编号:ZD2018241);河北省高等学校科学技术青年基金项目(项目编号:QN2018155);河北省高等学校科学技术青年基金项目(项目编号:QN2016192)

摘  要:针对垃圾短信在内容、句式、标点、数字个数等方面的特征值进行探索,找出垃圾短信的模式特征,并利用自然语言处理技术和文本分类算法结合其特征实现中文垃圾短信识别,并在此基础上使用随机森林的特征选择方法,选择最优变量进行模型的建立,以得到识别准确率和效率最高的短信分类器。The main content of this paper is to explore the characteristic values of spam messages in content, sentencepattern, punctuation, number and so on, to find out the pattern features of spam messages, and to use Natural LanguageProcessing technology and text classification algorithm to realize Chinese spam message recognition, and use random Sen onthis basis. In order to get the highest accuracy rate and the highest efficiency, a short message classifier is selected.

关 键 词:垃圾短信 随机森林 文本分类 支持向量机 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象