一种基于语义的垃圾短信过滤算法  被引量:1

A Spam Message Filtering Algorithm Based on Semantics

在线阅读下载全文

作  者:周巧扣[1] 倪红军[1] 

机构地区:[1]南京师范大学泰州学院信息工程学院,江苏泰州225300

出  处:《实验室研究与探索》2016年第11期137-140,共4页Research and Exploration In Laboratory

基  金:江苏省大学生创新训练计划项目(201613843015Y);教育部-Google2014年校企合作产学合作项目(PO640068)

摘  要:垃圾短信过滤是文本分类的一种,将用户收到的短信分为正常短信和垃圾短信,从而实现对垃圾短信的屏蔽。在朴素贝叶斯分类算法的基础上进行改进,针对短信内容较短包含信息不足的特点,引入同义词集对短信中特征词进行扩展,降低同义特征词分散给分类带来的负面影响。同时针对垃圾短信自身包含的特殊信息,提出模式概念,采用模式概念替换具有相同模式的特征词,使垃圾短信的特征更加集中,增强分类算法对垃圾短信的鉴别能力,最后通过实验对朴素贝叶斯算法以及改进后算法的分类性能进行了分析,验证了改进后算法的有效性。Spam message filtering is a kind of text classification,messages are divided into normal text messages and spam messages. Based on naive Bayesian classification algorithm,a short message is classified by depending on the characteristics of the lack of information. It uses synonym sets for the expansion of feature words,reduces the negative impact of the spread of synonym feature words. At the same time,according to the special information contained in spam messages,the paper proposes model concept. The feature words with the same pattern are replaced by the model concept. Finally,the performance of the algorithm is analyzed by experiments.

关 键 词:垃圾短信 朴素贝叶斯 同义词 文本分类 

分 类 号:TP309[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象