基于小样本学习的垃圾邮件过滤方法  被引量:2

Spam Filtering Method Based on Learning from Small Samples

在线阅读下载全文

作  者:潘洁珠[1] 周晓[1] 吴共庆[2] 胡学钢[2] 

机构地区:[1]合肥师范学院计算机科学与技术系,合肥230061 [2]合肥工业大学计算机与信息学院,合肥230009

出  处:《计算机工程》2010年第21期245-247,共3页Computer Engineering

基  金:国家“973”计划基金资助项目(2009CB326203);国家自然科学基金资助项目(60975034);安徽高等学校省级自然科学研究基金资助项目(KJ2009B238Z)

摘  要:针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?veBayes分类器,以此标注未标记邮件,再使用所有数据训练新的分类器,利用EM算法进行迭代直至收敛。实验结果证明,当给定5个~20个已标记小样本训练邮件时,该方法可有效提高垃圾邮件过滤性能。It is difficult to collect sufficient labeled E-mails for training a client spam classifier. Aiming at the problem, this paper proposes a spam filtering method based on learning from small samples, which improves the filtering performance with unlabeled samples. An initial Naive Bayes(NB) classifier is trained with a dataset of labeled E-mails, and unlabeled E-mails are probabilistically labeled with it. A new classifier is trained with all E-mails, and iterates to convergence with EM algorithm. Experimental results prove that, given labeled small training samples with a size of 5 to 20, the performance of spam filtering can be effectively improved.

关 键 词:小样本学习 EM算法 未标记数据 垃圾邮件过滤 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象