检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080 [2]哈尔滨理工大学信息安全与智能技术研究中心,黑龙江哈尔滨150080
出 处:《哈尔滨理工大学学报》2014年第1期49-53,共5页Journal of Harbin University of Science and Technology
基 金:黑龙江省普通高等学校新世纪优秀人才培养计划(1155-ncet-008);教育部人文社科项目(11YJC740048);黑龙江省教育科学规划课题(GBC1211062);黑龙江省高等教育教学改革项目(2011-NP33)
摘 要:针对朴素贝叶斯算法应用于反垃圾邮件过滤时,其有效性十分依赖于对邮件内容的有效建模,而邮件内容建模方面研究尚不成熟限制了贝叶斯方法在垃圾邮件过滤中的性能.采用了三种概率分布对邮件内容进行建模,据此提出了3种概率分布下的朴素贝叶斯算法.为了提高训练效率,算法采用了一种增量式的垃圾邮件过滤方法.在trec05p-1、trec06p两个公开数据集上对这3种贝叶斯算法进行了实验对比,分析出三种贝叶斯分布的适用范围.从不同分布的邮件内容建模角度出发,为过滤垃圾邮件的方法选择提供了有效依据.Abstract:The effectiveness of Naive Bayes in spare filtering depends on the modelling of the mail contents. However, mail content modelling is not mature, which limits the performance of Bayesian method in spam filtering. This paper presents three kinds of probability distribution to model email content, and proposes three Na'gve Bayes algorithms based on different probability distributions. To improve training efficiency, the incremental training algo- rithm is utilized in the experimental procedure. Experiments on trec06p and trec05p - 1 show that the three pro- posed algorithms can achieve good performance in different sceneries. Such a finding also provides effective basis for the selection of the filtering methods.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.226.88.145