检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王刚[1,2] 刘元宁[1,2] 张晓旭[1,2] 赵正东[3] 朱晓冬[1,2] 刘震[1,4]
机构地区:[1]吉林大学计算机科学与技术学院,长春130012 [2]吉林大学符号计算与知识工程教育部重点实验室,长春130012 [3]长春理工大学网络中心,长春130022 [4]长崎综合科学大学研究生院
出 处:《吉林大学学报(工学版)》2011年第3期716-720,共5页Journal of Jilin University:Engineering and Technology Edition
基 金:国家自然科学基金项目(60971089);国家电子发展基金项目(财建[2009]537号);吉林省科技厅项目(20090502)
摘 要:提出了一种新的垃圾邮件过滤方法(NSFM),从高维的文本特征中删除冗余的特征,选择对分类精度提高有贡献的特征,从而提高了垃圾邮件过滤的分类准确率。提出了一种模糊自适应粒子群(IFAPSO),通过模糊控制,动态的调控粒子群的惯性权重、学习因子和粒子数量比。NSFM包含核心特征选择、特征选择、垃圾邮件过滤3个阶段,第一阶段利用信息增益求取每个特征的信息值,构建核心特征集合,生成一定数量的核心特征子集;第二阶段根据核心特征子集对IFAPSO进行初始化,利用模糊控制器对粒子群进行自适应的调节,完成特征选择;第三阶段使用支持向量机对最优的特征子集分类,完成垃圾邮件过滤。本文采用PU1、Ling-Spam、SpamAssassin数据集数,通过多种对比实验证明:本方法自适应性强,可选择到较优的特征子集,有效地提高了分类精度,提升了垃圾邮件过滤的性能,具有较高的实用价值。A Novel Spam Filtering Method (NSFM) is proposed, which removes redundant attributes from the high dimensional attributes, and selects the attributes, which contribute to the classification accuracy, thus, to improve the classification rate of spare filtering. A fuzzy adaptive particle swarm algorithm is developed, which can dynamically control the inertia weight, learning factor and particle number factor using fuzzy control. The NSFM consists of three stages, kernel feature selection, feature selection and spare filtering. In the first stage, information gain is employed to calculate the infarmation value of each feature, and construct a kernel feature set, thereby obtaining a number of kernel feature subsets. In the second stage, according to the kernel feature subset, IFAPSO is initialized and adjusted adaptively using the fuzzy controller, thus finishing spam filtering. In the final stage, support vector machine is used to classify the optimal feature subset and finish spare filtering. In this paper, PUI, I.ing-Spam and SpamAssassin data sets are utilized. Through many comparative experiments, it is confirmed that the proposed method is adaptable and can select better feature subsets, thereby enhancing the classification accuracy rate effectively, and building up the performance of spare filtering. The NSFM has important practical value.
关 键 词:人工智能 特征选择 粒子群 模糊控制 垃圾邮件过滤 支持向量机
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28