基于核偏最小二乘分类的垃圾邮件过滤  被引量:2

Spam Filtering Based on Kernel Partial Least Squares Classification

在线阅读下载全文

作  者:岑芳明[1] 王明文[1] 王鹏鸣[1] 戴玉娟[1] 

机构地区:[1]江西师范大学计算机信息工程学院,江西南昌330022

出  处:《中文信息学报》2009年第2期48-53,共6页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60663007);江西省科技攻关项目(2006-184);江西省教育厅科技项目(2007-129)

摘  要:垃圾邮件是Internet上亟待解决的问题,目前许多垃圾邮件过滤技术已经被使用。基于偏最小二乘的方法可以解决垃圾邮件的内容中普遍存在的数据稀疏性、高特征维数和多重相关性问题。但邮件内容之间的内在联系往往不是线性的,该文通过在偏最小二乘方法上引入核函数,去解决这一类的非线性问题。Enron-Spam垃圾数据集实验表明,同PLSR等方法比较,模型表现出了较好的过滤性能。The spam is one of the most serious problems to be resolved in the Internet. Recently, several spam filtering technologies have been proposed and applied to spam filtering, such as the Partial Least Squares (PLS) method. The PLS method can deal with the sparse data, the high dimensionalities and the multi-colinearity issues existing in the e mail dataset. However, the latent content relationships among the e-mail data are, more often than not, nonlinear. This paper introduces the kernel function over PLS method to capture such non linearity. Compared with PLSR method, the proposed KPLS model is proved with superior efficiency in the experiments on the Enron-Spam dataset.

关 键 词:计算机应用 中文信息处理 垃圾邮件过滤 非线性 核偏最小二乘 回归 分类 潜在语义 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象