检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:岑芳明[1] 王明文[1] 王鹏鸣[1] 戴玉娟[1]
机构地区:[1]江西师范大学计算机信息工程学院,江西南昌330022
出 处:《中文信息学报》2009年第2期48-53,共6页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(60663007);江西省科技攻关项目(2006-184);江西省教育厅科技项目(2007-129)
摘 要:垃圾邮件是Internet上亟待解决的问题,目前许多垃圾邮件过滤技术已经被使用。基于偏最小二乘的方法可以解决垃圾邮件的内容中普遍存在的数据稀疏性、高特征维数和多重相关性问题。但邮件内容之间的内在联系往往不是线性的,该文通过在偏最小二乘方法上引入核函数,去解决这一类的非线性问题。Enron-Spam垃圾数据集实验表明,同PLSR等方法比较,模型表现出了较好的过滤性能。The spam is one of the most serious problems to be resolved in the Internet. Recently, several spam filtering technologies have been proposed and applied to spam filtering, such as the Partial Least Squares (PLS) method. The PLS method can deal with the sparse data, the high dimensionalities and the multi-colinearity issues existing in the e mail dataset. However, the latent content relationships among the e-mail data are, more often than not, nonlinear. This paper introduces the kernel function over PLS method to capture such non linearity. Compared with PLSR method, the proposed KPLS model is proved with superior efficiency in the experiments on the Enron-Spam dataset.
关 键 词:计算机应用 中文信息处理 垃圾邮件过滤 非线性 核偏最小二乘 回归 分类 潜在语义
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229