基于多层grams的在线支持向量机的中文垃圾邮件过滤  被引量:4

Typed N-gram for Online SVM Based Chinese Spam Filtering

在线阅读下载全文

作  者:沈元辅 沈跃伍[2] 

机构地区:[1]哈尔滨理工大学图书馆,黑龙江哈尔滨150080 [2]哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080

出  处:《中文信息学报》2015年第1期126-132,共7页Journal of Chinese Information Processing

摘  要:该文提出一种多层grams特征抽取方法来提升基于在线支持向量模型的垃圾邮件过滤器。基于在线支持向量机模型的垃圾邮件过滤器在大规模垃圾邮件数据集已取得了很好的过滤效果,但与逻辑回归模型相比,计算性能的耗时是巨大的,很难被工业界所运用。该文提出的多层grams特征抽取方法能够有效减少特征数,抽取更精准有效的特征,大幅降低模型的运行时间,同时提升过滤器的过滤效果。实验表明,该方法使得在线支持向量机模型的运行时间从10337s减少到3784s,同时模型(1-ROCA)%降低了一半。In this paper, we propose Mix-grams method to improve online SVM filter for spam filtering. Though on- line SVM classifier brings high performance on online spare filtering, its computational cost is remarkable compared to other methods such as Logistic Regression. In this paper, we propose a type based n-gram extraction method to reduce the feature dimension of online SVM filter. Experimental results demonstrate that the method improves the filter performance and reduces the computational cost of online SVM filter.

关 键 词:特征抽取 支持向量机 垃圾邮件过滤 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象