基于生物序列模式提取技术的邮件过滤算法  被引量:3

Spam filtering algorithm based on the pattern discovery techniques of biological sequences

在线阅读下载全文

作  者:陈蔚然[1] 董守斌[1] 

机构地区:[1]华南理工大学,广东省计算机网络重点实验室,广州510640

出  处:《清华大学学报(自然科学版)》2005年第S1期1734-1737,共4页Journal of Tsinghua University(Science and Technology)

基  金:国家"九七三"子课题"下一代互联网安全监测和安全生态学理论研究"(2003CB314800)

摘  要:为了解决垃圾邮件过滤问题,考虑到中文垃圾邮件的特点和过滤系统的效率要求,应用生物信息化技术中模式提取算法TE IRES IA S的原理,设计了基于生物序列模式提取技术的垃圾邮件过滤算法B ioM atrix,并实现了基于此算法的中英文邮件过滤系统。过滤系统由数量控制过滤提供垃圾邮件训练集,通过提取其中的特征模式对邮件进行分类,可以识别出约94.2%的垃圾邮件,误过滤率约0.04%。与B ayes过滤算法对比的实验结果表明,将生物序列模式提取技术应用于邮件过滤具有较好的研究和实用价值。A spam filtering algorithm, BioMatrix was designed in view of the characteristics of Chinese spam and efficiency demand of anti-spam system to solve the spam filtering problem. Based on the pattern discovery techniques of biological sequences, BioMatrix adopted the principle of TEIRESIAS algorithm in bioinformatics technology. An anti-spam system based on BioMatrix was implemented to filter Chinese and English spam. This system obtained training data set by spam quantity control, and then classified mails u...

关 键 词:邮件过滤 模式提取 TEIRESIAS算法 

分 类 号:TP393.098[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象