检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中原工学院,郑州450007
出 处:《中原工学院学报》2009年第6期4-6,16,共4页Journal of Zhongyuan University of Technology
基 金:国家自然科学基金项目(60472022)
摘 要:提出了一种基于统计的扩展敏感词库的方法.利用人工搜集的敏感词汇,计算垃圾邮件中其他词汇的权重,选取权重高的作为二级敏感词汇并将其分类;在过滤邮件时,将二级敏感词作为一级敏感词的补充.本方法不仅适用于中文,对英文文本同样适用,实验表明,本方法能提高垃圾邮件过滤的精度.This article proposes a new method of expanding the sensitive terms based on statistics. By the use of sensitive terms which are collected manully, the weight of other terms in spam will be calculated. The higher weighted terms will be selected as secondary sensitive terms and be classfied. As a supplementary, the secondary sensitive terms will help to filter the spam. This method is not only suitable for Chinese, but also for English text. The experiment indicated that this method can improve the recalling rate and the precision of spam filtration.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.116.87.126