检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中南大学信息科学与工程学院,长沙410083
出 处:《计算机工程与应用》2007年第29期176-178,共3页Computer Engineering and Applications
摘 要:提出一个基于符号序列间LZ复杂性相似度的垃圾邮件识别方法。相比基于向量空间模型的邮件识别,邮件文本间的LZ复杂性相似度计算无需对文本进行预处理和特征提取。同时,K近邻规则的延迟学习特性适合于垃圾邮件样本需要动态调整的应用环境。在Ling-Spam邮件语料集上对提出的识别方法进行十重交叉验证,其总体的识别效果优于基于向量空间模型的部分统计和机器学习方法。A spam detection method is proposed based on the LZ complexity similarity of symbolic sequences and K nearest neighbor rule.Compared to approaches based on vector space model,the calculation of the LZ complexity similarity between email documents requires neither'text preprocessing nor feature extraction.The lazy learning characteristic of K nearest neighbor rule facilitates the application environment that the spam sample set needs to be adjusted dynamically.The proposed method has been tested on the Ling-Spam dataset using a 10-Fold cross validation.The total detection effect is better than the results of some contrast methods based on vector space model.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249