中文垃圾邮件过滤系统中的实时分词算法设计被引量：1

Algorithm of Chinese word segmentation in anti-spam system

出　　处：《计算机工程与应用》2007年第3期179-181,184,共4页Computer Engineering and Applications

基　　金：天津市信息化项目(042023012)。

摘　　要：在基于内容的中文反垃圾邮件技术中,中文分词是必不可少的一个环节。面对大规模的邮件训练样本和大负载的邮件服务器,中文分词算法的时间效率成为中文垃圾邮件过滤技术中的一个瓶颈。对此,提出一种应用在中文垃圾邮件过滤系统中的实时分词算法。该算法采用一种TRIE树型结构作为词典载体并基于最大匹配的原则,同时,在实时分类阶段结合hash表进行特征查询,极大地提高了系统的时间效率。Chinese word segmentation is an absolutely necessary step in the Chinese anti-spare technologies based on mail content.The efficiency of word segmentation algorithm is becoming a bottleneck when it is used in the training of abundant mail samples or on the high load mail server.A real time algorithm is proposed here,which uses a TRIE structure as the carrier of dictionary.Based on the Maximum Matching （MM） principle and combined with the hash table of word attributes,this algorithm improves the efficiency of the anti-spare system observably.

关键词：中文分词垃圾邮件 TRIE树

分类号：TP393[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

中文垃圾邮件过滤系统中的实时分词算法设计被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

中文垃圾邮件过滤系统中的实时分词算法设计 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

中文垃圾邮件过滤系统中的实时分词算法设计被引量：1