中文垃圾邮件过滤系统中的实时分词算法设计  被引量:1

Algorithm of Chinese word segmentation in anti-spam system

在线阅读下载全文

作  者:申庆永[1] 张建忠[1] 何云[1] 杨洁[1] 

机构地区:[1]南开大学计算机科学与技术系,天津300071

出  处:《计算机工程与应用》2007年第3期179-181,184,共4页Computer Engineering and Applications

基  金:天津市信息化项目(042023012)。

摘  要:在基于内容的中文反垃圾邮件技术中,中文分词是必不可少的一个环节。面对大规模的邮件训练样本和大负载的邮件服务器,中文分词算法的时间效率成为中文垃圾邮件过滤技术中的一个瓶颈。对此,提出一种应用在中文垃圾邮件过滤系统中的实时分词算法。该算法采用一种TRIE树型结构作为词典载体并基于最大匹配的原则,同时,在实时分类阶段结合hash表进行特征查询,极大地提高了系统的时间效率。Chinese word segmentation is an absolutely necessary step in the Chinese anti-spare technologies based on mail content.The efficiency of word segmentation algorithm is becoming a bottleneck when it is used in the training of abundant mail samples or on the high load mail server.A real time algorithm is proposed here,which uses a TRIE structure as the carrier of dictionary.Based on the Maximum Matching (MM) principle and combined with the hash table of word attributes,this algorithm improves the efficiency of the anti-spare system observably.

关 键 词:中文分词 垃圾邮件 TRIE树 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象