基于邮件过滤的中文邮件语料库构建  被引量:3

CONSTRUCTION AND APPLICATION OF CHINESE E-MAIL CORPUS BASED ON E-MAIL FILTERING

在线阅读下载全文

作  者:李军辉[1] 朱巧明[1] 李培峰[1] 

机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006

出  处:《计算机应用与软件》2007年第8期56-58,121,共4页Computer Applications and Software

基  金:江苏省高技术研究项目(BG2005020);江苏省教育厅自然基金(04KKB320134)资助。

摘  要:首先分析了现阶段邮件过滤的主要技术和邮件语料库建设的现状,并提出了建设中文邮件语料库的相关问题,建议在邮件建设过程中保留邮件信头信息、不排斥邮件副本。然后给出了邮件语料库系统的实现框架,分为邮件源代码的解析与预处理、邮件的初次标注、词分类和邮件的二次标注四个步骤,并通过提供一个管理工具来管理邮件语料。最后,介绍了目前已经建设的一个邮件语料库的情况。The techniques in e-mail filtering and the status of the e-mail corpus are analyzed, and also some relating problems in constructing chinese e-mail corpus are proposed. It is argued that information in message header should be saved and it is unnecessary to exclude email duplications. The structure of the chinese e-mail corpus system is introduced. This system involves four steps including parsing and predisposing of the mail source, first mail annotation ,word categorization and second mail annotation, and also a management tool is provided to manage mail corpus. Finally the mail corpus constructed is described.

关 键 词:邮件过滤 中文邮件语料库 标注 XML 

分 类 号:TP393.098[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象