用于Email分类的综合特征表示方法  

Hybrid Feature Definition Method for Email Classification

在线阅读下载全文

作  者:于琨[1] 耿焕同[1] 寇苏玲[1] 张婷慧[1] 蔡庆生[1] 

机构地区:[1]中国科学技术大学计算机科学技术系,安徽合肥230027

出  处:《小型微型计算机系统》2006年第5期930-932,共3页Journal of Chinese Computer Systems

基  金:国家自然科学基金重大基金项目(90104030)资助;国家自然科学基金项目(70171052)资助

摘  要:基于词频的特征表示方法难以准确表示Email的主要内容,从而导致分类的综合性能(F-score)较差.为了解决这个问题,将领域知识引入了Email的特征表示,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类.本方法在词频特征的基础上加入人工总结出的领域特征,从而更加准确地表示Email的主要内容,以提高Email分类的平均F-score.基于1080篇Email的分类测试结果表明,与基于词频的特征表示方法和基于领域知识的特征表示方法相比,本方法在针对Email标题实现的Email分类中将平均F-score分别提高了12.28%和23.08%,从而达到69.33%的分类平均F-score.The feature definition method based on word frequency cannot represent the topic of an email precisely, and then results in low F-score in email classification. To settle this problem, this paper presents a hybrid feature definition method for Email classification. It adds knowledge-based features in bag-of-word features to improve F-score in email classification. Experimental results show that based on this method, the average F-score of Email classification with Email subject is increased by 12.28% and 23.08% compared with word frequency based feature definition method and knowledge-based feature definition method, respectively, and then achieves 139.33% consequently.

关 键 词:特征表示 EMAIL 分类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象