基于主题特征的Email分类研究  

Email classification based on topic feature

在线阅读下载全文

作  者:于琨[1] 蔡庆生[1] 

机构地区:[1]中国科学技术大学计算机科学技术系,安徽合肥230027

出  处:《中国科学技术大学学报》2006年第5期535-539,共5页JUSTC

基  金:国家自然科学基金重大项目(90104030);国家自然科学基金(70171052)资助

摘  要:针对基于词语特征的Email分类综合性能(F-score)较低的问题,提出一种基于主题特征的Email分类方法.该方法利用领域知识及统计信息,从Email的词语特征空间中提取主题特征,并利用提取出的主题特征实现Email分类.通过对1 080封Email进行分类测试,结果表明,由于主题特征能够更加准确地表达Email的主题思想,因此,与基于词语特征的分类方法相比,该方法在针对Email的全文及标题实现分类时,将平均F-score分别提高了13.16%和17.16%,从而使平均F-score提高到72.37%,基本可以满足实际应用的需求.To solve the low F-score problem of word-feature-based Email classification approach, an Email classification approach based on topic features was presented. The approach extracted domain topic feature and statistical topic feature by domain knowledge and statistical information from feature space respectively, and then performed Email classification with extracted topic features. Experimental results based on 1 080 Emails show that compared with the classification approach based on word features, this approach improved the average F-score by 13.16% in Email classification based on body and subject and 17.16% in Email classification based on subject, respectively, thus achieving as high as 72.37% average F-score in Email classification, which can meet the requirement of applications.

关 键 词:Email分类 主题特征 词语特征 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP391.43[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象