检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学技术大学计算机科学技术系,安徽合肥230027
出 处:《中国科学技术大学学报》2006年第5期535-539,共5页JUSTC
基 金:国家自然科学基金重大项目(90104030);国家自然科学基金(70171052)资助
摘 要:针对基于词语特征的Email分类综合性能(F-score)较低的问题,提出一种基于主题特征的Email分类方法.该方法利用领域知识及统计信息,从Email的词语特征空间中提取主题特征,并利用提取出的主题特征实现Email分类.通过对1 080封Email进行分类测试,结果表明,由于主题特征能够更加准确地表达Email的主题思想,因此,与基于词语特征的分类方法相比,该方法在针对Email的全文及标题实现分类时,将平均F-score分别提高了13.16%和17.16%,从而使平均F-score提高到72.37%,基本可以满足实际应用的需求.To solve the low F-score problem of word-feature-based Email classification approach, an Email classification approach based on topic features was presented. The approach extracted domain topic feature and statistical topic feature by domain knowledge and statistical information from feature space respectively, and then performed Email classification with extracted topic features. Experimental results based on 1 080 Emails show that compared with the classification approach based on word features, this approach improved the average F-score by 13.16% in Email classification based on body and subject and 17.16% in Email classification based on subject, respectively, thus achieving as high as 72.37% average F-score in Email classification, which can meet the requirement of applications.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP391.43[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.185