检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]福州大学数学与计算机科学学院,福州350002
出 处:《南京师范大学学报(工程技术版)》2008年第4期95-98,149,共5页Journal of Nanjing Normal University(Engineering and Technology Edition)
基 金:教育部留学回国人员启动基金;中科院软件所开放课题基金(SYSKF0701);福州大学科技发展基金(2005-XQ-13);福建省教育厅基金(JB06023)资助项目
摘 要:TFIDF是文档特征权重表示常用方法.该方法简单易行,但忽略了特征词在各个类别中的分布情况,不能真正地反映特征词对区分每个类的贡献.针对这个不足,本文提出了BOR-TFIDF,来重新调整每个特征词对各个类别的区分度,即修正各个特征词的权重,并用分类器来验证其有效性.该方法优于原来的TFIDF算法,实验表明了改进的策略是可行的.TFIDF is a kind of common methods used to measure the terms in a document. The method is easy but ig- nores the distribution of the feature in each class. So, it can not really reflect each feature' s contribution to each class. Aiming at this shortage, we put forward the BOR-TFIDF and use it to readjust each feature' s differentiation to each class, i.e. , modifies each feature' s weight. Then the classifier is used to check its validaty. The method is better than traditional TFIDF and proves that the BOR-TFIDF method is feasible.
关 键 词:文本分类 特征权重 TFIDF 类别区分 BOR-TFIDF
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145