检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杨莉[1,2] 万常选[1,2] 雷刚[1,2] 俞涛[1,2] 孔保新[1,2]
机构地区:[1]江西财经大学信息管理学院,江西南昌330013 [2]江西财经大学数据与知识工程江西省高校重点实验室,江西南昌330013
出 处:《计算机与现代化》2012年第10期8-13,共6页Computer and Modernization
基 金:国家自然科学基金资助项目(61173146);国家社会科学基金资助项目(12CTQ042);江西省自然科学基金资助项目(2010GZS0067);江西省教育厅科技重点项目(GJJ09650)
摘 要:在文本分类时,只有少数学者利用特征词权重对文本进行向量表示,但是所使用的特征选择算法没有考虑特征词权重的正负及其范围等。因此,本文在CHI统计基础上提出一种计算特征词类相关性的新方法,并根据各类特征集中包含的特征词的数量,选用不同的文本类相关性计算方法;在判定文本类别过程中,只使用文本包含的特征词的个数及其类相关性,对含特征词少的文本也能很好判别。实验表明,该方法有效可行。In text classification,only a few scholars used the weight of feature words to express text,but the method of feature selection they used didn't consider the symbol and boundary of the weight of feature words.So,on the basis of CHI statistics,this paper proposes a new way to calculate correlation-score between feature words and classification;and selects different means to get the relevance between text and classification,according to the count of feature words in each feature set.At last,in order to determine the text category,this paper just applies the number of feature words and their relevance to category,and can well judge the text contained few feature words.Experiment shows that it is an effective and feasible method to classify text.
关 键 词:文本分类 特征选择 特征词类相关性 文本类相关性
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249