检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]太原工业学院网络与信息中心,太原030008
出 处:《计算机与数字工程》2016年第7期1290-1292,共3页Computer & Digital Engineering
摘 要:文本分类不仅可以提高分类的效率,而且可使人们更快地找到想要获取的信息。在特征选择方法的基础上,分析了卡方统计法的缺点,对其提出了一种改进的方法,同时采用支持向量机分类的算法和词频-逆向文件频率权重函数对其进行了验证。通过实验得出此方法可以在很大程度上提高文本分类精确度,使分类的效果更好。Text categorization not only can improve the efficiency of categorization,but also can make people quickly find the information they want.On the basis of the feature selection method,this paper analyzes Chi-square(CHI)statistical method shortcomings,and proposes a Chi-square statistical method.At the same time,the Support Vector Machine(SVM)classification’s algorithm and Term Frequency-Inverse Document Frequency(TF-IDF)weight function are used on the validation.The experiment shows that this method can largely improve to the text categorization accuracy,the classification effect is greatly improved,make better classification.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3