检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]大连东软信息技术学院计算机科学与技术系,辽宁大连100623 [2]大连海洋大学经济管理学院,辽宁大连100623
出 处:《计算机应用与软件》2014年第8期330-333,共4页Computer Applications and Software
摘 要:为了提高中文文本分类的效率与精度,设计一种新型的分类器。该分类器采用基于语料库的正向扫描统计分词。在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相关度三个强信息特征标准;在特征权重计算上,提出了将词频和综合特征选择函数相结合的权重计算方法;最后,结合朴素贝叶斯原理进行分类。实验证明该分类器简单有效。For improving the efficiency and accuracy of Chinese text classification,in this paper we design a new Chinese text classifier,which adopts corpus-based forward scanning for word segmentation counting. In word frequency statistics stage,it uses the method of counting by category in training stage and the method of counting by different regions of the text in testing stage. In order to better select the feature words,we propose three strong information feature standards: the frequency,the concentration and the correlation. On feature weight calculation issue,we propose a feature weight calculation method which combines the word frequency with comprehensive feature selection function.At last,in combination with naive Bayes theory to carry out the classification. It is proved that this classier is simple and effective by the test.
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.70