基于NB和CHI值的农业文本分类方法  被引量:4

Agricultural text classification method based on NB and CHI values

在线阅读下载全文

作  者:周云成[1] 许童羽[1] 邓寒冰[1] 

机构地区:[1]沈阳农业大学信息与电气工程学院,辽宁沈阳100866

出  处:《江苏农业科学》2018年第17期219-223,共5页Jiangsu Agricultural Sciences

基  金:辽宁省科学事业公益研究基金(编号:2016004001);辽宁省教育厅科学研究一股项目(编号:L2014272)

摘  要:对采集自网络的农业文本进行自动化分类是进一步利用的前提。拟提出1种结合朴素贝叶斯(naive Bayes,简称NB)和χ2(Chi-square,简称CHI)特征词选取的农业文本分类方法,并用Python语言实现相应的文本分类程序和特征词选择程序。通过从农业信息网站获取已经过良好分类的文档,并对其进行净化、分词等预处理,构建含有4种文本的农业语料库。针对特征词选择数量、训练样本数等对分类识别率的影响及用标题进行网页文本分类的可行性问题开展研究。结果表明,文本分类的正确率主要由CHI值较高的少量特征词条决定,但是按CHI值降序增加特征词条的数量不会对文本识别率造成负面影响;训练样本数量对文本分类的正确率具有一定影响,为了达到较高的识别率,训练样本需要达到一定的数量,然后持续增加样本量,对识别率没有明显贡献;利用网页标题对采集自网络的农业文本进行分类是可行的。通过结合朴素贝叶斯和基于CHI值的特征词选取方法能够很好地对农业文本进行分类,识别率较高。

关 键 词:文本分类 农业文本 朴素贝叶斯 CHI值 特征词选取 标题 网页文本分类 

分 类 号:TP311.1[自动化与计算机技术—计算机软件与理论] S126[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象