检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]沈阳农业大学信息与电气工程学院,辽宁沈阳100866
出 处:《江苏农业科学》2018年第17期219-223,共5页Jiangsu Agricultural Sciences
基 金:辽宁省科学事业公益研究基金(编号:2016004001);辽宁省教育厅科学研究一股项目(编号:L2014272)
摘 要:对采集自网络的农业文本进行自动化分类是进一步利用的前提。拟提出1种结合朴素贝叶斯(naive Bayes,简称NB)和χ2(Chi-square,简称CHI)特征词选取的农业文本分类方法,并用Python语言实现相应的文本分类程序和特征词选择程序。通过从农业信息网站获取已经过良好分类的文档,并对其进行净化、分词等预处理,构建含有4种文本的农业语料库。针对特征词选择数量、训练样本数等对分类识别率的影响及用标题进行网页文本分类的可行性问题开展研究。结果表明,文本分类的正确率主要由CHI值较高的少量特征词条决定,但是按CHI值降序增加特征词条的数量不会对文本识别率造成负面影响;训练样本数量对文本分类的正确率具有一定影响,为了达到较高的识别率,训练样本需要达到一定的数量,然后持续增加样本量,对识别率没有明显贡献;利用网页标题对采集自网络的农业文本进行分类是可行的。通过结合朴素贝叶斯和基于CHI值的特征词选取方法能够很好地对农业文本进行分类,识别率较高。
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.148.235.247