检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]东北林业大学信息与计算机工程学院,黑龙江哈尔滨150040
出 处:《中南林业科技大学学报》2014年第8期114-119,共6页Journal of Central South University of Forestry & Technology
基 金:国家948项目(2011-4-04);中央高校基本科研业务费专项资金项目(DL12CB02);黑龙江省教育厅科学技术研究项目(12513016);黑龙江省博士后基金;黑龙江省自然科学基金项目(F201347);哈尔滨市科技创新人才专项资金项目(2013RFQXJ100)
摘 要:为解决传统林业信息文本分类算法准确率低和正确率分布不均匀的问题,提出了一种基于高斯混合模型的林业信息文本分类算法。在阐述高斯混合模型和EM算法的基础上,使用TF-IDF方法计算林业信息文本特征值,对构造的林业信息文本特征矩阵降维,结合Kmeans算法,通过训练得到各类林业信息文本所对应的高斯混合模型的参数,构造分类器进行精准与快速分类。实验结果表明,该算法与神经网络分类方法、贝叶斯、决策树等常用分类算法相比,该算法有较高的准确率和实用性,为林业信息文本的分类研究开拓了新思路。In order to solve the problems of low categorization accuracy and uneven distribution of the traditional forestry information text classification algorithm,a forestry information text classification algorithm based on Gaussian mixture model(GMM) was puts forward. On the basis of Gaussian mixture model(GMM) and the principle of parametric estimation algorithm,the formula of TFIDF was used to compute text eigenvalue,the constructed feature matrix of forestry information text was reduced in the dimension of eigenmatrix. The Kmeans algorithm should be used,then get the parameters of Gaussian mixture model(GMM) through training of forestry information text,lastly a classifier of Gaussian mixture model(GMM) was established to achieve the goal of faster and accurate classification of forestry information text. The experimental results show that the algorithm has higher accuracy and practicality than the algorithm of neural network and Bayesian and decision tree,and the algorithm pioneer new ideas for studying the forestry information text classification algorithm.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222