检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:江小平[1] 李成华[1] 向文[2] 张新访[2]
机构地区:[1]中南民族大学电子信息工程学院,武汉430074 [2]华中科技大学计算机科学与技术学院,武汉430074
出 处:《计算机应用》2011年第9期2551-2554,2566,共5页journal of Computer Applications
基 金:中央高校基本科研业务费专项资金资助项目(CZY11002);武汉市科技攻关项目(201110821229);工信部国家科技重大专项(2011ZX03002-001-01)
摘 要:采用分布式编程MapReduce模型研究了文本统一格式预处理、训练、测试以及分类等基于朴素贝叶斯文本分类算法主要计算过程的MapReduce并行化方法,并在Hadoop云计算平台进行了实验。实验结果表明:朴素贝叶斯文本分类算法MapReduce并行化后在Hadoop云计算平台上部署运行,具有较好的加速比,对中文网页文本分类识别率达到了86%。The major procedures of text classification such as uniform text format expression, training, testing and classifying based on Naive Bayesian text classification algorithm were implemented using MapReduce programming mode. The experiments were given in Hadoop cloud computing environment. The experimental results indicate basically linear speedup with an increasing number of node computers. A recall rate of 86% was achieved when classifying Chinese Web pages.
关 键 词:云计算 并行计算 MapReduce编程模型 文本分类 朴素贝叶斯算法
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程] TP393.027.2[自动化与计算机技术—控制科学与工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.143.255.90