云计算环境下朴素贝叶斯文本分类算法的实现  被引量:21

Nave Bayesian text classification algorithm in cloud computing environment

在线阅读下载全文

作  者:江小平[1] 李成华[1] 向文[2] 张新访[2] 

机构地区:[1]中南民族大学电子信息工程学院,武汉430074 [2]华中科技大学计算机科学与技术学院,武汉430074

出  处:《计算机应用》2011年第9期2551-2554,2566,共5页journal of Computer Applications

基  金:中央高校基本科研业务费专项资金资助项目(CZY11002);武汉市科技攻关项目(201110821229);工信部国家科技重大专项(2011ZX03002-001-01)

摘  要:采用分布式编程MapReduce模型研究了文本统一格式预处理、训练、测试以及分类等基于朴素贝叶斯文本分类算法主要计算过程的MapReduce并行化方法,并在Hadoop云计算平台进行了实验。实验结果表明:朴素贝叶斯文本分类算法MapReduce并行化后在Hadoop云计算平台上部署运行,具有较好的加速比,对中文网页文本分类识别率达到了86%。The major procedures of text classification such as uniform text format expression, training, testing and classifying based on Naive Bayesian text classification algorithm were implemented using MapReduce programming mode. The experiments were given in Hadoop cloud computing environment. The experimental results indicate basically linear speedup with an increasing number of node computers. A recall rate of 86% was achieved when classifying Chinese Web pages.

关 键 词:云计算 并行计算 MapReduce编程模型 文本分类 朴素贝叶斯算法 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程] TP393.027.2[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象