基于大数据分析的文本智能识别系统的研究  

在线阅读下载全文

作  者:杨明芬 吴旭[2] 阚瑷珂[2] 常康[1] 

机构地区:[1]西藏自治区科技信息研究所,西藏拉萨850008 [2]成都理工大学,四川成都610059

出  处:《西藏科技》2018年第9期74-80,共7页Xizang Science And Technology

摘  要:根据软件工程的基本原理在Ubuntu操作系统环境下使用Eclipse开发工具,设计并实现了基于Hadoop系统架构的NaiveBayes算法文本分类系统。系统将大量中文文本数据集存储在分布式文件系统HDFS上,通过MapReduce并行计算模型和Ansj中文分词库对中文数据集进行分词,采用TF-IDF算法进行文本特征抽取,最后基于Spark并行计算框架和NaiveBayes算法对特征数据集进行模型训练,得到文本分类模型,将文本分类服务集成到Web页面。系统基本实现了文本的正确分类。

关 键 词:大数据 HADOOP SPARK NaiveBayes MAPREDUCE 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象