基于Hadoop微博热点话题挖掘系统的设计与实现  

在线阅读下载全文

作  者:杨浩[1,2] 曾兴斌[1,2] 何加铭[1,2] 

机构地区:[1]宁波大学通信技术研究所,浙江宁波315211 [2]浙江省移动网应用技术重点实验室,浙江宁波315211

出  处:《数据通信》2016年第2期10-12,54,共4页

摘  要:为获得微博中的热点话题,本文设计并实现了一个基于Hadoop微博热点话题挖掘系统,包含数据采集、数据预处理、数据存储、热点话题挖掘四个子系统。面对庞大数据量,采用HDFS分布式存储;在TF-IDF算法的基础上做出了改进,本文提出影响度的概念;针对单节点数据处理的性能瓶颈,对改进后的TF-IDF算法和经典关联规则挖掘算法Apriori进行了Map R educe化设计。实验结果表明,该系统能高效率地采集微博数据,同时能够提取微博热点话题。并且当数据量变大,该系统较单节点有明显时间优势。

关 键 词:HADOOP 微博 热点话题挖掘 MAP REDUCE TF-IDF APRIORI 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术] TP391.1[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象