检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京理工大学计算机科学与工程学院,南京210094
出 处:《计算机工程》2016年第10期113-117,123,共6页Computer Engineering
摘 要:当前基于单机系统的传输控制协议(TCP)报文重组工具随着数据量的增大,运行效率越来越低,难以满足大数据时代的需求。为此,提出一种基于Hadoop的海量数据TCP报文重组系统。利用Hadoop分布式文件系统(HDFS)以及MapReduce并行处理框架,对TCP报文重组中的数据读取和结果输出步骤进行并行化处理。采用M apReduce辅助排序技术实现海量TCP数据流的分类。测试结果表明,与基于单机系统的报文重组工具相比,基于Hadoop的报文重组系统工作效率更高,并且当数据量达到100 GB时,运行效率可提升近84%。Nowadays,Transfer Control Protocol(TCP) packet reassembly technologies based on stand-alone system are getting hard to satisfy the need of processing mass data, as the larger the data amount, the lower their efficiency. Aiming at this problem,a Hadoop-based TCP packet reassembly system is proposed. It takes advantages of Hadoop Distributed File System(HDFS) and the parallel processing framework of MapReduce to parallelize data reading and result outputting in TCP packet reassembly. It also takes advantages of the secondary sort technology in MapReduce to achieve TCP traffic classification. Test result shows that the Hadoop-based packet reassembly technology works more effectively than the packet reassembly tool based on stand-alone system. The operating efficiency can be improved by 84% when the size of the data reaches 100 GB.
关 键 词:海量数据 传输控制协议 报文重组 分布式系统 并行处理 辅助排序
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.62