检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:谢怡[1] 王航[1] 刘新瀚[1] 陈梓洋 孙知信[1]
机构地区:[1]南京邮电大学宽带无线通信与传感网技术教育部重点实验室,江苏南京210003
出 处:《计算机技术与发展》2015年第2期113-116,共4页Computer Technology and Development
基 金:国家自然科学基金资助项目(60973140;61170276;61373135);江苏省产学研项目(BY2013011);江苏省科技型企业创新基金项目(BC2013027);江苏省高校自然科学研究重大项目(12KJA520003)
摘 要:针对大数据环境下数据读取面临的主要挑战,文中重点研究了分布式文件系统中数据读取关键技术。根据数据存放结构的不同,从数据加载、查询处理和存储空间利用三个方面分析比较行存储、列存储和行列混合存储的优缺点和面临的挑战,重点介绍列存储中涉及到的压缩和物化技术,具体分析了存储压缩中经常运用的行程编码算法、词典编码算法、位向量编码算法和元组重构中运用的延迟物化技术。通过分析现有技术存在的问题,探讨相关的解决方案,并展望了未来研究的发展方向。Under the big data environment, data reading has faced enormous challenges. In this paper ,focus on the key technologies of data in the distributed file system. Analyze the row-storage, column-storage, hybrid-storage according to data placement structure from data loading, query processing and storage space utilization. Besides, it introduces materialization techniques used in column-storage including run-length encoding, dictionary encoding ,bit-vector encoding and lazy decompression. Meanwhile, by analysis of the present problem, discuss the relative solutions, and has a prospect of future development.
分 类 号:TP31[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15