基于哈夫曼树的雷电数据采样算法  被引量:5

Lightning Data Sampling Algorithm Based on Huffman Tree

在线阅读下载全文

作  者:彭永供[1] 邱桃荣[1] 林于渊[1] 黄海泉[1] 

机构地区:[1]南昌大学信息工程学院,南昌330031

出  处:《计算机工程》2013年第5期174-177,182,共5页Computer Engineering

基  金:国家自然科学基金资助项目(61070139);江西省自然科学基金资助项目(20114BAB201039);江西省科技支撑计划基金资助项目(20112BBG70087);江西省教育厅科技计划基金资助项目(GJJ11286)

摘  要:对具有非平衡特征的海量雷电气象数据集,采用基于欧式距离的样本欠采样算法时效率较低。为解决该问题,提出一种基于哈夫曼树的雷电数据采样算法。使用哈夫曼树构建方法估算雷电样本的簇中心及簇内样本个数,利用得到的结果并结合欧式距离的样本欠采样算法进行非雷电样本采样。对27 552条真实数据做采样实验,结果表明,该算法的采样时间约为16 min,不仅能降低数据量,而且能提高算法的时间性能。In order to solve the problem of bad performance of a sampling algorithm based on Euclidean distance in a large meteorological dataset with an imbalanced characteristics, this paper proposes a lightning data sampling algorithm based on the Huffman tree. An approach to quickly calculate the number of cluster centers and the number of the samples of each cluster is designed by using the technique for building Huffman tree. According to two values attained, this algorithm can be used to generate non-lightning samples from the large meteorological dataset. Sampling testing on the given set with 27 552 records, results show that this algorithm sampling time is about 16 minutes, not only can reduce the amount of data, and can improve the time performance of this algorithm.

关 键 词:雷电预报 非平衡数据 欠采样算法 哈夫曼树 支持向量机 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象