检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:彭永供[1] 邱桃荣[1] 林于渊[1] 黄海泉[1]
出 处:《计算机工程》2013年第5期174-177,182,共5页Computer Engineering
基 金:国家自然科学基金资助项目(61070139);江西省自然科学基金资助项目(20114BAB201039);江西省科技支撑计划基金资助项目(20112BBG70087);江西省教育厅科技计划基金资助项目(GJJ11286)
摘 要:对具有非平衡特征的海量雷电气象数据集,采用基于欧式距离的样本欠采样算法时效率较低。为解决该问题,提出一种基于哈夫曼树的雷电数据采样算法。使用哈夫曼树构建方法估算雷电样本的簇中心及簇内样本个数,利用得到的结果并结合欧式距离的样本欠采样算法进行非雷电样本采样。对27 552条真实数据做采样实验,结果表明,该算法的采样时间约为16 min,不仅能降低数据量,而且能提高算法的时间性能。In order to solve the problem of bad performance of a sampling algorithm based on Euclidean distance in a large meteorological dataset with an imbalanced characteristics, this paper proposes a lightning data sampling algorithm based on the Huffman tree. An approach to quickly calculate the number of cluster centers and the number of the samples of each cluster is designed by using the technique for building Huffman tree. According to two values attained, this algorithm can be used to generate non-lightning samples from the large meteorological dataset. Sampling testing on the given set with 27 552 records, results show that this algorithm sampling time is about 16 minutes, not only can reduce the amount of data, and can improve the time performance of this algorithm.
关 键 词:雷电预报 非平衡数据 欠采样算法 哈夫曼树 支持向量机
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.15.145.122