基于集成学习的输变电设备数据质量检测方法  被引量:5

Power grid data quality analysis based on ensemble learning

在线阅读下载全文

作  者:高尚[1] 唐元合[1] 翟明玉[1] 许寒阳 Gao Shang;Tang Yuanhe;Zhai Mingyu;Xu Hanyang(Nari Technology Co.,Ltd.,Nanjing 211106,China)

机构地区:[1]国电南瑞科技股份有限公司南瑞研究院,南京211106

出  处:《电子测量技术》2020年第2期108-112,共5页Electronic Measurement Technology

基  金:国家电网公司科技项目;国电南瑞科技股份有限公司科技项目资助。

摘  要:在数据分析的应用中,数据质量是一切分析研究的基础,针对电网运行过程中输变电设备基础数据质量不高的问题,首先介绍了电力系统不良数据的产生原因与主要表现形式,并设计了一种通过历史数据训练优化生成的随机森林(一种集成学习算法)模型,可以实现对可疑数据的检测与筛查。通过对不平衡训练样本的处理,在测试算例结果对比中,均衡样本后的随机森林模型比未均衡样本的随机森林在负样本的预测准确率高10%,相比单个决策树模型在正样本的预测准确率也高出9%,这表明了集成学习在计算效率与准确率方面相对其他机器学习分类算法的优势,以及均衡训练样本对模型准确率的提升有明显效果。Data quality is the cornerstone of any data analysis application. In power grid data analysis, the better raw data obtained from electric transmission and transformation equipment, the easier the data mining job can be done to facilitate smart grid development. Sources and forms of power grid fault record are introduced;optimized random forest(ensemble learning) is used to train the model for suspicious data detection. It focuses on the impact of imbalanced train data and methods to reduce the issue;it also demonstrates through example that ensemble learning boosts the model accuracy than single machine learning models.

关 键 词:集成学习 随机森林 不平衡分类 输变电数据质量 

分 类 号:TN0[电子电信—物理电子学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象