考虑数据分布特征的多属性数据完备化方法研究  被引量:3

Research on Multi-attribute Data Completion Method Considering Data Distribution Characteristics

在线阅读下载全文

作  者:汪勇[1] 李好 王静[1] Wang Yong;Li Hao;Wang Jing(Evergrande School of Management,Wuhan University of Science and Technology,Wuhan 430081,China)

机构地区:[1]武汉科技大学恒大管理学院,武汉430081

出  处:《统计与决策》2020年第24期15-19,共5页Statistics & Decision

摘  要:对于数据完备化方法,极大似然估计方法适合大样本数据,K近邻算法仅考虑不同数据同一属性间的线性关系,BP神经网络算法虽考虑了数据属性间的非线性联系,但样本分布对数据完备化效果影响较大。文章利用DBSCAN密度聚类方法对样本数据进行分类,分析其分布特征,剔除噪声数据选择训练样本,运用BP神经网络拟合数据属性间的非线性关系,预测数据缺失值。实例数据集分析结果显示,考虑数据分布特征的BP神经网络算法的数据完备化准确率最优。For the data completion method,the maximum likelihood estimation method is suitable for large sample data.The K-nearest neighbor algorithm only considers the linear relationship between the same attributes of different data.The BP neural network algorithm considers the nonlinear relationship between data attributes,but the sample distribution has a great influence on the data completion effect.This paper uses DBSCAN density clustering method to classify the sample data,analyzes its distribution characteristics,eliminates the noisy data and selects training samples,employs BP neural network to fit the nonlinear relationship between data attributes,and predicts the values of missing data.The results of analysis on instance data set show that the BP neural network algorithm considering the data distribution characteristics has the best data completion accuracy.

关 键 词:数据完备 密度聚类 样本分类 BP神经网络 机器学习 

分 类 号:C81[社会学—统计学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象