一种用于高维大数据的协方差无关的主成分分析迭代算法(英文)  被引量:1

A Covariance-Free Iterative Principal Component Analysis for High Dimensional and Large Scale Data

在线阅读下载全文

作  者:李晨[1] 郭跃飞[2] 

机构地区:[1]宁波工程学院电子与信息工程学院,宁波315016 [2]复旦大学计算机科学技术学院,上海201203

出  处:《复旦学报(自然科学版)》2013年第2期207-214,共8页Journal of Fudan University:Natural Science

摘  要:主成分分析是一种大家熟知的用于维数压缩的方法.主方向是协方差矩阵的最大特征值对应的特征向量.协方差矩阵的阶数等于数据的维数.当样本维数很高时,可以用阶数等于样本数的替换矩阵来计算主方向.然而,当样本的维数与样本数都非常大(即高维大数据)的情况下,主方向的计算就变得非常困难.提出了一个协方差无关的迭代主成分分析(CIPCA)算法,用于计算高维大数据情形下的主方向.证明了该算法以指数速度单调收敛到主方向的精确值.并在高维大数据集(图像数据集)上对CIPCA算法的性能进行了验证,实验结果显示使用CIPCA算法主方向的收敛速度非常快.Principal component analysis is a well-established technique for dimension reduction. The Principal vectors are the eigenvectors of the covariance matrix corresponding to the maximum eigenvalues. The order of the covariance matrix equals to the dimension of the data. The principal vectors are calculated using a substitution matrix, whose dimension equals to the number of samples, when the dimension of the sample is very high. However, the principal vector is hard to calculate when both the dimension and the number of the samples(called high dimension and large scale) are very large. A covariance-free iterative principal component analysis(CIPCA) algorithm is presented for high dimensional and large scale data. It is proved that the presented algorithm monotonously converges to the exact principal vector at the exponential rate. The performance of CIPCA on the high dimension and large scale data, i. e. image data set, is demonstrated. The experiment result shows that the CIPCA converges very fast.

关 键 词:主成分分析 协方差无关 高维 大数据 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象