【机器学习】PCA可以用来降维的原理是什么?

PCA(主成分分析)是一个用于降低维度的算法。它的原理和过程主要包括:
i、留下方差最大的特征
PCA通过找到数据分布方差最大的信号,也就是主成分,来进行特征提取。

ii、协方差矩阵
首先计算数据的协方差矩阵,它反应了特征之间的相关性。

iii、计算特征值和特征向量
协方差矩阵对应的所有特征值表示各主成分的方差大小。
对应的特征向量表明各维度上分量的权重。

iv、选择k个主成分
选择方差最大的前k个主成分。
这k个主成分承载的数据方差最大。

v、保留主成分
通过投影,将原始高维空间映射到k维的主成分空间。
只保留k个主成分,丢弃其他次要成分。

vi、信息丢失
PCA降维存在一定的信息损失。
但方差最大,信息损失最小。

总的来说,PCA通过:

  1. 选择方差最大的特征
  2. 计算数据的协方差矩阵
  3. 计算特征值和特征向量
  4. 选择k个方差最大的主成分
  5. 投影到k维主成分空间
  6. 存在一定的信息损失

从而实现数据的降维。

其核心在于:

  1. 选择方差最大的主成分
  2. 删除其他次要成分
  3. 投影到主成分空间