PCA(主成分分析)是一个用于降低维度的算法。它的原理和过程主要包括:
i、留下方差最大的特征
PCA通过找到数据分布方差最大的信号,也就是主成分,来进行特征提取。
ii、协方差矩阵
首先计算数据的协方差矩阵,它反应了特征之间的相关性。
iii、计算特征值和特征向量
协方差矩阵对应的所有特征值表示各主成分的方差大小。
对应的特征向量表明各维度上分量的权重。
iv、选择k个主成分
选择方差最大的前k个主成分。
这k个主成分承载的数据方差最大。
v、保留主成分
通过投影,将原始高维空间映射到k维的主成分空间。
只保留k个主成分,丢弃其他次要成分。
vi、信息丢失
PCA降维存在一定的信息损失。
但方差最大,信息损失最小。
总的来说,PCA通过:
- 选择方差最大的特征
- 计算数据的协方差矩阵
- 计算特征值和特征向量
- 选择k个方差最大的主成分
- 投影到k维主成分空间
- 存在一定的信息损失
从而实现数据的降维。
其核心在于:
- 选择方差最大的主成分
- 删除其他次要成分
- 投影到主成分空间