![人工智能:模式识别](https://wfqqreader-1252317822.image.myqcloud.com/cover/23/33381023/b_33381023.jpg)
2.1 主成分分析
主成分分析(Principal Component Analysis,PCA),也称主分量分析,或K-L变换(Karhunen-Loeve Transform)[1]。下面对PCA方法进行介绍。
2.1.1 基本概念
设X为一个N维随机向量,St为X的N×N协方差矩阵:
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_30_1.jpg?sign=1738884485-CJcqiVVTmM20tCHG5EbuXNjGQP6lAktE-0-5c2f3fe744fea0bea1187d1e3375fd8f)
式中,E(X)是随机向量X的数学期望。该协方差矩阵也称总体散布矩阵。容易证明St为非负定矩阵。
给定一组M个N维训练样本X1,…,XM,则St的估计为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_30_2.jpg?sign=1738884485-NpHpV0hGpIXONMeooQWNDJxyWWdd4vCC-0-3c23d3a5aa8e71b254fd687f855edef6)
式中,m0为训练样本的均值向量,即
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_30_3.jpg?sign=1738884485-izrL48qsSpQM4vdeKpkbdNpO8ctTKxGZ-0-852ee525569ecffcb8c543256da9c748)
寻求一组标准正交且使得以下准则函数达到极值的向量ϕ作为投影轴:
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_30_4.jpg?sign=1738884485-1Y99Bt8FdUehgBW0cz40NRT3ZDHJwO8n-0-111804a47183e0e5bb6659aa726db864)
其物理意义是使投影后所得特征的总体散布量最大。就每一个投影轴而言,模式样本在该轴上投影后,投影点的方差最大。
事实上,这一组最优投影轴应取为St的d个最大特征值所对应的标准正交的特征向量ϕ1,…,ϕd。令Φ=(ϕ1,…,ϕd),则PCA变换如下:
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_31_1.jpg?sign=1738884485-gkAUbgWaCBhPcOaYG3SNIAyhQyZTyipy-0-d241f619b0274dd70baa70cade0b927b)
Y作为X的特征表示,用于后续的分类或其他任务。从几何上讲,PCA变换是一个坐标变换,即Y是原始的模式向量X在一个新的、由标准正交的特征向量ϕ1,…,ϕd构成的坐标系中的坐标。
2.1.2 最小均方误差逼近
PCA变换是最小均方误差逼近意义下的最优表示。
设ϕ1,…,ϕd,…,ϕN为St的一组标准正交的特征向量,对应的特征值满足λ1≥…≥λd≥…≥λN。由式(2-4)可得
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_31_2.jpg?sign=1738884485-5ntZjLOPjPjm3cO2z68vJDOwawagLG4w-0-64a0e710b262eedab388f8ada5879c39)
易证明,是零均值随机向量X在最小均方误差逼近意义下的最优表示,换言之,它表示的均方误差
比采用其他任何正交系统的d个坐标来展开X所引起的均方误差都要小。
一般地,模式X的样本均值m0未必为0,PCA变换式(2-4)可以修改如下:
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_31_5.jpg?sign=1738884485-cpraN10JvfVFkXilzC88oPlqMqYIEy3B-0-2526081a7b536c13b87d282063d0d28d)
模式样本X可以在最小均方误差逼近意义下重构如下:
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_31_6.jpg?sign=1738884485-SttgkVp9IdHchifTMqkdTssZQ9IlcUrg-0-d2b62d647e08da7eaab77f88fb5295e5)
式中,,i=1,…,d。
2.1.3 PCA变换的统计不相关性
PCA变换后,模式样本的PCA特征分量之间是统计不相关的。
设线性变换Y=ΦTX,其中,Φ=(ϕ1,…,ϕd),ϕ1,…,ϕd为PCA的一组最优投影轴。原始特征向量X变换为Y=(y1,…,yd)T,其第i个分量为,i=1,…,d。则yi与yj之间的协方差为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_32_1.jpg?sign=1738884485-AnClBo2938brt3Eb4DgKXq9FXThyA8hA-0-815f10e0cebe547c8375397634b3729a)
故yi与yj的统计相关系数可表达为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_32_2.jpg?sign=1738884485-NiMGqvyR8OHG3dekxYaThKYBaE36Bug1-0-8f2d5f9e7171cea1680c592fa01acafb)
由于ϕ1,…,ϕd为St的标准正交的特征向量,,i≠j。故ρ(yi,yj)=0,i≠j,即PCA变换后,模式样本的特征分量之间是统计不相关的。
2.1.4 小样本情况下的主成分分析
在训练样本的总数M小于训练样本的维数N的情况下,为了提高计算效率,常常借助于奇异值分解定理间接地求解St的特征向量。具体做法介绍如下[1,2]。
定理2-1 (奇异值分解定理)设A是一个秩为r的N×M矩阵,则存在两个正交矩阵
U=[u1,…,ur]∈RN×r, UTU=I
和
V=[v1,…,vr]∈RM×r,VTV=I
以及对角矩阵
Λ=diag[λ1,λ2,…,λr]∈Rr×r,λ1≥λ2≥…≥λr>0
使得
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_32_4.jpg?sign=1738884485-OQb5iqk7GbR1O18Twyeh7JA2bJNdkezR-0-a52ff87db35cf868210393c2d8c3ece5)
上述分解称为矩阵A的奇异值分解,为A的奇异值。
由定理2-1,易得出以下结论,即推论2-1。
推论2-1λi为AAT和ATA非零特征值,ui和vi分别为AAT和ATA对应于λi的特征向量,且满足
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_32_6.jpg?sign=1738884485-j3gxMV0LydBzt8foWaRJqJGQSNmoTFpR-0-1146724932a8f4b001846a02f469cfe7)
式(2-10)写成矩阵形式为。
在主成分分析方法中,对于总体散布矩阵St,令A=[X1-m0,X2-m0,…,XM-m0],则有
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_33_2.jpg?sign=1738884485-nF4ypSObONg6mJEfoeOtaNvcbh4m7UYt-0-95a7cc8647712532f82aea64be3b2fa3)
当N>M时,可以先求出矩阵所对应的特征值和特征向量,然后利用式(2-10)算出St的特征向量,从而降低直接求解的计算复杂度。