《第3章 主成分分析.ppt.ppt》由会员分享,可在线阅读,更多相关《第3章 主成分分析.ppt.ppt(46页珍藏版)》请在第壹文秘上搜索。
1、1第三节第三节 主成分分析主成分分析什么是主成分分析什么是主成分分析主成分分析(主成分分析(Principal Components AnalysisPrincipal Components Analysis)也称主分量分析也称主分量分析 是将多个指标,化为少数几个不相关的是将多个指标,化为少数几个不相关的 综合指标的一种统计方法。综合指标的一种统计方法。在综合评价工业企业的经济效益中,考核指标有:在综合评价工业企业的经济效益中,考核指标有:1 1每百元固定资产原值实现产值、每百元固定资产原值实现产值、2 2每百元固定资产原值实现利税、每百元固定资产原值实现利税、3 3每百元资金实现利税、每百
2、元资金实现利税、4 4每百元工业总产值实现利税、每百元工业总产值实现利税、5 5每百元销售收入实现利税、每百元销售收入实现利税、6 6每吨标准煤实现工业产值、每吨标准煤实现工业产值、7 7每千瓦电力实现工业产值、每千瓦电力实现工业产值、8 8全员劳动生产率、全员劳动生产率、9 9每百元流动资金实现的产值每百元流动资金实现的产值指标间信息有重叠,指标数量又多。指标间信息有重叠,指标数量又多。经过主成分分析计算,最后确定选择了经过主成分分析计算,最后确定选择了2 2个主成分作为综合个主成分作为综合评价工业企业经济效益的依据,变量数由评价工业企业经济效益的依据,变量数由9 9个减少到个减少到2 2个
3、,这两个,这两个主成分代表的信息达个主成分代表的信息达91.6%91.6%,使所研究的问题简化。,使所研究的问题简化。主成分分析的几何意义主成分分析的几何意义:为了直观,先在二维空间中讨论主成分的几何意义。为了直观,先在二维空间中讨论主成分的几何意义。一般情况下,例如有一般情况下,例如有n n个样品,每个样品有两个变量个样品,每个样品有两个变量值值X X1 1和和X X2 2,这,这n n个样品的散点图如带状个样品的散点图如带状.由图可见这由图可见这n n个样品点无论是沿着个样品点无论是沿着X X1 1轴方向或轴方向或X X2 2轴方向都具有较轴方向都具有较大的离散性,其离散的程度可以分别用观
4、测变量大的离散性,其离散的程度可以分别用观测变量X X1 1的方差和的方差和X X2 2的方差定量地表示。的方差定量地表示。2x1x1F2F2x1x1F2F主成分分析的几何解释2x1x1F2F 主成分分析的几何解释2x1x1F2F主成分分析的几何解释 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆(球)的长短轴相差得越
5、大,降维效果就越好。对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可
6、,具体选几个,要看实际情况而定。第二节第二节 主成分的求解主成分的求解 假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p p个指标,个指标,我们把这我们把这p p个指标看作个指标看作p p个随机变量,记为个随机变量,记为 X X1 1,X X2 2,X Xp p 主成分分析就是要把这主成分分析就是要把这p p个指标的问题,转个指标的问题,转变为讨论变为讨论p p个指标的线性组合的问题个指标的线性组合的问题 ppppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111主成分分析通常的做法是,寻求原指标的线性组合主成分分析通常的做法是,寻求原
7、指标的线性组合Yi。并且满足:并且满足:1 (i=1,2,1 (i=1,2,P)P)*2 2 不相关性,不相关性,Y Yi i与与Y Yj j不相关。不相关。3 3 方差极大条件,方差极大条件,)()(21pYVarYVarYVar)(),(21ipiiiaaaa122221ipiiaaappppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111主成分的求解:主成分的求解:ppppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111ipiiaaa,21求系数求系数 ,而其正是观测变量相关矩阵的单位,而其正是观
8、测变量相关矩阵的单位特征向量。因此,通过求解特征向量。因此,通过求解 的特征方程,得到的特征方程,得到P P个特个特征根和征根和P P个单位特征向量,把个单位特征向量,把P P个特征根按从大到小的顺个特征根按从大到小的顺序排列,记作序排列,记作i i(i=1,2,(i=1,2,p),p),它们分别代表,它们分别代表P P个主个主成分所解释的观测变量的方差,即成分所解释的观测变量的方差,即Var(YVar(Yi i)=)=i i(i=1,2,(i=1,2,p),p)。相应的。相应的P P个单位特征向量就是主成分的个单位特征向量就是主成分的系数系数 (i=1,2,i=1,2,p,p)。)。ipii
9、aaa,21X在实际问题中,利用主成分的目的是为了减少变在实际问题中,利用主成分的目的是为了减少变量的个数,所以一般不用量的个数,所以一般不用P P个主成分,而是根据如个主成分,而是根据如下方法选取前下方法选取前K K个主成分。个主成分。定义定义 为第为第i i主成分主成分Y Yi i的方差贡献率。的方差贡献率。这个值越大,说明这个主成分这个值越大,说明这个主成分Y Yi i综合原指标信息的综合原指标信息的能力越强。能力越强。piiii1主成分的方差贡献率主成分的方差贡献率定义定义 (KPKP)为主成分为主成分Y Yl l,Y,Y2 2,Y,Yk k的累积方差贡献率。的累积方差贡献率。当前当前
10、K K个主成分的累积方差贡献率达到个主成分的累积方差贡献率达到85%85%以以上时,就取上时,就取K K个主成分。这样个主成分。这样K K个主成分基本反映个主成分基本反映了原指标的信息,指标数目由了原指标的信息,指标数目由P P个减少到个减少到K K个。个。pkpiikii1111这种由讨论多个指标降为少数几个综合指标的过这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。程在数学上就叫做降维。主成分得分主成分得分:当选取了当选取了n n个主成分后,把样本数据代入各主个主成分后,把样本数据代入各主成分表达式可得样本的主成分得分。成分表达式可得样本的主成分得分。若主成分是由原始数据协
11、方差阵计算的,则若主成分是由原始数据协方差阵计算的,则计算主成分得分时,用原始数据。计算主成分得分时,用原始数据。若主成分是由标准化数据计算,即由若主成分是由标准化数据计算,即由R R计算,计算,则计算主成分得分时,一定要用标准化数据,则计算主成分得分时,一定要用标准化数据,否则会出现错误。否则会出现错误。量纲相同,用协方差阵求解主成分的步骤量纲相同,用协方差阵求解主成分的步骤1.求样本均值 和样本协方差矩阵S;),(21xxX 2.求S的特征根求解特征方程 ,其中I是单位矩阵,解得2个特征根 0 IS2121,3.求特征根所对应的单位特征向量4.写出主成分的表达式11()()nijkiikj
12、jksxxxxn例1 下面是8 个学生两门课程的成绩表 65 85 70 90 65 45 55 65数学100 90 70 70 85 55 55 45语文1x2x对此进行主成分分析。1.求样本均值和样本协方差矩阵求样本均值和样本协方差矩阵5.6725.7121xxX5.1871.1034.323SIS2.求解特征方程 0 05.1871.1031.1034.32301.103)5.187)(4.323(2化简得:09.500079.5102 解得:132,9.37821 5.1871.1034.323S3.求特征值所对应的单位特征向量 1所对应的单位特征向量,0)(11S其中21111aa
13、0)9.3785.187(1.10301.103)9.3784.323(21112111aaaa1221211aa解得(2111,aa)=)47.0,88.0(2所对应的单位特征向量 0)(22S ,其中221220)1325.187(1.10301.103)1324.323(22122212aaaa1222212aa解得:)88.0,47.0(),(2212aa5.1871.1034.323S4.得到主成分的表达式)5.67(47.0)25.71(88.0211xxF第二主成分:)5.67(88.0)25.71(47.0212xxF第一主成分:5.主成分的含义通过分析主成分的表达式中原变量前
14、的系数来解释各主成分的含义。第一主成分F1是 和 的加权和,表示该生成绩的好坏。1x2x第二主成分F2表示学生两科成绩的均衡性 6.比较主成分重要性比较主成分重要性 第一主成分F1的方差为9.3781第二主成分F2的方差为1322方差贡献率)()()(211211FVarFVarFVar%16.741329.3789.378%84.251329.378132212方差贡献率为 主成分F1和F2的方差总和为219.5101329.378原变量和1x2x的方差总和为9.5105.1874.3232211ss总方差保持不变总方差保持不变身高身高x1(cm)胸围胸围x2(cm)体重体重x3(kg)14
15、9.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例2下表是10位学生的身高1x、胸围2x、体重3x的数据。对此进行主成分分析。1.求样本均值和样本协方差矩阵2.513.772.161321xxx53.5558.3200.3011.2112.1767.46S 2.求解协方差矩阵的特征方程0 IS053.5558.3200.3058.3211.2112.1700.3012.1767.463.解
16、得三个特征值15.98160.23256.13)71.0,42.0,56.0(),(312111aaa)48.0,33.0,81.0(),(322212aaa)53.0,85.0,03.0(),(332313aaa和对应的单位特征向量:4.由此我们可以写出三个主成分的表达式:)2.51(71.0)3.77(42.0)2.161(56.03211xxxF)2.51(48.0)3.77(33.0)2.161(81.03212xxxF)2.51(53.0)3.77(85.0)2.161(03.03213xxxF5.主成分的含义F1表示学生身材大小。F2反映学生的体形特征 三个主成分的方差贡献率分别为:%6.7931.12315.9856.160.2315.9815.98311ii%1.1931.12360.23312ii%3.131.12356.1313ii前两个主成分的累积方差贡献率为:%7.9831.12375.1213121ii量纲不同,用相关阵计算主成分的步骤量纲不同,用相关阵计算主成分的步骤:1 1、原始数据标准化、原始数据标准化2 2、计算样本协差阵或相关系数矩阵、计算样本协差阵