04聚类分析.docx_第壹文秘

资源描述

《04聚类分析.docx》由会员分享，可在线阅读，更多相关《04聚类分析.docx（16页珍藏版）》请在第壹文秘上搜索。

1、聚类分析专题 6.1 言俗话说，“物以类聚，人以群分“，在自然科学和社会科学等各领域中，存在着大量的分类问题。分类学是人类相识世界的基础科学，在古老的分类学中，人们主要靠阅历和专业学问进行定性的分类，很少利用数学工具进行定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭阅历和专业学问难以准确地进行分类，于是人们渐渐地把数学工具引用到了分类学中，这便形成了数值分类学这一学科，之后又将多元分析的技术引入到数值分类学，便又从数值分类学中分别出一个重要分支一聚类分析。与多元分析的其它分析方法相比，聚类分析方法较为粗糙，理论上还不够完善，正处于发展阶段。但是，由于该方法应用便利，分类

2、效果较好，因此越来越为人们所重视。这些年来聚类分析的方法发展较快，内容越来越丰富。判别分析与聚类分析都是探讨事物分类的基本方法，它们有着不同的分类目的，彼此之间既有区分又有联系。各种判别分析方法都要求对类有事先的了解，通常是每一类都有一个样本，据此得出判别函数和规则，进而可对其它新的样品属于哪一类作出推断。对类的事先了解和确定经常可以通过聚类分析得到。聚类分析的目的是把分类对象按肯定规则分成若干类，这些类不是事先给定的，而是依据数据的特征确定的。在同一类里的这些对象在某种意义上倾向于彼此相像，而在不同类里的对象倾向于不相像。聚类分析能够用来概括数据而不只是为了找寻“自然的”或“实在的”分类。例

3、如，在选拔少年运动员时，对少年的身体形态、身体素养、生理功能的各种指标进行测试，据此对少年进行分类，分在同一类里的少年这些指标较为相近。类确定好之后，可以依据各类的样本数据得出选材的判别规则，作为选材的依据。又如，依据啤酒中含有的酒精成分、纳成分、所含的热量“卡路里”数值，可以对啤酒进行分类。聚类分析依据分类对象不同分为Q型聚类分析和R型聚类分析。Q型聚类分析是指对样品进行聚类，R型聚类分析是指对变量进行聚类。本章我们主要探讨。型聚类。 6.2 离和相像系数在对样品(或变量)进行分类时，样品(或变量)之间的相像性是如何度量的呢？这一节中，我们介绍两个相像性度量一距离和相像系数,前者常用来度量样

4、品之间的相像性。后者常用来度量变量之间的相像性。样品之间的距离和相像系数有着各种不同的定义，而这些定义与变量的类型有着特别亲密的关系。通常变量按测量尺度的不同可以分为以下三类：(1)间隔尺度变量：变量用连续的量来表示，如长度、重量、速度、温度等。(2)有序尺度变量：变量度量时不用明确的数量表示，而是用等级来表示，如某产品分为一等品、二等品、三等品等有次序关系。(3)名义尺度变量：变量用一些类表示，这些类之间既无等级关系也多数量关系，如性别、职业、产品的型号等。我们这里主要探讨具有间隔尺度变量的样品聚类分析方法。一、距离设均为第i个样品的第j个指标，数据矩阵列于表6.1。每个样品有P个变量，故每

5、个样品都可以看成是RP中的一个点，个样品就是Hp中的n个点。在RP中需定义某种距离,第i个样品与第/个样品之间的距离记为d在聚类过程中，距离较近的点倾向于归为一类,距离较远的点应归属不同的类。所定义的距离d厂般应满足如下四个条件：(I)四0,对一切(IDdij=0,当且仅当第i个样品与第/个样品的各变量值相同；(III) dij=dji,对一切仃；(IV) dijdik+dkjf对一切AJ次。表6.1数据矩阵7量样限X2XP1孙22%2X2lX22n1乙2XnP常用的距离有如下几种：1 .明考夫斯基(MinkOWSki)距离第i个样品与第/个样品间的明考夫斯基距离定义为(6.2.1)1.hI.

6、这里4为某一自然数，这是一个最常用最直观的距离。当g=l时，4,(l)=f一,力，称为肯定值距离；Z(Xa-xjk),称为欧氏距离;=lA=I当4=2时，6/.(2)=WJ_*=1当4=00时，dij()=rr11xxrt-xjk|,称为切比雪夫距离。当各变量的单位不同或虽单位相同但各变量的测量值相差很大时，不应干脆采纳明考夫斯基距离，而应先对各变量的数据作标准化处理，然后用标准化后的数据计算距离。最常用的标准化处理是，令,Xii-Xji=l,2,=l,2,p其中，焉二1.f/为第j个变量的样本均值，%=-1.t(%-焉)2为第J个变量的nr=n/=|样本方差。2 .马氏(MahaIanObi

7、S)距离第，个样品与第J个样品间的马氏距离为d，M)=(xi-xjySx(XTJ)O其中Xj=(X“,项2,，x,p)，S为样本协方差矩阵。运用马氏距离的好处是考虑到了各变量之间的相关性，并且与各变量的单位无关。不足之处是对马氏距离公式中的S,若始终不变，则往往显得不妥；若要随聚类过程而不断改变，则会有很多不便。3 .兰氏(1.anCe和WilIiamS)距离当勺0,=1,2,，J=I,2,时，则可以定义第i个样品与第j个样品间的兰氏距离为这个距离与各变量单位无关，但没有考虑变量间的相关性。由于它对大的异样值不敏感，故适用于高度偏斜的数据。4 .斜交空间距离由于样品的各个变量之间往往存在不同程

8、度的相关关系，因此有时采纳欧氏距离显得不够志向，有人建议采纳斜交空间距离。第i个样品与第7个样品间的斜交空间距离定义为21 PP24=r一Xjk)(Xi1.XjAx_PA=I=_其中是变量S与变量勺间的相关系数。当P个变量互不相关时，=-(2),即斜P交空间距离退化为欧氏距离(除相差一个常数倍外)。以上几种距离的定义均要求变量是间隔尺度的，假如运用的变量是有序尺度或名义尺度的，则有相应的一些定义距离的方法。下例是对名义尺度变量的一种距离定义。设有五个变量均为名义尺度变量，阳取值V和/,取值M和Q，取值S和A，与取值8、T和尸，与取值。和K。现有两个样品再二(KQS,T,K),x2=(y,M,S

9、,F,Ky这两个样品的第一个变量都取值V,称为协作的，其次个变量一个取Q,一个取称为不协作的。记协作的变量数为mI，不协作的变量数为加2,定义它们之间的距离为,m7dn=(6.2.5)wl+m12因此M与Z之间的距离为二、相像系数聚类分析方法不仅用来对样品进行分类，而且可以用来对变量进行分类，在对变量进行分类时，经常采纳相像系数来度量变量之间的相像性。变量之间的关系越是亲密，其相像系数越接近于1(或-1)；反之，它们的关系越是疏远，其相像系数越是接近于0。聚类时，比较相像的变量倾向于归为一类，不怎么相像的变量归属不同的类。变量七与与的相像系数用来表示，它一般应满足以下三个条件：(I)Cij=1

10、,当且仅当Xj=QXj+b,o(0)和人为常数；（三）Cj1.对一切i,j；(HI)Cij=Cjif对一切i,j。最常用的相像系数有如下两种：1 .夹角余弦变量七与Xj的夹角余弦定义为EJXkiXkjCij(1)=r(6.2.6)54J=I=l_它是R中变量Xi的观测向量xi=(xu,x2i,niy与变量Xj的观测向量为=(xj,X2j，/)之间夹角外的余弦函数，即g=COS/。2.相关系数变量看与巧的相关系数定义为相关系数我们曾用为来表示，这里表示为G(2)是为了与其它相像系数的符号一样。假如变量Xj与巧是已标准化了的，则它们间的夹角余弦就是原变量的相关系数。变量之间常借助于相像系数来定义距

11、离，如令dj=1Cj（6.2.8）样品之间有时也用相像系数来度量样品间的相像性程度。一般来说，同一批数据采纳不同的相像性度量，会得到不同的分类结果。在进行聚类分析的过程中，应依据实际状况选取好合适的相像性度量。如在经济变量分析中，常采纳相关系数来描述变量间的相像性程度。一般状况下，相关系数比其它的相像系数有更强的可变性，但辨别力要弱一些。6.3系统聚类法系统聚类法是聚类分析诸方法中用得最多的一种，其基本思想是：起先将个样品各自作为一类，并规定样品之间的距离和类与类之间的距离，然后将距离最近的两类合并成一个新类，计算断卷与其它类的距离（注：未合并的类之间的距离不用重新计算）；重复进行两个最近类的

12、合并，每次削减一类，直至全部的样品合并为一类。本节介绍常用的八种系统聚类方法，全部这些聚类方法的区分在于类与类之间距离的计算方法不同。以下我们用B.表示第i个样品与第，个样品的距离，G，G?,表示类，DK1.表示GK与G1.的距离。本节介绍的系统聚类法中，除离差平方和法之外，其余全部的方法因一起先每个样品自成一类，类与类之间的距高与样品之间的距离相同，即。也=d也，所以起初的距离矩阵全部相同，记为O（O）=（%）。一、最短距离法定义类与类之间的距离为两类最近的样品间的距离，即D.=min（dii）（6.3.1）称这种系统聚类法为最短距离法。用最短距离法的聚类步骤如下：（1）规定样品之间的距离，

13、计算个样品的距离矩阵O（0），它是一个对称矩阵。（2）选择中的最小元素，设为。松，则将GK与G1.合并成一个新类，记为G即GM=G,Gjo（3）计算新类与任一类GJ之间的距离为DMJ=益盘GW）一mh/K）总%卜min%,为O将。（0）中的PM行，P,q列用（6.3.2）式并成一个新行新列，新行新列对应Gyw,所得矩阵记为。（4）对。重复上述对。（）的两步得。，如此下去直至全部元素合并成一类为止。假如某一步O（M中最小的元素不止一个，则对应这些最小元素的类可以同时合并。设有五个样品，每个只测量了一个指标，分别为1,268,11,试用最短距离法将它们分类。（1）样品间采纳肯定值距离（这时它与其它

14、的明考夫斯基距离完全相同），计算样品间的距离矩阵列于表6.2。表6.4。G6GsGs0G140q930（4）。中最小的元素是57=3,于是将Gs和G,合并成Gg,并利用（6.3.2）式计算G7与其它类的距离，列于表6.5。(5)最终将Ge和Gg合并为Gy这时全部五个样品聚为一类，过程终止。上述聚类过程可以画成一张图，如图6.1所示。横坐标的刻度是并类的距离，从图上看,分两类较为合适。这只是从直观上确定了类的个数为2,关于确定类的个数问题我们将在稍后进行探讨。图6.1二、最长距离法类与类之间的距离定义为两类最远样品间的距离，即(6.3.3)=maxdii)称这种系统聚类法为最长距离法。最长距离法与最短距离法的并类步骤完全相同，只是类间距离的递推公式有所不同。设某步将类GK与G/,合并成一个新类G”，则GM与任一类GJ的距离为dmj=.max(dij)=maxmax(dij),max(flij)=maxD7,Du)(6.3.4)对例6.3.1采纳最长距离法，与前面相同，将G1和Gz合并成G6,计算(J=3,4,5)的公式为D6j=maxDu,D27,J=3,4,5。的计算结果列于表6.6。表6.6。GsG.3GQGs0G3505720GS10530。中的最小元素是34=2,合并G3和G4成G7,计算。

展开阅读全文