04聚类分析.docx

上传人:p** 文档编号:1000159 上传时间:2024-06-14 格式:DOCX 页数:16 大小:117.04KB
下载 相关 举报
04聚类分析.docx_第1页
第1页 / 共16页
04聚类分析.docx_第2页
第2页 / 共16页
04聚类分析.docx_第3页
第3页 / 共16页
04聚类分析.docx_第4页
第4页 / 共16页
04聚类分析.docx_第5页
第5页 / 共16页
04聚类分析.docx_第6页
第6页 / 共16页
04聚类分析.docx_第7页
第7页 / 共16页
04聚类分析.docx_第8页
第8页 / 共16页
04聚类分析.docx_第9页
第9页 / 共16页
04聚类分析.docx_第10页
第10页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《04聚类分析.docx》由会员分享,可在线阅读,更多相关《04聚类分析.docx(16页珍藏版)》请在第壹文秘上搜索。

1、聚类分析专题 6.1 言俗话说,“物以类聚,人以群分“,在自然科学和社会科学等各领域中,存在着大量的分类问题。分类学是人类相识世界的基础科学,在古老的分类学中,人们主要靠阅历和专业学问进行定性的分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭阅历和专业学问难以准确地进行分类,于是人们渐渐地把数学工具引用到了分类学中,这便形成了数值分类学这一学科,之后又将多元分析的技术引入到数值分类学,便又从数值分类学中分别出一个重要分支一聚类分析。与多元分析的其它分析方法相比,聚类分析方法较为粗糙,理论上还不够完善,正处于发展阶段。但是,由于该方法应用便利,分类

2、效果较好,因此越来越为人们所重视。这些年来聚类分析的方法发展较快,内容越来越丰富。判别分析与聚类分析都是探讨事物分类的基本方法,它们有着不同的分类目的,彼此之间既有区分又有联系。各种判别分析方法都要求对类有事先的了解,通常是每一类都有一个样本,据此得出判别函数和规则,进而可对其它新的样品属于哪一类作出推断。对类的事先了解和确定经常可以通过聚类分析得到。聚类分析的目的是把分类对象按肯定规则分成若干类,这些类不是事先给定的,而是依据数据的特征确定的。在同一类里的这些对象在某种意义上倾向于彼此相像,而在不同类里的对象倾向于不相像。聚类分析能够用来概括数据而不只是为了找寻“自然的”或“实在的”分类。例

3、如,在选拔少年运动员时,对少年的身体形态、身体素养、生理功能的各种指标进行测试,据此对少年进行分类,分在同一类里的少年这些指标较为相近。类确定好之后,可以依据各类的样本数据得出选材的判别规则,作为选材的依据。又如,依据啤酒中含有的酒精成分、纳成分、所含的热量“卡路里”数值,可以对啤酒进行分类。聚类分析依据分类对象不同分为Q型聚类分析和R型聚类分析。Q型聚类分析是指对样品进行聚类,R型聚类分析是指对变量进行聚类。本章我们主要探讨。型聚类。 6.2 离和相像系数在对样品(或变量)进行分类时,样品(或变量)之间的相像性是如何度量的呢?这一节中,我们介绍两个相像性度量一距离和相像系数,前者常用来度量样

4、品之间的相像性。后者常用来度量变量之间的相像性。样品之间的距离和相像系数有着各种不同的定义,而这些定义与变量的类型有着特别亲密的关系。通常变量按测量尺度的不同可以分为以下三类:(1)间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。(2)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。(3)名义尺度变量:变量用一些类表示,这些类之间既无等级关系也多数量关系,如性别、职业、产品的型号等。我们这里主要探讨具有间隔尺度变量的样品聚类分析方法。一、距离设均为第i个样品的第j个指标,数据矩阵列于表6.1。每个样品有P个变量,故每

5、个样品都可以看成是RP中的一个点,个样品就是Hp中的n个点。在RP中需定义某种距离,第i个样品与第/个样品之间的距离记为d在聚类过程中,距离较近的点倾向于归为一类,距离较远的点应归属不同的类。所定义的距离d厂般应满足如下四个条件:(I)四0,对一切(IDdij=0,当且仅当第i个样品与第/个样品的各变量值相同;(III) dij=dji,对一切仃;(IV) dijdik+dkjf对一切AJ次。表6.1数据矩阵7量样限X2XP1孙22%2X2lX22n1乙2XnP常用的距离有如下几种:1 .明考夫斯基(MinkOWSki)距离第i个样品与第/个样品间的明考夫斯基距离定义为(6.2.1)1.hI.

6、这里4为某一自然数,这是一个最常用最直观的距离。当g=l时,4,(l)=f一,力,称为肯定值距离;Z(Xa-xjk),称为欧氏距离;=lA=I当4=2时,6/.(2)=WJ_*=1当4=00时,dij()=rr11xxrt-xjk|,称为切比雪夫距离。当各变量的单位不同或虽单位相同但各变量的测量值相差很大时,不应干脆采纳明考夫斯基距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。最常用的标准化处理是,令,Xii-Xji=l,2,=l,2,p其中,焉二1.f/为第j个变量的样本均值,%=-1.t(%-焉)2为第J个变量的nr=n/=|样本方差。2 .马氏(MahaIanObi

7、S)距离第,个样品与第J个样品间的马氏距离为d,M)=(xi-xjySx(XTJ)O其中Xj=(X“,项2,,x,p),S为样本协方差矩阵。运用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关。不足之处是对马氏距离公式中的S,若始终不变,则往往显得不妥;若要随聚类过程而不断改变,则会有很多不便。3 .兰氏(1.anCe和WilIiamS)距离当勺0,=1,2,,J=I,2,时,则可以定义第i个样品与第j个样品间的兰氏距离为这个距离与各变量单位无关,但没有考虑变量间的相关性。由于它对大的异样值不敏感,故适用于高度偏斜的数据。4 .斜交空间距离由于样品的各个变量之间往往存在不同程

8、度的相关关系,因此有时采纳欧氏距离显得不够志向,有人建议采纳斜交空间距离。第i个样品与第7个样品间的斜交空间距离定义为21 PP24=r一Xjk)(Xi1.XjAx_PA=I=_其中是变量S与变量勺间的相关系数。当P个变量互不相关时,=-(2),即斜P交空间距离退化为欧氏距离(除相差一个常数倍外)。以上几种距离的定义均要求变量是间隔尺度的,假如运用的变量是有序尺度或名义尺度的,则有相应的一些定义距离的方法。下例是对名义尺度变量的一种距离定义。设有五个变量均为名义尺度变量,阳取值V和/,取值M和Q,取值S和A,与取值8、T和尸,与取值。和K。现有两个样品再二(KQS,T,K),x2=(y,M,S

9、,F,Ky这两个样品的第一个变量都取值V,称为协作的,其次个变量一个取Q,一个取称为不协作的。记协作的变量数为mI,不协作的变量数为加2,定义它们之间的距离为,m7dn=(6.2.5)wl+m12因此M与Z之间的距离为二、相像系数聚类分析方法不仅用来对样品进行分类,而且可以用来对变量进行分类,在对变量进行分类时,经常采纳相像系数来度量变量之间的相像性。变量之间的关系越是亲密,其相像系数越接近于1(或-1);反之,它们的关系越是疏远,其相像系数越是接近于0。聚类时,比较相像的变量倾向于归为一类,不怎么相像的变量归属不同的类。变量七与与的相像系数用来表示,它一般应满足以下三个条件:(I)Cij=1

10、,当且仅当Xj=QXj+b,o(0)和人为常数;(三)Cj1.对一切i,j;(HI)Cij=Cjif对一切i,j。最常用的相像系数有如下两种:1 .夹角余弦变量七与Xj的夹角余弦定义为EJXkiXkjCij(1)=r(6.2.6)54J=I=l_它是R中变量Xi的观测向量xi=(xu,x2i,niy与变量Xj的观测向量为=(xj,X2j,/)之间夹角外的余弦函数,即g=COS/。2.相关系数变量看与巧的相关系数定义为相关系数我们曾用为来表示,这里表示为G(2)是为了与其它相像系数的符号一样。假如变量Xj与巧是已标准化了的,则它们间的夹角余弦就是原变量的相关系数。变量之间常借助于相像系数来定义距

11、离,如令dj=1Cj(6.2.8)样品之间有时也用相像系数来度量样品间的相像性程度。一般来说,同一批数据采纳不同的相像性度量,会得到不同的分类结果。在进行聚类分析的过程中,应依据实际状况选取好合适的相像性度量。如在经济变量分析中,常采纳相关系数来描述变量间的相像性程度。一般状况下,相关系数比其它的相像系数有更强的可变性,但辨别力要弱一些。6.3系统聚类法系统聚类法是聚类分析诸方法中用得最多的一种,其基本思想是:起先将个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算断卷与其它类的距离(注:未合并的类之间的距离不用重新计算);重复进行两个最近类的

12、合并,每次削减一类,直至全部的样品合并为一类。本节介绍常用的八种系统聚类方法,全部这些聚类方法的区分在于类与类之间距离的计算方法不同。以下我们用B.表示第i个样品与第,个样品的距离,G,G?,表示类,DK1.表示GK与G1.的距离。本节介绍的系统聚类法中,除离差平方和法之外,其余全部的方法因一起先每个样品自成一类,类与类之间的距高与样品之间的距离相同,即。也=d也,所以起初的距离矩阵全部相同,记为O(O)=(%)。一、最短距离法定义类与类之间的距离为两类最近的样品间的距离,即D.=min(dii)(6.3.1)称这种系统聚类法为最短距离法。用最短距离法的聚类步骤如下:(1)规定样品之间的距离,

13、计算个样品的距离矩阵O(0),它是一个对称矩阵。(2)选择中的最小元素,设为。松,则将GK与G1.合并成一个新类,记为G即GM=G,Gjo(3)计算新类与任一类GJ之间的距离为DMJ=益盘GW)一mh/K)总%卜min%,为O将。(0)中的PM行,P,q列用(6.3.2)式并成一个新行新列,新行新列对应Gyw,所得矩阵记为。(4)对。重复上述对。()的两步得。,如此下去直至全部元素合并成一类为止。假如某一步O(M中最小的元素不止一个,则对应这些最小元素的类可以同时合并。设有五个样品,每个只测量了一个指标,分别为1,268,11,试用最短距离法将它们分类。(1)样品间采纳肯定值距离(这时它与其它

14、的明考夫斯基距离完全相同),计算样品间的距离矩阵列于表6.2。表6.4。G6GsGs0G140q930(4)。中最小的元素是57=3,于是将Gs和G,合并成Gg,并利用(6.3.2)式计算G7与其它类的距离,列于表6.5。(5)最终将Ge和Gg合并为Gy这时全部五个样品聚为一类,过程终止。上述聚类过程可以画成一张图,如图6.1所示。横坐标的刻度是并类的距离,从图上看,分两类较为合适。这只是从直观上确定了类的个数为2,关于确定类的个数问题我们将在稍后进行探讨。图6.1二、最长距离法类与类之间的距离定义为两类最远样品间的距离,即(6.3.3)=maxdii)称这种系统聚类法为最长距离法。最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。设某步将类GK与G/,合并成一个新类G”,则GM与任一类GJ的距离为dmj=.max(dij)=maxmax(dij),max(flij)=maxD7,Du)(6.3.4)对例6.3.1采纳最长距离法,与前面相同,将G1和Gz合并成G6,计算(J=3,4,5)的公式为D6j=maxDu,D27,J=3,4,5。的计算结果列于表6.6。表6.6。GsG.3GQGs0G3505720GS10530。中的最小元素是34=2,合并G3和G4成G7,计算。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 数据结构与算法

copyright@ 2008-2023 1wenmi网站版权所有

经营许可证编号:宁ICP备2022001189号-1

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第壹文秘网,我们立即给予删除!