述马氏距离欧式距离Tanimoto测度的相同点和不同点.docx

资源描述

《述马氏距离欧式距离Tanimoto测度的相同点和不同点.docx》由会员分享，可在线阅读，更多相关《述马氏距离欧式距离Tanimoto测度的相同点和不同点.docx（3页珍藏版）》请在第壹文秘上搜索。

1、第三章作业姓名：苏刚学号：1515063004学院：数学与计算机学院一、述马氏距离、欧式距离、Taniinoto测度的相同点和不同点。1 .欧式距离(EUCIideandistance)n山川(X.V)=.Eg-Ih)2相当于高维空间内向量说表示的点到点之间的距离。由于特征向量的各分量的量纲不一致，通常需要先对各分量进行标准化，使其与单位无关，比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。优点：简单,应用广泛(如果也算一个优点的话)缺点：没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果。2 .马氏距离(Mahalanobisdistance)C=E(X

2、-X平均)(丫-丫平均)为该类输入向量X的协方差矩阵.(T为转置符号，E取平均时是样本因此为nT)适用场合：度量两个服从同一分布并且其协方差矩阵为C的随机变量X与Y的差异程度。度量X与某一类的均值向量的差异程度,判别样本的归属。此时，Y为类均值向量。优点：独立于分量量纲，排除了样本之间的相关性影响。缺点：不同的特征不能差别对待，可能夸大弱特征。3 .Tanimoto系数(又称广义JaCCard系数)d=1(邛|+3也+C(a1*+a22+.al)+,/(bj2+b22+.+bn2)-(a1b1+a2b2+.+anbn)通常应用于X为布尔向量，即各分量只取。或1的时候。此时，表示的是X,Y的公共

3、特征的占X,Y所占有的特征的比例。马氏距离的计算是建立在总体样本的基础上的，这一点可以从上述协方差矩阵的解释中可以得出，也就是说，如果拿同样的两个样本，放入两个不同的总体中，最后计算得出的两个样本间的马氏距离通常是不相同的，除非这两个总体的协方差矩阵碰巧相同；在计算马氏距离过程中，要求总体样本数大于样本的维数，否则得到的总体样本协方差矩阵逆矩阵不存在，这种情况下，用欧式距离来代替马氏距离，也可以理解为，如果样本数小于样本的维数,这种情况下求其中两个样本的距离，采用欧式距离计算即可。满足了条件总体样本数大于样本的维数，但是协方差矩阵的逆矩阵仍然不存在，比如三个样本在其所处的二维空间平面内共线(如

4、果是大于二维的话，比较复杂)。这种情况下，也采用欧式距离计算。在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的，而所有样本点共线的情况很少，所以在绝大多数情况下，马氏距离是可以顺利计算的，但是马氏距离的计算是不稳定的，不稳定的来源是协方差矩阵，这也是马氏距离与欧式距离的最大差异之处。我们熟悉的欧氏距离虽然很有用，但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待，这一点有时不能满足实际要求。马氏距离有很多优点。它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距

5、离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。Tanimoto系数，元素的取值可以是实数。用EJ来表示，计算方式如下：EJ(A,B)=(A*B)(A2+B|2-A*B)其中A、B分别表示为两个向量，集合中每个元素表示为向量中的一个维度，在每个维度上，取值通常是0,1之间的值，A*B表示向量乘积，IA-2表示向量的模，即A2=sqrt(a2+a22+a32+)。Tanimoto系数计算公式中，如果把分母的A*B去掉,并将IlAI2+|IBl2替换为(IAl2)*(IlBl2),就转成了余弦相似度(cosinesimilarity)0EJ中每个分量的取值可以是实数，通常

6、在0,1之间。二、构思一个英文字母的识别方法，写出该方法的识别步骤。第一步：图像预处理，首先将图像进行灰度化，将英文字母图像进行灰度化，将图像转化为只包含亮度信息的灰度图像，以达到改善画质和增强对比度的目的。第二步：字符分割及特征提取，在进行上述预处理操作后，将英文字母图像从背景中分离出来，再对图像进行倾斜矫正，采用16*16（使得精确度更高）方格模板，若取每一点为一个特征，则有256个特征值。采用纵向投影法，每个数字的样本需要4096个。第三步：字符识别，在上述过程中，我们己经检测己知手写字母的形状，我们使用这个目标物的形状模板与图像匹配，在约定的某种准则下检测出目标图像，我们将英文字母模板做成16*16的大小，将图像中的字符归一化成16*16后，待匹配图像和英文字母模板是一样大小，直接将引文字母模板和待匹配图像对应像素点值做减操作，找到差值最小的那个模板,认为待匹配图像的值就是该模板的值，即输出相应的英文字母。

展开阅读全文