《抽样与数据分析.ppt》由会员分享,可在线阅读,更多相关《抽样与数据分析.ppt(52页珍藏版)》请在第壹文秘上搜索。
1、市场研究中的抽样与数据分析统计分析初步统计学是什么? 市场研究市场研究=统计学?统计学? 营销的现实与统计的假设的吻合性?营销的现实与统计的假设的吻合性? 统计学是是市场研究一项不可或缺的工具。这是因为,统计学是是市场研究一项不可或缺的工具。这是因为,绝大多数的市场研究活动都是抽样调查而不是普查,绝大多数的市场研究活动都是抽样调查而不是普查,我们对一个市场任何一个侧面的描述几乎都是在一定我们对一个市场任何一个侧面的描述几乎都是在一定置信水平下对总体的推断置信水平下对总体的推断统计分析基础知识:测量水平数据的类型又叫做测量水平数据的类型又叫做测量水平(Level of Measurement)。
2、一般来说,数据。一般来说,数据可以分为两个大类,四个测量水平可以分为两个大类,四个测量水平分类数据分类数据/定性数据定性数据/非度量型数据:定类数据,定序数据非度量型数据:定类数据,定序数据连续型数据连续型数据/定量数据定量数据/度量型数据:定距数据,定比型数据度量型数据:定距数据,定比型数据定类数据定类数据(Nominal Data):数据的值仅用于识别目的;数据的大小和:数据的值仅用于识别目的;数据的大小和水平比较没有意义;不适用于四则基本运算;典型的例子有:性别,水平比较没有意义;不适用于四则基本运算;典型的例子有:性别,职业,婚姻状况等职业,婚姻状况等定序数据定序数据(Ordinal
3、Data):数据的值是依据一定的顺序而赋予的;可以:数据的值是依据一定的顺序而赋予的;可以依据数值水平的不同排序;不适用于四则基本运算;典型的例子有:依据数值水平的不同排序;不适用于四则基本运算;典型的例子有:文化程度,年份文化程度,年份定距数据定距数据(Interval Data):数值大小的差异可以比较;没有绝对的零点;:数值大小的差异可以比较;没有绝对的零点;适用于加减运算;典型的例子有:温度,态度评分适用于加减运算;典型的例子有:温度,态度评分定比数据定比数据(Ratio Data):数值的绝对大小可以比较;具有真实(绝对):数值的绝对大小可以比较;具有真实(绝对)的零点;适用于所有的
4、算术运算;典型的例子有:购买产品的数量,的零点;适用于所有的算术运算;典型的例子有:购买产品的数量,家庭月总收入,刷牙的频率家庭月总收入,刷牙的频率统计分析基础知识:集中趋势与离散趋势分析 集中趋势分析集中趋势分析(Central Tendency Analysis)也也叫位置测量叫位置测量(Measures of Location),通常有,通常有如下指标如下指标: 众数众数(Mode) :发生率最高的数值;适用于所有的测:发生率最高的数值;适用于所有的测量水平量水平 中位数中位数 (Median):数值排序后正好位于中间位置的:数值排序后正好位于中间位置的数;适用于定序、定距、定比数据数;
5、适用于定序、定距、定比数据 算术平均数或均值算术平均数或均值(Mean): 各数值的简单平均;适各数值的简单平均;适用于定距数据与定比数据用于定距数据与定比数据 几何平均数几何平均数(Geometric Average)与调和平均数与调和平均数(Harmonious Average):市场研究中罕用;只适用于市场研究中罕用;只适用于定比数据定比数据 离散趋势分析离散趋势分析(Measures of Dispersion) 全距或离差全距或离差(Range): 一个度量型变量最大值与最一个度量型变量最大值与最小值的差小值的差 方差方差(Variance):一个变量所有值与其平均值之差:一个变量所
6、有值与其平均值之差的平方的平均数的平方的平均数 标准差标准差(Standard Deviation):方差的平方根:方差的平方根 均值的标准误差均值的标准误差(Standard Error of Mean):标准差:标准差与样本数平方根之比值与样本数平方根之比值统计分析基础知识:数据加权 加权(加权(Weighting)的目的是为了使我们在项的目的是为了使我们在项目中选取的样本更好地反应总体的结构目中选取的样本更好地反应总体的结构 当人口背景资料对一种产品的认知或消费当人口背景资料对一种产品的认知或消费有显著影响时,加权显得尤为重要有显著影响时,加权显得尤为重要 某组某组/群样本过多群样本过多
7、 不同反应率不同反应率 年龄年龄/性别性别/区域比较接近区域比较接近抽样调查方法与抽样误差抽样调查方法与抽样误差抽样调查 节约费用节约费用 节省时间节省时间 可获得更深入可获得更深入/ /广泛的信息广泛的信息 数据的质量往往较普查更好数据的质量往往较普查更好抽样的基本概念 总体和样本总体和样本 总体指标和样本指标(统计量)总体指标和样本指标(统计量) 抽样单元和抽样框抽样单元和抽样框 抽样误差(精确度)和非抽样误差抽样误差(精确度)和非抽样误差(准确度)(准确度)抽样误差 样本和母体之间的差异 样本规模 样本分布或离散程度 母体大小 样本的设计(抽样方法) 拒访 访问偏差(访问员和被访者) 过
8、程偏差抽样误差是可测量的抽样误差是可测量的(对于概率抽样对于概率抽样)在研究中无法测量在研究中无法测量 -可以通过更好的可以通过更好的访问控制和研究设计减少访问控制和研究设计减少置信度的概念 置信度就是用样本指标来推算总体指标的置信度就是用样本指标来推算总体指标的把握程度把握程度 置信区间就是以一定概率把握程度确定总置信区间就是以一定概率把握程度确定总体指标所在区间体指标所在区间= X + SESE=ZCLSXZ值:标准正态变量值-3 -2-10123标准正态分布标准正态分布68.27%95.45%99.73%抽样误差 抽样误差一般以方差或标准误差形式给出抽样误差一般以方差或标准误差形式给出
9、样本的标准误差(样本的标准误差(E) 样本比例的标准误差样本比例的标准误差nSNnN1nPpNnN)1 (1样本规模的决定 影响因素影响因素 在置信度水平下的在置信度水平下的Z值值 Z=1.96, CL=95% Z=2.68, CL=99% Z=1.65, CL=90% 样本标准差样本标准差(S) 可容许误差可容许误差(E) N=(ZS/E)2保守估计保守估计:N=(Z/2E)2 E=Z/2一般说来一般说来,总体规模对样本规模没有直接的总体规模对样本规模没有直接的影响影响,只是总体方差对样本规模有着影响。只是总体方差对样本规模有着影响。n不同样本、置信区间下的抽样误差分析50100200300
10、40050060070080090010000510152090%C.I.95%C.I.97.5%C.I.99%C.I.sample size+% error不同样本不同置信条件下的抽样误差N=CL=90% CL=95% CL=99%6003.36 4.00 5.26 3004.75 5.66 7.44 2505.206.208.152005.82 6.93 9.11 1207.51 8.95 11.76 1008.22 9.80 12.88 809.20 10.96 14.40 抽样的基本限制和最低限度 如果我们在分析过程中把所有样本分成不同如果我们在分析过程中把所有样本分成不同的群体(组)
11、进行分析,那么对每一个群体的群体(组)进行分析,那么对每一个群体(组)分析的准确性将会受到群体(组)内(组)分析的准确性将会受到群体(组)内的样本数大小的影响的样本数大小的影响. . 为了保证有足够的样本对群体(组)进行分为了保证有足够的样本对群体(组)进行分析,在统计上,一般对群体(组)的最低样析,在统计上,一般对群体(组)的最低样本要求:本要求:一般情况下一般情况下 3030重要群体(组)重要群体(组) 100100抽样方法概述等概率抽样和非等概率抽样 概率抽样:总体中概率抽样:总体中每一个体都有可能每一个体都有可能被抽中被抽中 概率抽样独立于抽概率抽样独立于抽样人员的主观判断样人员的主观
12、判断 优势优势: 可以进行总体推断 可以知道可能的偏差和误差. 劣势劣势: 抽样框往往很难获取 成本较高, 时间较长 非概率抽样方法主非概率抽样方法主要是在某种条件下要是在某种条件下为实现某种特定研为实现某种特定研究目的而采取的究目的而采取的 优势优势: 简单 可操作 低成本 耗时短 不依赖于样本框 在市场研究中广泛应用 劣势劣势: 很难估计偏差和抽样误差 概率抽样分为两类:等概率抽样和非等概率概率抽样分为两类:等概率抽样和非等概率抽样抽样如何选择合适的抽样方法 对准确性的要求对准确性的要求 资源资源/预算条件预算条件 时间条件时间条件 对总体情况的掌握程度对总体情况的掌握程度 全国性项目全国
13、性项目VS地区项目地区项目 对统计推算分析的要求对统计推算分析的要求统计显著性检验什么是统计显著性检验? 统计检验(统计检验(Statistical Significance Test) 就是就是测量抽样调查的结果(如变量之间的关系、测量抽样调查的结果(如变量之间的关系、品牌评价上的差异等)由随机抽样误差品牌评价上的差异等)由随机抽样误差(Random Sampling Error) 所导致的概率所导致的概率(Probability)的统计分析过程)的统计分析过程 市场研究中对数据的解释不可脱离统计显著市场研究中对数据的解释不可脱离统计显著性检验,尽管这有时体现在研究人员的经验性检验,尽管这有
14、时体现在研究人员的经验判断上而并不体现在结果的展示上判断上而并不体现在结果的展示上 数值上的直观差异不等于统计意义上的差异,数值上的直观差异不等于统计意义上的差异,不借助于统计检验而去解释数据,有时是危不借助于统计检验而去解释数据,有时是危险的险的统计检验:方法综述 统计检验的方法非常丰富,例如:统计检验的方法非常丰富,例如: T Test Chi -square x2 Test Z-test Sign test Wilcoxon Signed Rank Test F Test 每种统计检验方法都有其各自的假设,适每种统计检验方法都有其各自的假设,适用于特定的测量水平、分布类型和样本状用于特定
15、的测量水平、分布类型和样本状况况 在统计指标受到多种因素影响的情况下,在统计指标受到多种因素影响的情况下,方差分析(方差分析(ANOVA),多元方差分析),多元方差分析(MANOVA)是更为有效且强大的统计)是更为有效且强大的统计检验工具检验工具数据类型和检验方法(两个独立样本)名义尺度 男/女2顺序尺度1st 2nd 3rdMANN-WHITNEYWILCOXON(参数检验)间隔(距离)尺度T Test数值尺度温度T TEST Z TEST T 检验:单尾检验与双尾检验 单尾(单尾(1-tail test)检验关心的是两种情形发生的概检验关心的是两种情形发生的概率(率(Probability
16、): A大于大于B A不大于不大于B 双尾检验双尾检验(2-tail test)则关心三种情形发生的概率:则关心三种情形发生的概率: A 大于大于 B A 等于等于 B A 小于小于 B 采用单尾检验还是双尾检验,取决于我们的研究设采用单尾检验还是双尾检验,取决于我们的研究设计和行动标准,例如在新产品研究中:计和行动标准,例如在新产品研究中: 如果我们的行动标准是在新产品优于现有产品的如果我们的行动标准是在新产品优于现有产品的情况下推出新产品,则双尾检验是正确的选择;情况下推出新产品,则双尾检验是正确的选择; 如果我们开发的是成本节约型的新产品,而我们如果我们开发的是成本节约型的新产品,而我们的行动标准是在新产品不劣于新产品的情况下推的行动标准是在新产品不劣于新产品的情况下推出新产品,则单尾检验是正确的选择出新产品,则单尾检验是正确的选择统计出表和分析统计出表和分析数据处理过程:出表 出表主要包括两种结果:频数分布表(出表主要包括两种结果:频数分布表(Frequency Tables)和交叉表和交叉表(Crosstabulations)。 频数分布表是对单变量而言的,它研究的是一个变频