《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx

资源描述

《《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx》由会员分享，可在线阅读，更多相关《《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx（5页珍藏版）》请在第壹文秘上搜索。

1、课题使用分类算法处理莺尾花数据课时2课时(90min)教学目标知识技能目标：(1)认识分类算法(2)理解朴素贝叶斯算法(3)理解决策树分类算法素质目标：(1)能熟练运用机器学习算法解决日常生活中的数据分析问题(2)培养自主学习意识，提升实践操作能力教学重难点教学重点：分类算法、朴素贝叶斯算法和决策树分类算法教学难点：使用SparkMLlib的分类算法处理数据教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务，和学生负责人取得联系，让其提醒同学通过APP或其他学习软件，完成课前任务请大家回顾上一节课所学知识，并简

2、单了解什么是分类算法。【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题：什么是分类算法？【学生】思考、举用答传授新知【教师】通过学生的回答引入新知一、分类算法概述【教师】利用多媒体展示“分类算法的工作原理”图片，并讲解分类算法的相关知识分类算法通常用于将事物打上一个标签，分类结果为离散值。分类算法的工作原理是先确定一个分类函数或模型(类似于数据样本中的分界线)，然后对输入的新数据进行预测，即根据分界线对新数据进行分类，如图5-17所示。图5-17分类算法的工作原理【小提示】图5-17中，实心的正方形和圆表示带有标签的训练数据；分界线表

3、示经过训练后获得的分类函数或模型；空心的正方形和圆表示输入的新数据。SparkMLIib提供了多种分类算法用于解决二分类、多分类和回归分析等问题。(1)解决二分类问题的分类算法包括逻辑回归模型、决策树分类算法、随机森林分类算法、朴素贝叶斯算法、支持向量机等。(2)解决多分类问题的分类算法包括逻辑回归模型、决策树分类算法、随机森林分类算法、朴素贝叶斯算法、一对多分类算法等。(3)解决回归问题的分类算法包括线性回归模型、决策树回归模型、随机森林回归模型等。接下来,以朴素贝叶斯算法和决策树分类算法为例，介绍SParkMiJib分类算法的使用方法。二、朴素贝叶斯算法【教师】讲解朴素贝叶斯算法的相关知识

4、朴素贝叶斯(navieBayes)算法简称NB算法，它是一种基于贝叶斯定理的分类算法，它的主要思想是在已知类别的情况下,通过计算某个属性出现的概率，来确定该属性对于这个类别的重要性，并将其应用于分类任务中。该算法的工作原理如下。(1)统计训练数据中不同类别的先验概率，即每个类别在训练数据中出现的频率。(2)对于要分类的新样本，计算其在每个类别下的后验概率，即给定特征下该样本属于某个类别的(3)选择最大后验概率对应的类别作为预测结果。NB算法的基本格式如下。NaiveBayes(featuresCol,IabeICoLpredictionCol,probabilityCol,FawPredict

5、ionCol,smoothing,mode)Type,thresholds,weightCol)其中，参数featuresCol茄獭入特征列的名称；参数IabelCol表示标签列的名称，默认值为label；参数predictionCol表示预测结果的列名，默认值为prediction；参数probabilityCol(可选)表示U的名称，默认值为probability；参数rawPrediclionCol(可选)表示存储原始预测结果列的名称；参数smoothing表示平滑参数，默认值为LO；参数modelType表示模型类型，可选值包括multinomial(多项式朴素贝叶斯)和bemoull

6、i(伯努利朴素贝叶斯)，默认值为multinomial.【教师】通过例子，帮助学生掌握使用NB菖法对文本数据进行分类的方法【例5-8使用NB算法将Spark安装目录下的“datamllibSamPIe_libsvm_data.txt”文件数据分为0和1两大类。读取文本数据创建DataFrame,输出DataFrame中的数据如图5-18所示。然后，使用NB算法对文本数据进行分类，输出的预测结果及预测准确率如图5-19所示。hadoopbogon-$pysparkfrompyspark.ml.classificationimportNaiveBayesfrompyspark.ml.evaluat

7、ionimportMulticlassClassicationEvaluator僦取文本数据创建DataFrame data = sc.read.fonnat(libsvm).load(file:/usr/local/spark/data/mllib/sample_libsvm_data.txt)IlabeXlfaturslI .l(692,127,128,129.1I l.l(692,158.159,16.lI 1.81(692.124.125.126.1I l.I(692,152.153,154.II 1.el(692,151,152,153.II .l(692.129,13,131.lI

8、 l.l(692,158,159,16.lI l.l(692i99,l,ll,.lI e.el(692.154.155.156.II .l(692,127,128,129.II l.(692.154,15S.156. II e. el(692,153,154,155.II e.el(692,(151,152,153. II l.el(692.129,13,131.lI .l(692,(154,155,156.lI l.l(692,15,151,152.lI .el(692,124,125,126.1I .l(692,152,153.154.1I 1.Bl(692,97,98,99,12.II

9、l.l(692.(124,125,126.Ionly showing top 2 rowsPriction rsults:llblfturtsrwPrdictionI probabilityI prediction II .l(92,(S,96,97,12.l-1732M.M46S08S.(l.,.lo.eI e.0l(692,9,100,1.I-176798.24796349.Il.,.lo.elI 8.0l (692, ”22.123,124.-18W1.2W80028.l.ere.ee.elI e.0l(6924126v127,128.I-210969.37526481.I1.0,0.0

10、)1o.oI 0.el(692,(U7r128r12.1(-170881.0406252.I(.o,e.ejo.oI .0l(602,(127,128r129.-213398.6ei697.ore.oo.elI 0.01(624127,128,12.(-183284.5266U5.oro.e)lo.oI 0.01(6924128,129,130.I-246027.39704974.I.or.eo.oI 0.0l(6924150t151r152.1(-157898.87276406.I(1.0v0.0o.oI 0.01 (6924152,153r 154.I-208299.36235153.I1

11、.0v0.0o.oI 0.01(6924152.153r154.I243127.71890150.I(.oro.e0.0lI 0.01 (6924153.154rl55.I144207.79475583.I(.oto.e0.01I 1.O(692J1.1O1,162.I(14428.45613ie.(.,.e.eI 1.0l(692,(123,124,12.I【 138363. “872824 I(.o,.e)l.eI 1.0l(692.(124,125,126.I(127978.5376288.I(9.,.e)l.eI l.l(692.(124,125.126.I(79957.4877245

12、08.I(.e.eI 1.81(692,(125,126,127.l(10243e.l42312S.I(e.e,.e)l1.61I l.l(692,(125,126.127.l(81588.93924941.l(.6,ie)l.elI 1.el(692,(126,127.128.I(118122.2319317.(.e,.e)l.eI 1.01(692,(126,127,128.I(8661.473798128.I(.l.)l.eonly sh0ln9 top 20 rowsTest set accuracy - l.图5-18DataFrame中的数据图5-19预测结果及预测准确率【高手点拨

13、】在例5-8中，输出的预测结果包含5列，其中rawPrediction为当前数据属于不同类别的置信度；probability为当前数据属于不同类别的概率；prediction为预测本条数据所属的类别。三、决策树分类算法【教师】利用多媒体展示“决策树示例”图片，并讲解决策树分类算法的相关知识决策树分类（decisiontreeclassification）算法简称DTC算法，它是一种通过对样本数据进行学习，构建一个决策树模型，实现对新数据分类和预测的算法，是最直观的分类算法。决策树是一种树形结构，表示通过一系列规则对数据进行分类的过程。决策树由3个主要部分组成，即决策节点、分支和叶子节点。其中，

14、决策节点为非叶子节点，代表某个样本幡的特征（属性）；每个分支代表这个特征（属性）在某个值域上的特征值（属性值）；每个叶子节点代表一个类别，如图5-20标图5-20决策树示例图520是一个结构简单的决策树，用于预测贷款用户是否有能力偿还贷款。其中，贷款用户主要具备3个特征,即是否拥有房产、是否结婚和平均月收入，它们所在的节点分别表示一个特征条件，用于判断贷款用户是否符合该特征。叶子节点表示预测贷款用户是否有能力偿还贷款。DTC算法主要借助决策树模型实现分类，该算法的工作原理如下。(1)选取对训练集具有分类能力的特征。根据某个指标(如信息增益、基尼指数等)选择最佳特征作为决策节点。(2)递归构建决策树。从根结点开始，递归地构建决策树，不断地选取局部最优的特征，将训练集分割成不同子集，直到满足终止条件(如达到最大深度、无法继续分割等)，

展开阅读全文