《机器学习基础及应用》教案第15课真假钞票鉴别.docx

上传人:p** 文档编号:926350 上传时间:2024-04-12 格式:DOCX 页数:10 大小:137.93KB
下载 相关 举报
《机器学习基础及应用》教案第15课真假钞票鉴别.docx_第1页
第1页 / 共10页
《机器学习基础及应用》教案第15课真假钞票鉴别.docx_第2页
第2页 / 共10页
《机器学习基础及应用》教案第15课真假钞票鉴别.docx_第3页
第3页 / 共10页
《机器学习基础及应用》教案第15课真假钞票鉴别.docx_第4页
第4页 / 共10页
《机器学习基础及应用》教案第15课真假钞票鉴别.docx_第5页
第5页 / 共10页
《机器学习基础及应用》教案第15课真假钞票鉴别.docx_第6页
第6页 / 共10页
《机器学习基础及应用》教案第15课真假钞票鉴别.docx_第7页
第7页 / 共10页
《机器学习基础及应用》教案第15课真假钞票鉴别.docx_第8页
第8页 / 共10页
《机器学习基础及应用》教案第15课真假钞票鉴别.docx_第9页
第9页 / 共10页
《机器学习基础及应用》教案第15课真假钞票鉴别.docx_第10页
第10页 / 共10页
亲,该文档总共10页,全部预览完了,如果喜欢就下载吧!
资源描述

《《机器学习基础及应用》教案第15课真假钞票鉴别.docx》由会员分享,可在线阅读,更多相关《《机器学习基础及应用》教案第15课真假钞票鉴别.docx(10页珍藏版)》请在第壹文秘上搜索。

1、课题搭建机器学习开发环境(二)课时2课时(90min)教学目标知识技能目标:(1)掌握机器学习项目的实施流程(2)掌握机器学习项目中数据导入、数据探索与数据可视化的处理方法(3)掌握逻辑回归、k近邻、高斯朴素贝叶斯、决策树、支持向量机、随机森林和神经网络算法的Skleam实现方法(4)能够针对特定数据集,选择合适的机器学习算法(5)能够使用逻辑回归、k近邻、高斯朴素贝叶斯、决策树、支持向量机、随机森林和神经网络算法训练模型(6)能够针对特定数据集,选择合适的机器学习算法素质目标:加强对时代发展的了解,提升工作能力、组织能力和创新能力.掌握新技术,努力成为集智能型、创造型、复合型和社会型等多种素

2、养于一体的全方位型人才教学重难点教学重点:机器学习项目的实施流程,逻辑回归、k近邻、高斯朴素贝叶斯、决策树、支持向量机、随机森林和神经网络算法的Sklearn实现方法教学睚点:能够针对特定数据集,选择合适的机器学习算法教学方法案例分析法、问答法、讨论法、i井授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务,请大家提前了解请查阅相关资料,了解什么是小波变换【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:真假钞票的鉴

3、别方法有哪些?【学生】思考、举用答传授新知【教师】通过学生的回答引入要讲的知识,介绍真假钞票的鉴别方法与操作步骤真假钞票的鉴别方法有很多,如借助放大镜观察钞票表面的线条清晰度、用手触摸钞票等,这些方法都需要积累一定的经验,对于不常与钞票打交道的人来说,很难实现。于是,小旌想运用科学的方法来解决此问题,他打算使用机器学习算法训练一个能够鉴别真假钞票的模型,然后使用该模型进行鉴别.小旌采用的数据集是钞票鉴别数据集(见本书配套素材,item11/data_banknote_authentication.txtM文件)该数据集共有1372条数据每条数据包含4个特征变量和1个类别标签。其中特征变量为va

4、riance,skewness,kurtosis和entropy(特征变量由真钞和假钞样本图片经小波变换提取得到),分别表示图片经小波变换后的方差、偏度(偏度用于统计数据偏斜方向和程度)、峰度(峰度用于描述概率密度分布曲线在平均值处峰值的高低)和烯(图片的平均信息量);类别标签表示钞票所属的类别,1表示真钞,0表示假钞,部分数据如表11-1所示。表11-1钞票鉴别瘫集(部分)varianceskewnesskurtosisentropyclass3.62168.6661-2.8073-0.4469904.54598.1674-2.4586-1.462i03.866-2.63831.92420.

5、1064503.45669.5228-4.0112-3.594400.32924-4.45524.5718-0.98880.0.406141.3492-1.4501-0.559491-1.3887-4.87736.47740.341791-3.7503-13.458617.5932-2.77711-3.5637-8382712393-1.28231-2.5419-0.658042.68421.19521按照项目要求,训练真假钞票鉴别模型的步骤分解如下。第1步:数据导入。使用PandaS读取钞票鉴别健并为孀集指定列名称,然后将数据集进行输出。第2步:数据探索。通过类别标签class对数据集进行分

6、组,得到真钞样本与假钞样本在数据集中的数目,然后对孀集中的数据进行统计,获取样本数量、样本均值、标准差、最小值、下四分位数、中位数、上四分位数和最大值等信息。第3步:数据可视化。首先,绘制直方图,显示样本数据各个特征的分布情况;然后,绘制箱形图,了解各特征数据的分散情况;最后,绘制散点图,探索样本数据两两特征之间的关系。第4步:算法评估。分别使用逻辑回归、k近邻、高斯朴素贝叶斯、决策树、支持向量机、随机森林和神经网络算法搭建模型,并使用交叉验证法评估每个模型的预测准确率。第5步:训练与评估模型。选择最优模型,使用训练集进行训练,然后使用测试集进行评估,并输出模型的评估报告。第6步:预测新数据。

7、使用训练完成的模型对新数据进行鉴别,并输出其鉴别结果。【学生】聆听、思考、理解、记录课堂讨论【教师】组织学生扫码观看”数据分析基本流程”视频,并以小组为单位讨论以下问题:(1)什么是雌分析?(2)请画出数据分析的流程图。【学生】扫码观看、分组讨论、回答问题课堂实践【教师】介绍真假钞票鉴别”项目的大概流程,安排学生扫描微课二维码依次观看视频“数据导入”数据探索”“数据可视化”“算法评估”“训练与评估模型”和“预测新数据“(详见教材),并进行洪解和演示1.数据导入步骤1导入Pandas库。步骤2读取钞票鉴别数据并为数据集指定列名称为variance,skewness,kurtosis,entrop

8、y和class步骤3输出钞票鉴别数据集。【指点迷津】开始编写程序前,须将本书配套素材iiemll/daia_banknoie_aulheniicaiion.txi文件复制到当前工作目录中,也可将数据文件放于其他盘,如果放于其他盘,使用PandaS读取数据文件时要指定路径。【参考代码】importpandasaspdnames=variance,skewness,kurtosis,entroy,.class,datasei=pd.read_csv(data_banknote_authentication.txt.delimiter=,names=names)Print(钞票鉴别数据集print(

9、dataset)2.数据探索步骤I通过类别标签class对放据集进行分组,得到真钞样本与假钞样本在数据集中的数目。【参考代码】print(dataset.groupby(class).size()#groupby()函数用于对数据进行分组,size()函数用于获取真钞样本与假钞样本在数据集中的数目【运行结果】程序运行结果如图所示.可见,数据集中0所代表的假钞样本数略多于1所代表的真钞样本数,数据分布基本处于均衡状态。class07621610dtype:int64【高手点拨】在很多实际的分类项目中,训练数据的分布是不均衡的(训练孀不均衡指训练集中从属于不同类别的样本数目相差很大),这会对训练结

10、果造成很大的影响.一般而言,若数据集中样本数据类别不均衡的比例超过1:4,则通过该数据集训练出的模型很可能无法满足预测准确性要求。针对这个问题,可采用如下解决方案:扩充数据集,增加小类样本的数量,如果数据获取有困难,可考虑更新数据集的采样规则,对小类样本进行过采样,对大类样本进行欠采样;增加人造数据,减少由训练数据不均衡带来的影响。步骤2使用describe。函数对数据集中的数据进行统计,获取样本数量、样本均值、标准差、最小值、下四分位数、中位数、上四分位数和最大值等信息。【参考代码】print(dataset.describe()【运行结果】程序运行结果如图所示。varianceskevne

11、sskurtosisentropyclasscount1372.0000001372.0000001372.0000001372.0000001372.000000mean0.4337351.9223531.397627-1.1916570.444606std2.8427635.8690474.3100302.1010130.497103min-7.042100-13.773100-5.286100-8.5482000.00000025%-1.773000-1.708200-1.574975-2.4134500.00000050%0.4961802.3196500.616630-0.58665

12、00.000000752.8214756.146253.1792500.3948101.000000max6.82480012.95160017.9274002.4495001.0000003.数据可视化数据可视化能够更直观地反映数据间的关联性与分布情况。可视化图形包含单变量图和多变量图,单变量图(主要包含直方图、柱状图和箱形图)能更好地展示样本中每个特征的属性;多变量图(主要包含折线图和散点图)能反映出样本数据两两特征之间的关系.步骤I绘制直方图,显示样本数据各个特征的分布情况。【参考代码】importma(plotlib.pyplotaspit#分别提取数据集中的特征变量和标签值data=

13、dataset.iloc(range(0,l372),range(0.4)Lvaluestarget=dataset.ilocrange(0.1372),range(4,5).values.reshape(1.1372)0names=Ivariance,skewness,kurtosis,entropy#绘制直方图plt.figure()#创建绘图对象fori,nameinenumerate(names):plt.subplot(2,2,i+l)plt.hist(data,i) plt.title(name) Pluighlayout() plt.show()#绘制直方图#调整图形布局【运行结

14、果】程序运行结果如图所示。可见,VarianCe特征近似高斯分布。varianceskewness200200-100oo-步骤2【参考代码】plt.figure()#创建绘图对象fori,nameinenumerae(names):plt.subplot(2,2,i+l)plt.boxplot(data|:,i,whis=4)#绘制箱形图plt.title(name)plt.tightjayout()#调整图形布局plt.show()【运行结果】程序运行结果如图所示。可见,数据集样本中4个特征属性的中位数均靠近零点,没有异常值出现。步骤3绘制散点图,探索样本数据两两特征之间的关系。【参考代码】plt.figure()舱J建绘图对象foriinrange(4):forjinrange(4):plt.subplot(4.4,j+l) plt.scatter(data :.i ,data :,j ) pk.xlabel(namesj) plt.ylabel(namesi) plt.tightjayout() plt.show()#绘制散点图腿整图形布局【运彳福果】 程运彳谩果如图所示,4个特征属性之间存在明显的相互关系-5 0

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 金融/证券 > 金融资料

copyright@ 2008-2023 1wenmi网站版权所有

经营许可证编号:宁ICP备2022001189号-1

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第壹文秘网,我们立即给予删除!