《数据挖掘教学大纲.docx》由会员分享,可在线阅读,更多相关《数据挖掘教学大纲.docx(12页珍藏版)》请在第壹文秘上搜索。
1、课程编号:6001420363数据挖掘课程教学大纲吉林财经大学二。五年八月数据挖掘课程教学大纲一、课程基本信息1 .课程编号:60014203632 .英文名称:DataMining3 .课程模块:专业限选课4 .课程学时:总计36学时,其中,实验(践)8学时5 .学分:26 .先(预)修课程:概率与统计,数据库原理7 .适用专业:计算机科学与技术、电子商务、信息管理与信息系统8 .修订时间:2015.8二、课程简介数据挖掘是管理科学与信息工程学院开设的一门重要的专业限选课程。本课程主要讲授数据挖掘的基本概念,原理、方法和技术,具体包括:数据的预处理、分类预测、关联挖掘、聚类分析等内容。通过学
2、习,使学生理解数据挖掘的基本流程,掌握数据挖掘的基本理论和技术,熟悉数据挖掘成果的表达;掌握数据挖掘的基本方法,能熟练地应用数据挖掘技术对现实数据进行有效的分析,能够结合Clementine软件从大量统计数据中获取有价值的信息。三、课程教学目标数据挖掘是高级数据处理和分析技术。通过本课程学习,使学生了解数据挖掘这种现代数据分析和知识挖掘方法的思想与技术,了解数据挖掘的基本理论,掌握重要的数据挖掘方法,掌握如何利用Clementine实现数据分析和挖掘,并使学生具有进一步学习的基础与能力。四、教学内容与要求第一章数据挖掘和Clementine使用概述【教学目的与要求】本章作为绪论,其目的是让学生
3、对数据挖掘技术有一个总体的认识。因此,主要内容是对数据挖掘技术的概念、产生背景、发展趋势以及应用等进行提炼和概括,并熟悉Clementine软件的使用环境。要求学生掌握以下内容:数据挖掘的发展数据挖掘基本知识数据挖掘功能数据挖掘应用数据挖掘的热点问题熟悉Clementine软件【教学重点】1、数据挖掘概念2、数据挖掘分类【教学难点】IxClementine操作基础【教学内容】8.1 数据挖掘的产生背景1、数据挖掘产生的背景2、数据挖掘的发展3、数据挖掘概述8.2 什么是数据挖掘1、数据挖掘概念2、数据挖掘分类3、数据挖掘体系结构8.3 Clementine软件概述IsClementine的酉己
4、置2、Clementine操作基础第二章Clementine数据管理【教学目的与要求】本章中的数据管理主要是指数据挖掘中的数据预处理部分。对数据进行预处理,不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用。数据预处理一般包括:数据清理,数据集成,数据变换,数据归约等方法。要求学生掌握本章讲授的所有数据管理技术。【教学重点】1、数据源节点(SoUrCeS)2、记录选项节点(ReCOrdc)PS)3、字段选项节点(FieldOps)【教学难点】【教学内容】8.4 数据源节点(SoUrCeS)1、从开放数据库中导入数据2、从文本文件中读取数据3、导入EXCel格式的数据4、用
5、户手动创建数据8.5 记录选项节点(RecordOps)Ix选择节点(Select)2、对数据的抽样(SamPIe)3、修正数据集中的不均匀性(BaIanCe)4、统计汇总(Aggregate)5、对节点数据的排序6、区分节点来清除重复记录8.6 字段选项节点(FieldOps)1、变量说明2、变量值的重新计算3、变量类别值的调整4、生成新变量5、变量值的离散化处理6、生成样本集分割变量第三章Clementine数据的基本描述分析【教学目的与要求】基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。描述集中趋势的描述性统计量一般有均值、中位数和众数;描述离
6、散程度的描述性统计量一般有方差、标准差和极差。要求学生掌握Clementine数据的基本分析方法。【教学重点】1、数据质量探索2、数据基本描述分析【教学难点】1、两分类变量相关性的研究【教学内容】8.7 数据质量探索1、数据的基本描述与质量探索2、离群点和极端值的修正3、缺失值的替补4、数据质量管理的其他功能8.8 数据基本描述分析1、计算基本描述统计量2、绘制散点图8.9 两分类变量相关性的研究1、两分类变量相关性的图形分析2、两分类变量相关性的数值分析8.10 总体的均值比较8.11 量重要性分析第四章关联规则挖掘【教学目的与要求】关联规则是形如XTY的蕴涵式,其中,X和Y分别称为关联规则
7、的先导(antecedent或left-hand-side,LHS)和后继(ConSeqllent或right-hand-side,RHS)o其中,关联规则XY,存在支持度和信任度。本章对关联规则挖掘中的概念、方法、算法进行全面的分析和讲解。由于关联规则挖掘是数据挖掘技术中研究最早、成果最多、相对比较成熟的分支,因此本章重点在于一些经典理论和算法、热点问题的介绍。要求学生掌握以下内容:关联规则相关概念Apriori算法在Clementine中应用Apriori算法【教学重点】1、关联规则相关概念2、Apriori算法【教学难点】1、序列模式挖掘【教学内容】8.12 联规则概述Ix基本概念2、关
8、联规则表示3、关联规则挖掘算法简介8.13 Apriori算法1、Apriori算法生成频繁项集的过程2、Apriori算法从频繁项集产生关联规则8.14 在Clementine中应用Apriori算法8.15 列模式挖掘1、序列与序列模式2、AprioriAII算法3、在Clementine中应用序列模式挖掘第五章分类与预测【教学目的与要求】。分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。预测可以涉及数据值预测和类标记预测,但预测通常指值预测。两者的区别是,分类是用来预测数据对象的类标记,而预测则是估计某些空缺或未知
9、值。分类与预测在数据挖掘中是一项非常重要的方面,本章对分类与预测的基本概念与步骤、经典的方法以及有关的问题进行了阐述。要求学生掌握如下内容:分类和预测数据分析形式 ID3算法 C4.5算法 logistic回归分析【教学重点】Ix决策树概述2、ID3算法3、C4.5算法【教学难点】1、logistic回归分析【教学内容】5.1 分类与决策树概述1、分类和预测数据分析形式介绍2、决策树概述5.2 ID3、C4.5与C5.0算法及应用1、信息熠计算2、决策树归纳策略3、ID3算法及缺点4、C4.5算法5、C5.0算法及优点6、在Clementine中应用C5.05.3 二项IOgiStiC回归分析
10、5.4 二项IogiStiC回归分析应用第六章聚类分析【教学目的与要求】聚类是将数据分类到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。聚类是数据挖掘技术中一个重要组成部分,内容很多,因此要求学生掌握聚类分析原理、基本方法和主要算法。【教学重点】1、聚类分析原理2、主要
11、聚类方法分类【教学难点】IsK-means算法2、两步聚类算法【教学内容】6.1 聚类分析的一般问题1、聚类分析介绍2、聚类分析应用领域3、聚类分析原理4、主要聚类方法分类6.2 Clementine的k-means聚类及应用IxK-means算法2、K-means算法的优缺点3、在Clementine中应用K-Means9 .3Clementine的两步聚类及应用Is两步聚类算法2、Clementine的两步聚类应用五、实践环节实验1:一个完整的数据挖掘过程【实验目的】K理解数据挖掘过程2、熟练掌握Record选项卡中各功能节点的使用3、熟练掌握FieId选项卡中各功能节点的使用【实验内容】
12、本实验数据源是“drug.txt”,以往有大批患有同种疾病的不同病人,在服用了五种药物中的一种之后都取得了同样的治疗效果。这里的数据是随机挑选的部分病人服用药物前的基本临床检查数据,包括血压(BP1分为高血压High、正常NOrmaI、低血压LOw)、胆固醇(Cholesterol,分为正常Normal和高胆固醇High)、唾液中钠元素(Na)和钾元素(K)含量,以及病人年龄(Age)、性别(Sex,包括男M和女F)等。通过数据分析发现以往处方适用的规律,给出不同临床特征病人更适合服用那种药物的建议,为未来医生填写处方提供参考。实验2:在Spss-Clementine中进行关联规则挖掘【实验目
13、的】1、理解关联规则挖掘原理2、掌握Apriori节点和GRI节点使用3、用Spss-Clementine软件实现基本的关联分析【实验内容】结合老师所提供数据,做如下实验:1、分析哪些商品会和啤酒一起购买2、分析不同性别、年龄以及家庭主妇们有怎样的消费偏好3、探寻不同购买物品之间的联系,为货架的摆放提供依据。4、探寻购买不同商品(以酒和饮料为例)的顾客的特征,确定促销信息发放的对象。实验3:使用BinaryClassifier节点比较不同模型的优劣【实验目的】1、理解分类挖掘原理2、掌握“二元分类器”节点的使用【实验内容】本次实验将使用系统自带PrTLCUStomerjTainLSaV数据作为
14、数据源。从数据上看,在过去的活动中最多的记录数都是在Premiumaccountcampaign下。Campaign值为整数定义类型节点(例如:2=Premiumaccount)o数据中也包含了“响应”(对建议的接受与否)的值域:(0=no,and1三yes),它将是数据挖掘的目标、预测的对象。基于顾客的属性,例如收入、年龄、每个月的交易次数等,用这些信息构建或者训练一个模型来预测“响应”率。希望预测数据中的response,看看预测结果与实际结果匹配的程度。实验4:在Clementine中使用K-means进行聚类分析【实验目的】1、理解聚类分析挖掘原理2、掌握K-means节点使用【实验内
15、容】1、本次实验将使用系统自带DEMO文件夹中的snapshottrainN.db数据作为数据源。通过使用K-means建立模型,主要是根据收集的个人的一系列属性把人群进行聚类分析,并分为k(这里取5)类的过程。2、现有数据drik.savt收集了16种饮料的热量(calorie)x咖啡因(caffeine)钠(sodium)及价格(price)四个变量的值。现在希望利用这四个变量对这16种饮料进行聚类。3、分析经济发展水平。这里,以我国31个省市自治区2008年各地区经济发展的数据K-Meas.sav为例(在“数据与案例”文件夹中),讨论K-Means的具体操作。变量从xl到xll依次表示:人口数及分性别人口数,反映各地的人口水平;出生预期寿命和每万人平均病床数,反映各地区人民健康水平;大专以上文化程度人口比例反