《大数据概述及其数据分析案例.pptx》由会员分享,可在线阅读,更多相关《大数据概述及其数据分析案例.pptx(34页珍藏版)》请在第壹文秘上搜索。
1、 大数据概论 大数据总述大数据处理框架大数据分析、挖掘大数据可视化展示大数据应用案例大数据总述大数据概念 研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 大数据指的是所涉及的数据规模大到无法通过人脑甚至主流软件工具,在合理时间内达到采集、存储、分析、并整理成为帮助企业更好地经营决策的资讯。 “大数据”这一概念的提出。 全球知名咨询公司麦肯锡大数据:下一个创新、竞争和生产率前沿提出:数据已经渗透到当今每一个行业和业务领域,成为重要的生产因素。麦肯锡应该是比较早进行研究和应用大数据的公司,但并
2、不是首次提出这个概念的。 DT大数据特点多样性多样性-Variety-Variety快速性快速性-Velocity-Velocity4V4V特征特征真实性真实性-Veracity-Veracity大容量大容量- -VolumnVolumn数据规模大,而且大规模增长 数据来源渠道广泛,类型复杂多变 不仅是采集速度快,而且要求处理速度快 数据的准确度和数据价值密度是否高 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 大数据的重点不
3、在于“大”,而在于数据本身。人工智能 (AI) 机器学习 (ML)深度学习(DL) 大数据(Big Data)几大领域间的图谱关系大数据处理框架大数据主流处理框架 Hadoop是一种专是一种专用于批处理的大数用于批处理的大数据框架。据框架。Hadoop包包含多个组件:含多个组件: HDFS、YARN、MapReduce。通过配合使用可处通过配合使用可处理批数据。理批数据。Hadoop的 处 理 功 能 来 自的 处 理 功 能 来 自MapReduce引擎。引擎。 Storm是一种流式是一种流式处理框架,常用于实时处理框架,常用于实时分析、机器学习、持续分析、机器学习、持续计算、分布式远程调用
4、计算、分布式远程调用和和ETL等领域。等领域。Storm的的部署管理简单,在同类部署管理简单,在同类的 流 式 计 算 工 具 ,的 流 式 计 算 工 具 ,Storm的性能也是出众。的性能也是出众。 Spark是包含流处理是包含流处理能力的批处理框架,可能力的批处理框架,可作为独立集群,或可与作为独立集群,或可与Hadoop集 成 并 取 代集 成 并 取 代 MapReduce引擎。与引擎。与M a p Re d u c e 不 同 ,不 同 ,Spark的数据处理工作的数据处理工作全部在内存中进行,且全部在内存中进行,且所有中间态的处理结果所有中间态的处理结果均存储在内存中。均存储在内
5、存中。 Samza是一种与是一种与Kafka消息系统紧密绑消息系统紧密绑定的流处理框架。虽定的流处理框架。虽然然Kafka可用于很多流可用于很多流处理系统,但按照设处理系统,但按照设计,计,Samza可以更好地可以更好地发挥发挥Kafka独特的架构独特的架构优势和保障。优势和保障。 Flink是一种可以是一种可以处理批处理任务的处理批处理任务的流处理框架。该技流处理框架。该技术可将批处理数据术可将批处理数据视作具备有限边界视作具备有限边界的数据流,借此将的数据流,借此将批处理任务作为流批处理任务作为流处理的子集加以处处理的子集加以处理。为所有处理任理。为所有处理任务采取流处理为先务采取流处理为
6、先的方法会产生一系的方法会产生一系列有趣的副作用列有趣的副作用。HadoopHadoop生态 分布式文件系统是Hadoop最核心的部件,主管数据存储。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。HDFS(Hadoop Distributed File System) MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约
7、,以得到最终结果。Mapreduce HBase是一个针对结构化数据的面向列的数据库。提供了对大规模数据的随机、实时读写访问。HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。HbaseHadoop 程序运行原理SparkSpark整体架构 Spark提供了多种高级工具:提供了多种高级工具:Spark SQL应用于即时查询、应用于即时查询、Spark Streaming应用于流应用于流式计算、式计算、Mllib应用于机器学习、应用于机器学习、GraphX应用于图处理。应用于图处理。 Spark可以基于自带的可以基于自带的standalone集群管理
8、器独立运行,也可以部署在集群管理器独立运行,也可以部署在Apach Mesos和和Hadoop YARN等集群管理器上运行。等集群管理器上运行。 Spark可以访问存储在可以访问存储在HDFS、Hbase、本地文件系统等上的数据,支持文本文件以、本地文件系统等上的数据,支持文本文件以及任何及任何Hadoop的的InputFormat。Spark 特点高效性易用性无缝性全面性 Spark可以与Hadoop无缝结合:使用YARN作为它的资源管理器。并可以读取HDFS、Hbase等一切Hadoop的数据。 Spark基于内存的计算比Hadoop的MR快近100倍。 基于硬盘的计算比MR快10倍。 S
9、park可以提供full-stack的解决方案:Spark的内存计算、基于Spark SQL的交互式查询、基于Spark streaming的流式计算、基于Mllib的机器学习。 Spark提供了大量的数据操作算子,不像Hadoop,只有map和reduce两种操作。 Spark支持Java、Scala、Python API。支持交互式的Python和Scala是Shell。Spark Rdd RDD-Resilient Distributed Datasets(弹性分布式数据集),意为容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一
10、组丰富的操作来操作这些数据。 RDD是在集群节点上的不可变的、已分区的集合对象。可以通过并行转换的方式来创建如(map, filter 等等),它必须是可序列化的。 RDD提供了两种类型的操作:transformation和action。transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD。action是得到一个值,或者一个结果所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。大数据分析与挖掘数据分析工具介绍SASSps
11、sExcelMatlab SPSS(Statistical Product and Service Solutions)“统计产品与服务解决方案”软件。SPSS for Windows是一个组合式软件包,它集数据录入、整理、分析功能于一身。它和SAS、BMDP并称为国际上最有影响的三大统计软件。 Excel 是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。MATLAB主要专注于工程和科学计算。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等。Python Pyth
12、on完全免费,众多开源的科学计算库都提供了Python的调用接口。Python有着丰富的扩展库,可以轻易完成各种高级任务,开发者可以用Python实现完整应用程序所需的各种功能。RR是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;完整连贯的统计分析工具;优秀的统计作图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。 SAS (Statistical Analysis System)是一个模块化、集成化的大型应用软件系统。 SAS由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学
13、方法、计量经济学与预测等等。SAS已被广泛应用于政府,科研,教育和金融等不同领域。数据分析方法数据预处理数据预处理模型建立模型建立模型评价模型评价探索性分析探索性分析数据质量分析:数据质量分析的主要任务是检查原始数据中是否存在脏数据。数据特征分析:对数据进行质量分析以后,可以通过绘制图表、计算某些特征量等进行数据的特征分析。数据清洗:删除原始数据集中的无关数据、重复数据,噪声数据平滑、处理缺失值、异常值等。数据变换:对数据进行规范化处理,数据归一、连续属性离散化、属性构造。数据规约:数据规约后产生更小但保持原数据完整性的新数据集,提高建模效率和准确性。根据分析目标和数据形式,选用合适的机器学习
14、算法,建立分类与预测、聚类分析、关联规则、偏差检测等模型等等。模型分类与预测的评价方法有:绝对误差、均方误差、混淆矩阵等等。数据分析步骤数据分析步骤数据分析方法数据分析方法机器学习监督学习机器学习分类算法机器学习回归算法机器学习聚类算法机器学习关联分析算法深度学习 深度学习模型的“深”意味着神经网络的结构深,由至少3层组成,深度模型一层的输出作为下一层的输入。通过这种方式,可以实现对输入信息进行分级表达。深度学习与传统模式识别方法的最大不同在于它所采用的特征是从大数据中自动学习得到,而非采用手工设计。 目前,已经涌现出很多相对成熟的深度学习框架,如Caffe,CNTK,DeepLearning
15、4j,Keras,MXNet和TensorFlow等等。u DeepLearning4j是一个面向生产环境和商业应用的高成熟度深度学习框架,可与Hadoop和Spark集成,即插即用。u TensorFlow框架本身并不是分布式的,但可以通过Spark实现分布式。 TensorFlowOnSpark 为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习。 通过结合深度学习框架 TensorFlow 和大数据框架 Apache Spark 、Apache Hadoop 的显著特征,TensorFlowOnSpark 能够在GPU和CPU服务器集群上实现分布式深度
16、学习。深度学习简单介绍大数据可视化展示数据可视化意义 数据可视化是指将数据以视觉形式来呈现,如图表或地图,以帮助人们了解这些数据的意义。 文本形式的数据很混乱(更别提有多空洞了),而可视化的数据可以帮助人们快速、轻松地提取数据中的含义。用可视化方式,您可以充分展示数据的模式,趋势和相关性,而这些可能会在其他呈现方式难以被发现。大数据可视化形式传统的表现形式,如:柱状图、折线图、饼图、散点图、箱线图等等。现代表现手法也有多种形式:矩形树图、漏斗图、平行坐标系图、矩形相关图等等。数据可视化图例数据可视化图例数据可视化图例大数据应用案例场景描述 某餐饮公司的困惑? 通过前期信息化的建设( 客户关系管理系统、前厅管理系统、后厨管理系统、财务管理系统、物资管理系统),此餐饮公司已经积累了大量的历史数据。 能不能找到一种方法可帮助公司从这些数据中洞察商机,提取价值?分析挖掘过程 感谢各位聆听 谢谢!