《大数据分析课件.pptx》由会员分享,可在线阅读,更多相关《大数据分析课件.pptx(75页珍藏版)》请在第壹文秘上搜索。
1、大数据引领我们走向数据智能化时代大数据引领我们走向数据智能化时代大数据分析大数据分析大数据的定义理解什么是大数据大数据时代的背景1大数据的定义理解大数据的“4V”特征2大数据的构成3大数据时代的背景 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不
2、息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle 上每天需要处理24PB 的数据数据量增加TBTBPBPBZBZBEBEB根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据
3、量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临大数据时代的背景20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。大数据时代的背景体量Volume多样性Variety价值密度Value速度Velocity非结构化数据非结构化数据的超大规模和增长的超大规模和增长占占总数据量的总数据量的8090%8090%比结构化数据增长快比
4、结构化数据增长快1010倍到倍到5050倍倍是传统数据仓库的是传统数据仓库的1010倍到倍到5050倍倍大数据的大数据的异构和多样性异构和多样性很多不同形式(文本、图像、视频、机器数据)很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显无模式或者模式不明显不连贯的语法或句义不连贯的语法或句义大量的不相关信息大量的不相关信息对未来趋势与模式的可预测分析对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能深度复杂分析(机器学习、人工智能VsVs传统商务传统商务智能智能( (咨询、报告等)咨询、报告等)实时分析实时分析而非批量式分析而非批量式分析数据输入、处理与丢弃数据输入、处理
5、与丢弃立竿见影而非事后见效立竿见影而非事后见效大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。Value 价值价值 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. 价值密度低价值密度低,是大数据的一个典型特征是大数据的一个典型特征. 2010年海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。 一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SI
6、M卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。Variety 多样性多样性企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源. 文本/图片/视频 等非非结构结构化化/ /半半结构结构化化数数据据能够在不同的数据类型中能够在不同的数据类型中, ,进行交叉分析的技术进行交叉分析的技术, ,是大数据的是大数据的核心技术之一核心技术之一.
7、.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.非非结构结构化化数数据据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。Velocity 速度速度 1s 是临界点. 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的. 实时处理的要求实时处理的要求, ,是区别大数据引用和传统数据仓库技术是区别大数据引用和传统数据仓库技术, ,BIBI技术的关键差别之一技术的关键差别之一.Volume 数据量数据量PBPB是大数据
8、層次的临界点是大数据層次的临界点. . KBKB-MBMB-GBGB-TBTB-PBPB-EBEB-ZBZB-YBYB-N NB B-DBDB大数据不仅仅是大数据不仅仅是“大大”多大?PB 级比大大更重要的是数据的复杂性数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值指指数数型增型增长长的海量的海量数数据据所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(锡全球研究院(MGI)估计,全球企业)估计,全球企业2010年在硬盘上存储了年在硬盘上存储了超过超过7EB(1EB等于等于10亿亿GB)的新数据,而消费
9、者在)的新数据,而消费者在PC和笔和笔记本等设备上存储了超过记本等设备上存储了超过6EB新数据。新数据。1EB数据相当于美国国数据相当于美国国会图书馆中存储的数据的会图书馆中存储的数据的4000多倍。事实上,我们如今产生如多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的生提供商会处理掉他们所产生的90%的数据(比如手术过程中的数据(比如手术过程中产生的几乎所有实时视频图像)。产生的几乎所有实时视频图像)。大数据 = 海量数据 + 复杂类型的数据海量交易数据:企业内部的经营交易信息
10、主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。大数据的构成大数据的技术与应用大数据怎么用大数据技术要解决的问题1大数据的技术与应用大数据的相关技术2大数据的应用实例3Volume海量的数据规模Variety多样的数据类型ValueVe
11、locity快速的数据流转发现数据价值大数据技术要解决的问题软件是大数据的引擎软件是大数据的引擎和数据中心(Data Center) 一样,软件是大数据的驱动力.软件改变世界软件改变世界! !大数据生态大数据生态:软件是引擎软件是引擎大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT 领域新一代的技术与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据技术要解
12、决的问题技术领域的挑战1、对现有数据库管理技术的挑战传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-Distributed Database) ,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。2、经典数据库技术并没有考虑数据的多类别(variety)SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3、实时性的技术挑战:一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理
13、的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。网络架构、数据中心、运维的挑战:技术架构的挑战:人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。 分析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真 大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件
14、系统等计算结果展现:云计算;标签云;关系图等一些相关技术 存储结构化数据:p 海量数据的查询、统计、更新等操作效率低非结构化数据p 图片、视频、word、pdf、ppt等文件存储p 不利于检索、查询和存储半结构化数据p 转换为结构化存储p 按照非结构化存储 解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术ETL数据众包(CrowdSouring)数据众包数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外包给非特定的大众网络。
15、数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理分布式文件系统分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统Google文件系统(Google File System,GFS)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过
16、软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。分布式文件系统GFS将整个系统分为三类角色:Client(客户端)、Master(主服务器)、Chunk Server(数据块服务器)。分布式文件系统Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。分布式文件系统一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。非关系型数据库NoSQL 关系型数据库的局限性 难以满足高并发读写的需求 难以满足对海量数据高效率存储和访问的需求 难以满足对数据库高可扩展性和高可用性的需求非关系型数据库NoSQL NoSQL 数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段