《-大数据技术课件第3章PPT内容-.docx》由会员分享,可在线阅读,更多相关《-大数据技术课件第3章PPT内容-.docx(6页珍藏版)》请在第壹文秘上搜索。
1、“大数据技术课件第3章PPT内容“1、大数据技术与应用第三章HadoOP分布式系统提纲O3.1Hadoop概述03.2Hadoop相关技术及生态系统o3.3操作实践:Hadc)OP安装与配置O习题O小结23.1HadoOP概述O3.1.1HadooP简介Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。它主要有以下几个优点。U高牢靠性U高扩展性U高效性U容错性33.1Hadoop概述3.1.2Hadoop的进展历程hadoop的进展历程,如下所示LHadoop最初是由APaCheLUCene项目的创始人DoUgCUtting开发的文本搜寻库。2.在20222、年,Nutch项目开发了
2、NDFS(NutchDistributedFileSystem),3.2022年,谷歌公司又发表了论文,阐述了MapReduce分布式编程的思想。4.2022年,Nutch开源实现了谷歌的MapReduce05,2022年2月,ApacheHadoop项目正式启动以支持MapReduce和HDFS的独立进展。6.2022年4月,雅虎公司实现了包含1000个计算节点的Hadoop集群。7.2022年,淘宝开头投入讨论基于Hadoop的系统云梯,并将其用于处理电子商务相关数据。8.2022年1月,HadooP成为APaChe顶级项目,获得了业界更为广泛的关注。43、9.2022年2月,雅虎公司宣布
3、其搜寻引擎产品部署在一个拥有1万个内核的Hadoop集群上。10.2022年7月,Hadoop打破ITB数据排序基准测试记录。11.2022年5月,Yahoo的团队使用HadOoP对ITB的数据进行排序只花了62秒时间。12.2022年7月,HadoopCore项目更名为HadoopCommon;MapReduce和HDFS成为HadOoP项目的独立子项目;AVrO和ChUkWa成为hadoop新的子项目。13.2022年5月,Avro数据传输中间件和HBaSe数据库从HadOOP项目中脱离出来,成为APaChe顶级项目。此外,IBM供应了基于Hado4、op的大数据分析软件InfoSpher
4、eBiglnsights,包括基础版和企业版。14.2022年9月,Hive数据仓库工具和Pig数据分析平台从Hadoop项目中脱离出来,成为Apache顶级项目。15.2022年1月,ZOoKeePer脱离Hadoop,成为Apache顶级项目。53.1Hadoop概述16.2022年5月,MaprTechnologies公司推出分布式文件系统和MapReduce引擎MapRDistributionforApacheHadoopo还有的是,HCataIOgLO发布,使得数据清理和归档工具可以很简单的进行处理。17.2022年8月,5、Cloudera公布了一项有益于合作伙伴生态系统的方案创建
5、一个生态系统,以便硬件供应商、软件供应商以及系统集成商可以一起探究如何使用Hadoop更好的洞察数据。18.2022年12月,Hadoopl.0.0版本发布,标志着Hadoop技术进入成熟期。19.2022年5月,Hadoop发布2.0Alpha版本,对MapReduceHDFS等部分进行了重大改进,标志着HadOOP技术进入一个新的进展阶段。20.2022年8月,HadOOPl.2.1稳定版发布。63.1Hadoop概述3.1Hadoop概述o3.1.3Hadoop原理及运行机制Hadoop的核心由3个子项目组成:LHa6、doopCommon2.HDFS3.MapReduce73.1Had
6、oop概述I1.HDFS组件HDFS(HadoopDistributedFiIeSystem)是一种特地为MapReduce这类框架下的大规模分布式数据处理而设计的文件系统。HDFS的组件主要有:NameNodeSecondaryNameNode以及DataNodeou1)NameNodeNameNode,即元数据节点。元数据节点用来管理文件系统的命名空间。它将全部文件和文件夹的元数据保存在一个文件系统树当中。这些信息也会存储在NameNode维护的两个本地磁盘文件:命名空间镜像文件(namespaceimage)7、和编辑日志文件(editlog)。NameNode还保存了一个文件包括哪些数
7、据块,分布在哪些数据节点上。然而这些信息并不存储在硬盘上,而是在系统启动的时候从数据节点收集而成的。83.1Hadoop概述u2)SecondaryNameNodeSecondaryNameNode,即从元数据节点。在Hadoop集群环境上,只有一个NameNode节点。那么,一旦NameNode节点消失故障,整个系统将会受到影响。为了提高NameNode的牢靠性,从Hadoop0.23开头引入了SecondaryNameNodeo但是,SecondaryNameNode并不是NameNode消失问题的时候的备8、用节点,它和NameNode负责不同的事情。SeCOndaryNameNode的
8、主要功能就是周期性将元数据节点命名空间的镜像文件和修改日志文件合并,以防日志文件过大。合并过后的命名空间镜像文件也在SeCondaryNameNOde保存了一份,以防元数据节点消失故障的时候,可以恢复。9u3)DataNodeDataNode,即数据节点。DataNode是文件系统中真正存储数据的地方,是HDFS文件系统中保存数据的节点。HDFS中的文件通常被分割成多个数据块,以冗余备份的形式存储在多个DataNode中。客户端(CIient)或者元数据信息(NameNode)可以向数据节点恳求写入或者读出数据块9、。而DataNOde周期性地向NameNode回报其存储的数据块信息。I2.M
9、apReduce组件MapReduce也采纳了Master/Slave(M/S)架构。它主要由以下几个组件组成:JobClientJobTrackerTaskTracker和Tasko下面分别对这几个组件进行介绍:ul)JobClient用户编写的MapReduce程序通过JobCIient提交到JobTraCker端;同时,用户可通过Ciient供应的一些接口查看作业运行状态。在HadooP内部用作业(Job)表示MaPRedUCe程序。一个MaPRedUCe程序可对应若干个作业,而每个作10、业会被分解成若干个Map/Reduce任务(Task)。IOu2)JobTrackerJobTra
10、cker主要负责MaPRedUCe的资源监控和作业调度。JobTraCker监控所TaSkTraCker与作业的健康状况,一旦发觉失败状况后,其会将相应的任务转移到其他节点;同时,JobTracker会跟踪任务的执行进度、资源使用量等信息,并将这些信息告知任务调度器,而调度器会在资源消失空闲时,选择合适的任务使用这些资源。在HadOoP中,任务调度器是一个可插拔的模块,用户可以依据自己的需要设计相应的调度器。每一个Hadoop集群中只有一个JobTrackeroIlu3)TaskTr11、ackerTaskTracker主要负责执行由JobTracker安排的任务。TaskTracker会周期
11、性地通过Heartbeat将本节点上资源的使用状况和任务的运行进度汇报给JobTracker,同时接收JobTracker发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)。u4)TasklTask分为MapTask和ReduceTask两种,均由TaSkTraCker启动,负责详细地执行M叩任务和Reduce任务的程序。12提纲o3.1Hadoop概述o3.2Hadoop相关技术及生态系统O3.3操作实践:HadOOP安装与配置O习题o小结1312、3.2HadOOP相关技术及生态系统Hadoop生态系统主要包括HDFSMapReduce、Spark、StormHBaSe、Hive、
12、PigZooKeeperAvroSqoopAmbari、HCatalogChukwaFlume、TezPhoenixMahout、Shark等HadOOP生态系统如下图所示:14Hadoop开源技术生态系统HadoopHadoop开源技术生态系统开源技术生态系统提纲。3.1Hadoop概述。3.2Hadoop相关技术及生态系统o3.3操作实践:HadOoP安装与配置o习题o小结153.3操作实践:Ha13、doop安装与配置p3.3.1JDK安装1.下载jdk-8ul31-linux-x64.tar.gz2.解压包到opt3.设置环境变量4.使配置环境变量生效5.验证Java安装是否胜利IGH
13、adoop开源技术生态系统3.3操作实践:HadoOP安装与配置P3.3.2Hadoop安装1.下载hadoop-2.7.3.tar.gz2.解压3.修改hadoopenv.sh文件4.修改coresite.ml文件5.修改hdfssite.xml文件6.修改hdfssite.ml文件7.修改hdfssite.xml文件8.修改Slaves文件9.修改文件属性10.复制Hadoop到其他14、节点17Hadoop开源技术生态系统3.3操作实践:HadOoP安装与配置P3.3.3Hadoop运行1.Namenode格式化2.启动DFS3.启动YARN4.启动HiStorySerVer5.查看进程
14、18Hadoop开源技术生态系统3.3操作实践:HadOOP安装与配置p3.3.4扫瞄Hadoop页面1.扫瞄http:/master:50070页面,查看集群信息和Datenode相关信息2.浏览http:/master:50090页面,查看SecondaryNamenode相关信息3.扫瞄http:/master:8088页面,查看集群相关信息和配15、置信息19HadOOP开源技术生态系统提纲03.1Hadoop概述o3.2Hadoop相关技术及生态系统03.3操作实践:HadOOP安装与配置o习题o小结20习题I1、简述Hadoop系统及其优点。I2、简述Hadoop原理及运行机制。I
15、3、简述HadOOP技术生态系统。14、学会JDK的安装和配置。I5、把握Hadoop的安装和配置。注:答案请参见习题答案21提纲。3.1Hadoop概述o3.2Hadoop相关技术及生态系统o3.3操作实践:HadOOP安装与配置。习题。小结22小结本章首先介绍了HadOOP海量数据分布式处理框架、Hadoop的优点以及Hadoop的进展历程,然后具体描述了HadOoP原理、运行机制以及三个重要的组件:HadoopCommon、HDFS、和MapReduceo接着简述了Hadoop开源技术生态系统的相关组件,组后重点介绍了HadOoP安装与配置,包括JDK的安装与配置、Hadoop的安装与配置、Hadoop的运行。23