《大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算.docx》由会员分享,可在线阅读,更多相关《大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算.docx(2页珍藏版)》请在第壹文秘上搜索。
1、大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算1.简述MapReduce工作原理答:工作原理:1)将大规模数据集分成若干个小数据片段。2)将每个小数据片段传给不同的计算节点。3)计算节点使用MaP函数对每个小数据片段进行处理,将每个数据片段转换成多个键值对。4)将输出的键值对按照键进行排序,以便于后续的RedUCe操作。5)将排序后的键值对传给不同的计算节点。6)计算节点使用RedUCe函数对每个键值对进行处理,将相同键的所有值合并在一起。7)最终愉出Reduce函数的结果。2.简述SPark工作原理答:SPark工作原理:首先看中间是一个SPark集群,可以理解为
2、是SPark的StandaIone集群,集群中有6个节点左边是Spark的客户端节点,这个节点主要负责向Spark集群提交任务,假设在这里我们向Spark集群提交了一个任务那这个Spark任务肯定会有一个数据源,数据源在这我们使用HDFS,就是让Spark计算HDFS中的数据。第六章HBaSe和HiVe数据管理1.简述HBase工作原理的理解答:HBaSe的工作原理:答:1.数据存储:HBase的数据存储是基于HDFS的分布式文件系统,它将数据分成多个块并存储在不同的服务器上。每个块都有一个唯一的块ID,这个ID可以用来定位块的位置。HBaSe的数据存储是按照列族和列来组织的,每个列族可以包含
3、多个列,每个列都有一个唯一的列ID。2 .数据访问:HBaSe的数据访问是基于行键的,每个行键都对应着一行数据。当用户需要访问一行数据时,HBaSe会根据行键找到对应的块,并从块中读取数据。HBaSe支持随机读写和批量读写,用户可以根据自己的需求选择不同的读写方式。3 .数据复制:HBaSe的数据复制是基于Had。P的复制机制,它可以将数据复制到多个服务器上,以提高数据的可靠性和可用性。HBaSe的数据复制是异步的,当数据发生变化时,HBaSe会将变化记录到WAL(WriteAheadLog)中,并异步地将变化复制到其他服务器上。4 .数据一致性:HBaSe的数据一致性是通过ZOOKeePer
4、来实现的,ZooKeePer是一个分布式的协调服务,它可以协调多个服务器之间的状态。当HBaSe的数据发生变化时,ZooKeeper会通知所有的服务器,以保证数据的一致性。2.简述Hive工作原理的理解答:Web服务器的工作原理:连接过程:是Web服务器与其浏览器之间建立的连接。检查连接过程是否实现。用户可以找到并打开虚拟文件套接字。该文件的建立意味着连接过程已经成功建立。请求过程:Web浏览器利用socket文件向其服务器发出各种请求。响应过程:在请求过程中发出的请求通过使用HTTP协议传输到Web服务器,然后执行任务处理。然后,通过使用HP协议将任务处理的结果传送到网络浏览器,并且在网络浏览器上显示所请求的界面。关闭连接:是最后一步一响应过程完成后,Web服务器与其浏览器断开连接的过程。Web服务器的上述四个步骤联系紧密,逻辑严密,可以支持多进程、多线程以及多进程、多线程混合的技术。