Hadoop Yarn 简介
YARN是hadoop2.0引入的集群资源管理系统。用户可以将各种服务框架部署在YARN上,有YARN进行统一的管理和资源分配。
YARN 架构
ResourceManager
ResourceManager 通常在独立的机器上以后台进程的形式运行,它是整个集群资源的主要协调者和管理者。ResourceManager 负责给用户提交的所有应用程序分配资源,它根据应用程序优先级、队列容量、ACLs、数据位置等信息,做出决策,然后以共享的、安全的、多租户的方式制定分配策略,调度集群资源。
NodeManager
NodeManager 是YARN集群中的每个具体节点的管理者。主要负责该节点内所有容器的生命周期的管理,监视资源和跟踪节点健康。具体如下: • 启动时向 ResourceManager 注册并定时发送心跳消息,等待 ResourceManager 的指令; • 维护 Container 的生命周期,监控Container 的资源使用情况; • 管理任务运行时的相关依赖,根据 ApplicationMaster 的需要,在启动 Container 之前将需要的程序及其依赖拷贝到本地。
ApplicationMaster
在用户提交一个应用程序时,YARN回启东一个轻量级进程ApplicationMaster。ApplicationMaster 负责协调来自 ResourceManager 的资源,并通过 NodeManager 简史容器内资源的使用情况,同时还负责任务的监控与容错。具体如下: • 根据应用的运行状态来决定动态计算资源需求; • 向ResourceManager申请资源,监控申请的资源的使用情况; • 跟踪任务状态和进度,报告资源的使用情况和应用的进度信息;
- 负责任务的容错。
Contain
Contain
是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。当AM向RM申请资源时,RM 为AM返回的资源是用Contain
表示的。YARN会为每个任务分配一个Contain
,该任务只能使用该Contain
中描述的资源。ApplicationMaster
可在Container
内运行任何类型的任务。例如:MapReduce ApplicationMaster
请求一个容器来启动map或reduce任务,而Giraph ApplicationMaster
请求一个容器来运行Giraph任务。
YARN工作原理
Client
提交作业到YARN上;Resource Manager
选择一个Node Manager
,启动一个Container
并运行Application Master
实例;Application Master
根据实际需要向Resource Manager
请求更多的Container
资源(如果作业很小,应用管理器会选择在其自己的JVM中运行任务);Application Master
通过获取到的Container
资源执行分布式计算。
YARN工作原理详述
- 作业提交
client 调用 job.waitForCompletion
方法,想整个集群提交MapReduce作业(第1步)。新的作业ID(应用ID)由资源管理器分配(第2步)。作业的client核实作业的输出,计算输入的split,将作业的资源(包括Jar包,配置文件,split信息)拷贝给HDFS(第3步)。最后,通过调用资源管理器的 submitApplication()来提交作业(第4步)。
- 作业初始化
当资源管理器收到subminApplication()的请求时,就将该请求转发给调度器(scheduler),调度器分配(container),然后资源管理器在该container内启动应用程序管理器进程,有节点管理器监控(第5步)。
MapReduce 作业的应用管理器是一个主类为 MRAppMaster 的 Java 应用,其通过创造一些 bookkeeping 对象来监控作业的进度, 得到任务的进度和完成报告 (第 6 步)。然后其通过分布式文件系统得到由客户端计算好的输入 split(第 7 步),然后为每个输入 split 创建一个 map 任务, 根据 mapreduce.job.reduces 创建 reduce 任务对象。
- 任务分配
如果作业很小, 应用管理器会选择在其自己的 JVM 中运行任务。
如果不是小作业, 那么应用管理器向资源管理器请求 container 来运行所有的 map 和 reduce 任务 (第 8 步)。这些请求是通过心跳来传输的, 包括每个 map 任务的数据位置,比如存放输入 split 的主机名和机架 (rack),调度器利用这些信息来调度任务,尽量将任务分配给存储数据的节点, 或者分配给和存放输入 split 的节点相同机架的节点。
- 任务运行 当一个任务由资源管理器的调度器分配给一个 container 后,应用管理器通过联系节点管理器来启动 container(第 9 步)。任务由一个主类为 YarnChild 的 Java 应用执行, 在运行任务之前首先本地化任务需要的资源,比如作业配置,JAR 文件, 以及分布式缓存的所有文件 (第 10 步。 最后, 运行 map 或 reduce 任务 (第 11 步)。
YarnChild 运行在一个专用的 JVM 中, 但是 YARN 不支持 JVM 重用。
-
进度和状态更新 YARN 中的任务将其进度和状态 (包括 counter) 返回给应用管理器, 客户端每秒 (通 mapreduce.client.progressmonitor.pollinterval 设置) 向应用管理器请求进度更新, 展示给用户。
-
作业完成 除了向应用管理器请求作业进度外, 客户端每 5 分钟都会通过调用 waitForCompletion() 来检查作业是否完成,时间间隔可以通过 mapreduce.client.completion.pollinterval 来设置。作业完成之后, 应用管理器和 container 会清理工作状态, OutputCommiter 的作业清理方法也会被调用。作业的信息会被作业历史服务器存储以备之后用户核查。
提交作业到YARN上
这里以提交 Hadoop Examples 中计算 Pi 的 MApReduce 程序为例,相关 Jar 包在 Hadoop 安装目录的 share/hadoop/mapreduce
目录下:
# 提交格式: hadoop jar jar包路径 主类名称 主类参数
# hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.15.2.jar pi 3 3