YARN和MapReduce的内存设置参考

编程基础 • 2024-12-09 23:30 • 阅读 64

如何确定Yarn中容器Container，Mapreduce相关参数的内存设置，对于初始集群，由于不知道集群的类型(如cpu密集、内存密集)我们需要根据经验提供给我们一个参考配置值，来作为基础的配置。

完成这一任务有两种方式，确定YARN和MapReduce的内存设置，我们可以使用HDP工具脚本进行内存配置设定

运行hdp-configuration-utils.py 这个Python脚本(下载地址：hdp-configuration-utils）来计算YARN、MapReduce需要的内存，执行以下命令

python hdp-configuration-utils.py options

其中可选项如下：

注：需要python26的运行环境

我们可以使用-h或-help来显示描述选项的帮助信息。

例子

运行下面的命令

python hdp-configuration-utils.py -c 16 -m 64 -d 4 -k True

结果如下：

手动计算YARN和MapReduce内存配置设置

接下来我们将描述如何基于特定的硬件，手工的设置YARN和MapReduce内存。

YARN可以考虑集群中所有节点的可用的计算机资源。基于可用的资源，YARN会沟通协调应用程序(如：mapReduce)需要的资源。YARN会为每一个应用提供相应的容器Container。容器Container是YARN的基本处理单，是内存和CPU资源的一种封装。

在Hadoop集群中，平衡内存RAM、处理器cpu和磁盘的使用是非常重要的。作为一般的推荐，为每个磁盘和每个核分配两个容器，为集群的利用率提供了最好的平衡。

当为一个集群决定合适的YARN和MapReduce内存设置时，从可用的硬件资源开始，注意每个节点的以下值：

RAM(内存的数量)

CORES(CPU的核数)

DISKS(磁盘的数目)

整个针对YARN和MapReduce可用的RAM数，应该考虑预留的内存。预留的内存主要用于系统进程占用和其它Hadoop进程(如Hbase)。

预留的内存=保留栈内存+Hbase预留内存(如果Hbase是部署在同一台机器上)

我们通常会使用下表来决定预留内存的大小

每个节点的总内存	推荐系统保留的内存	推荐为hbase保留的内存
4GB	1GB	1GB

今天的文章 YARN和MapReduce的内存设置参考分享到此就结束了，感谢您的阅读。