HDFS与YARN如何协同配置

时间：2026-04-25 16:30

HDFS与YARN协同配置：让数据存储与资源管理无缝对接在Hadoop生态里，HDFS和YARN堪称黄金搭档，一个管数据存储，一个管资源调度。想让它们默契配合，高效运转，关键就在于正确的协同配置。下面这份配置指南，可以说是搭建稳定Hadoop集群的必经之路。 1 配置HDFS：打好数据地基 HD

HDFS与YARN协同配置：让数据存储与资源管理无缝对接

在Hadoop生态里，HDFS和YARN堪称黄金搭档，一个管数据存储，一个管资源调度。想让它们默契配合，高效运转，关键就在于正确的协同配置。下面这份配置指南，可以说是搭建稳定Hadoop集群的必经之路。

HDFS与YARN如何协同配置

1. 配置HDFS：打好数据地基

HDFS是数据仓库，配置得当才能保证数据安全和高可用。

1.1 修改`core-site.xml`

这个文件定义了Hadoop的核心属性，其中最关键的是告诉系统默认文件系统在哪。

fs.defaultFS：这是HDFS的“门牌号”，所有客户端都通过这个URI访问。通常设置为NameNode的主机名和端口。
```
  fs.defaultFS
  hdfs://namenode:8020
```

1.2 修改`hdfs-site.xml`

这里配置的是HDFS服务本身的详细参数，直接关系到数据可靠性和存储路径。

dfs.replication：数据块的副本数。设为3意味着每个数据块会在集群中存3份，这是兼顾可靠性与存储开销的常用值。
```
  dfs.replication
  3
```
dfs.namenode.name.dir：NameNode存储元数据（如文件目录树）的本地目录路径。务必确保这个目录所在磁盘可靠且空间充足。
```
  dfs.namenode.name.dir
  /path/to/namenode/data
```
dfs.datanode.data.dir：DataNode存储实际数据块的本地目录路径。可以配置多个目录，用逗号分隔，以利用多块磁盘。
```
  dfs.datanode.data.dir
  /path/to/datanode/data
```

2. 配置YARN：搭建资源调度中心

YARN是集群的“大脑”，负责给各种计算任务分配CPU和内存。

2.1 修改`yarn-site.xml`

YARN的核心配置都在这里，重点是定义资源管理器和节点管理器的行为。

yarn.resourcemanager.hostname：指定ResourceManager运行在哪台机器上。集群中的所有节点都需要知道这个地址。
```
  yarn.resourcemanager.hostname
  resourcemanager
```
yarn.nodemanager.aux-services：NodeManager需要提供的辅助服务。对于运行MapReduce任务而言，“mapreduce_shuffle”是必须的，它负责在Map和Reduce阶段之间传输数据。
```
  yarn.nodemanager.aux-services
  mapreduce_shuffle
```
yarn.nodemanager.resource.memory-mb：定义该NodeManager节点可以分配给容器的物理内存总量（单位MB）。这个值需要根据机器实际内存扣除系统和其他服务所需后谨慎设定。
```
  yarn.nodemanager.resource.memory-mb
  8192
```
yarn.nodemanager.resource.cpu-vcores：定义该NodeManager节点可分配给容器的虚拟CPU核心总数。同样，需要根据物理核心数合理规划。
```
  yarn.nodemanager.resource.cpu-vcores
  4
```

3. 配置MapReduce（如果使用）

虽然YARN可以支持多种计算框架，但MapReduce依然是经典。要让MapReduce跑在YARN上，只需一个关键配置。

3.1 修改`mapred-site.xml`

mapreduce.framework.name：这个参数必须设为“yarn”，告诉MapReduce作业使用YARN作为资源管理框架，而不是旧的本地或经典模式。
```
  mapreduce.framework.name
  yarn
```

4. 启动HDFS和YARN：让系统跑起来

配置完成后，就可以按顺序启动服务了。通常先启动存储层，再启动资源管理层。

4.1 启动HDFS

在NameNode节点上执行以下命令，它会按顺序启动NameNode、DataNode和SecondaryNameNode。

start-dfs.sh

4.2 启动YARN

在ResourceManager节点上执行以下命令，启动ResourceManager和各个NodeManager。

start-yarn.sh

5. 验证配置：眼见为实

启动之后，千万别忘了验证服务是否真的正常。最直观的方法就是访问它们的Web管理界面。

打开浏览器，访问 https://resourcemanager:8088。如果能看到YARN的ResourceManager Web界面，上面显示着集群概况和节点列表，那就说明YARN启动成功了。
再访问 https://namenode:50070。这是HDFS的NameNode Web界面，在这里可以查看文件系统状态、数据节点存活情况等，是验证HDFS健康度的最佳窗口。

几个不容忽视的注意事项

配置和启动只是第一步，要保证集群长期稳定运行，下面这几条经验之谈值得牢记：

时间同步是底线：集群所有节点必须保持时间同步，否则可能导致数据不一致、任务失败等诡异问题。建议使用NTP服务。
网络畅通是前提：确保所有配置中用到的主机名或IP地址在节点间都能互相解析和访问，防火墙规则也需要相应放行。
参数调优是常态：上面给出的配置值是示例。实际生产中，必须根据硬件资源（内存、CPU、磁盘）、业务负载和数据规模进行细致的调整和优化。

完成以上步骤，一个具备基本功能的HDFS+YARN协同环境就搭建好了。当然，对于生产系统，这仅仅是起点，后续的安全配置、高可用设置、性能调优才是更大的挑战。

来源：https://www.yisu.com/ask/78821853.html

linux

上一篇如何调整HDFS的内存设置 下一篇Java实现抠图的三种主流方案详解

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

编程语言 · 2026-07-04

如何在ThinkPHP中实现定时任务与命令行调度方法

用ThinkPHP实现定时任务时，很多开发者第一步就卡在命令行报错上，直接输入php think your:command却无法识别——这种情况绝大多数是因为命令类的注册方式存在问题。下面先梳理几个核心要点。 ThinkPHP 6 中 think 命令如何正确触发自定义指令直接运行 php thi

编程语言 · 2026-07-04

ThinkPHP API接口防重放攻击实现方法

先说几个核心判断：API防重放攻击这件事，做对了是道防火墙，做错了就是个心理安慰。很多开发者到踩坑了才明白——验签这东西，放错位置、漏掉字段、存错nonce，每一环都能让整个安全体系直接归零。验签必须放在中间件里，不能在控制器里写 ThinkPHP 的请求生命周期中，中间件是唯一能在路由匹配、参数

编程语言 · 2026-07-04

ThinkPHP文件上传必须验证扩展名安全必要性分析

在使用ThinkPHP进行文件上传时，ext扩展名验证通常是开发者首先接触的关键环节。但你真的了解它的实际工作原理吗？它仅比对文件名后缀，而不读取文件内容，甚至对空格和大小写都极其敏感。更为重要的是——它是TP文件上传验证五层防线中不可忽视的第一道关卡，一旦配置遗漏，整个validate验证链将直接

编程语言 · 2026-07-04

ThinkPHP关联模型自动写入与更新使用教程

需要明确的是，ThinkPHP关联模型并没有提供所谓的“自动写入更新”魔法开关。所谓的“自动”功能，实际上都需要开发者手动编写配置逻辑才能生效。核心原则在于：主模型和从模型必须分开独立处理，时间戳字段和业务字段需依靠修改器或钩子接管；批量操作则要规规矩矩地绕过模型逻辑来执行——只有理解透彻这些要点

编程语言 · 2026-07-04

BoxLayout中仅居中一个组件其他默认左对齐

在 Java Swing 中使用 BoxLayout 的 Y_AXIS 方向布局时，很多初学者容易掉进一个常见陷阱：希望将某个组件单独设置为中心对齐，但当调用 `setAlignmentX(CENTER_ALIGNMENT)` 后，却发现其他组件也跟着发生了偏移，完全达不到预期效果。实际上，关键之处