使用 Ansible 快速部署 HBase 集群

sksm

2022-04-30

98 查看

保存已保存已移除 0

背景

出于数据安全的考虑，自研了一个低成本的时序数据存储系统，用于存储历史行情数据。

系统借鉴了 InfluxDB 的列存与压缩策略，并基于 HBase 实现了海量存储能力。

由于运维同事缺乏 Hadoop 全家桶的运维经验，只能由我这个研发临时兼职，亲自指挥亲自部署了。

Hadoop 发行版选择

目前可选的方案并不多，主要有：

CDH 目前中小企业选型首选的发行版
Amibari 最为灵活的且可定制的发行版
Apache 最原始的发行版

CDH 的缺点：

Hadoop 组件的版本老旧，不支持新的 API
JDK 版本受限，无法受益于新版 JDK 带来的性能提升
存在大量已知且未修复的 Bug，为后续运维埋下隐患
新版本的 CDH 不再免费，无法免费升级

Amibari 的缺点：

文档较少，构建困难（前端组件版本较旧，构建直接报错）
该项目已经退役，未来不再进行维护

Apache 的缺陷：

部署流程复杂，版本兼容可能会踩坑
监控系统不完善，自己搭建需要一定的动手能力

最终方案

系统规划现状：

合规严格要求，必须避免版权纠纷
集群规模不大，节点数量小于 50
没有 Hadoop 相关研发能力，无法自主修复 Bug
需要保证查询性能，最好能用上 ZGC 或 ShenandoahGC

最终敲定基于原始的 Apache 发行版搭建 HBase 集群。

版本选择

HBase 组件

版本选择如下：

Adoptium JDK
HBase 2.4.11 (JDK 17)
Hadoop 3.2.3 (JDK 8)
Zookeeper 3.6.3 (JDK 17)

Hadoop 版本

Hadoop 3.3.x 之后不再使用 native 版本的 snappy 与 lz4（相关链接），而最新的 HBase 稳定版 2.4.x 版尚未适配该变更，因此选择 3.2.x 版本。

而 Hadoop 3.2.x 依赖 Zookeeper 3.4.14 的客户端，无法运行在 JDK14 以上的环境（参考案例），因此使用 JDK 8 进行部署。

Zookeeper 版本

Zookeeper 3.6.x 是自带 Prometheus 监控版本中最低的，并且高版本 Zookeeper 保证了对低版本客户端的兼容性，因此选择该版本。并且该版本已经支持 JDK 11 部署，因此可以放心的将 JRE 升级为 JDK 17 进行部署。

JDK 发行版

JDK 17 是首个支持 ZGC 的 LTS 版本。因 Oracle JDK17 暂不支持 ShenandoahGC，最终选择 Adoptium JDK。网上有朋友分享过在 JDK 15 上部署 CDH 版 HBase 的经验，但需要打一个 Patch，具体步骤参考附录。

运维工具

为了弥补 Apache 发行版难以运维的缺点，需要借助两个高效的开源运维工具：

Ansible

一款简单易用的自动化部署工具

支持幂等部署，减少部署过程中出错概率
通过 ssh 实现通信，侵入性低，无需安装 agent
playbook 可以将运维操作文档化，方便他人接手

Ansible 版本的分界线是 2.9.x，该版本是最后一个支持 Python 2.x 的版本。为了适应现有的运维环境，最终选择该版本。

不过有条件还是建议升级到 Python 3.x 以上，并使用更新版本的 Ansible。毕竟有些 Bug 只在新版本修复，不会同步至低版本。

Prometheus

新一代监控告警平台

独特的 PromQL 提供灵活高效的查询能力
自带 TSDB 与 AlertManager，部署架构简单
生态组件丰富
- 通过 JMX Exporter 实现监控指标接入
- 通过 Grafana 实现监控指标的可视化

没有历史包袱，可以直接选择最新版。

配置详解

为了保证配置变更的可追溯性，使用 Git 新建了一个工程来维护部署脚本，整个工程的目录结构如下：

. ├── hosts ├── ansible.cfg ├── book │   ├── config-hadoop.yml │   ├── config-hbase.yml │   ├── config-metrics.yml │   ├── config-zk.yml │   ├── install-hadoop.yml │   ├── sync-host.yml │   └── vars.yml ├── conf │   ├── hadoop │   │   ├── core-site.xml │   │   ├── hdfs-site.xml │   │   ├── mapred-site.xml │   │   ├── workers │   │   └── yarn-site.xml │   ├── hbase │   │   ├── backup-masters │   │   ├── hbase-site.xml │   │   └── regionservers │   ├── metrics │   │   ├── exports │   │   │   ├── hmaster.yml │   │   │   ├── jmx_exporter.yml │   │   │   └── regionserver.yml │   │   └── targets │   │       ├── hadoop-cluster.yml │   │       ├── hbase-cluster.yml │   │       └── zk-cluster.yml │   └── zk │       ├── myid │       └── zoo.cfg └── repo     ├── hadoop     │   ├── apache-zookeeper-3.6.3-bin.tar.gz     │   ├── hadoop-3.2.3.tar.gz     │   ├── hbase-2.4.11-bin.tar.gz     │   ├── hbase-2.4.11-src.tar.gz     │   ├── hbase-server-2.4.11.jar     │   ├── OpenJDK17U-jdk_x64_linux_hotspot_17.0.2_8.tar.gz     │   ├── OpenJDK8U-jdk_x64_linux_hotspot_8u322b06.tar.gz     │   └── repo.md5     └── metrics         └── jmx_prometheus_javaagent-0.16.1.jar

各个目录的作用

repo ：存储用于部署的二进制的文件
book ：存储 ansible-playbook 的自动化脚本
conf ：存储 HBase 组件的配置模板

hosts 文件

对主机进行分类，便于规划集群部署：

[newborn]  [nodes] 172.20.72.1 hostname='my.hadoop1 my.hbase1 my.zk1' 172.20.72.2 hostname='my.hadoop2 my.hbase2 my.zk2' 172.20.72.3 hostname='my.hadoop3 my.hbase3 my.zk3' 172.20.72.4 hostname='my.hadoop4 my.hbase4'  [zk_nodes] my.zk1 ansible_host=172.30.73.209 myid=1 my.zk2 ansible_host=172.30.73.210 myid=2 my.zk3 ansible_host=172.30.73.211 myid=3  [hadoop_nodes] my.hadoop[1:4]  [namenodes] my.hadoop1 id=nn1 rpc_port=8020 http_port=9870 my.hadoop2 id=nn2 rpc_port=8020 http_port=9870  [datanodes] my.hadoop[1:4]  [journalnodes] my.hadoop1 journal_port=8485 my.hadoop2 journal_port=8485 my.hadoop3 journal_port=8485  [resourcemanagers] my.hadoop3 id=rm1 peer_port=8032 tracker_port=8031 scheduler_port=8030 web_port=8088 my.hadoop4 id=rm2 peer_port=8032 tracker_port=8031 scheduler_port=8030 web_port=8088  [hbase_nodes] my.hbase[1:4]  [hmasters] my.hbase[1:2]  [regionservers] my.hbase[1:4]  [all:vars] ansible_user=admin deploy_dir=/opt data_dir=/data

ansible.cfg 文件

ansile 的基础配置文件：

[defaults] inventory      = ./hosts host_key_checking = False

conf 目录

conf/zk 目录

zoo.cfg

# ZK 与客户端间的心跳间隔，单位 mills tickTime=2000 # Leader 与 Follower 间建立连接的超时时间，单位为 tick initLimit=30 # Leader 与 Follower 间通信的超时时间，单位为 tick syncLimit=5 # 快照目录 dataDir={{ zk_data_dir }} # WAL目录，最好为其指定一个独立的空闲设备（建议使用 SSD） dataLogDir={{ zk_data_log_dir }} # 使用默认通信端口 clientPort=2181 # 增加最大连接数 maxClientCnxns=2000 # 开启 Prometheus 监控 metricsProvider.className=org.apache.zookeeper.metrics.prometheus.PrometheusMetricsProvider metricsProvider.httpHost={{ ansible_host | default(inventory_hostname) }} metricsProvider.httpPort=7000 metricsProvider.exportJvmInfo=true # 配置集群信息 # server.{myid}={server-address}:{rpc-port}:{election-port} {% for host in groups['zk_nodes'] %} server.{{ hostvars[host]['myid'] }}={{ hostvars[host]['ansible_host'] }}:2888:3888 {% endfor %}

myid

{{ myid }}

conf/hadoop 目录

core-site.xml

<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration>   <!-- 指定 NameNode 地址 (使用集群名称替代) -->   <property>     <name>fs.defaultFS</name>     <value>hdfs://{{ hdfs_name }}</value>   </property>   <!-- 指定数据存储目录 -->   <property>     <name>hadoop.tmp.dir</name>     <value>{{ hadoop_data_dir }}</value>   </property>   <!-- 指定 Web 用户权限（默认用户 dr.who 无法上传文件） -->   <property>      <name>hadoop.http.staticuser.user</name>      <value>{{ ansible_user }}</value>   </property>   <!-- 指定 DFSZKFailoverController 所需的 ZK -->   <property>     <name>ha.zookeeper.quorum</name>     <value>{{ groups['zk_nodes'] | map('regex_replace','^(.+)$','//1:2181') | join(',') }}</value>   </property> </configuration>

hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration>  <!-- NameNode 数据存储目录 -->  <property>    <name>dfs.namenode.name.dir</name>    <value>file://${hadoop.tmp.dir}/name</value>  </property>  <!-- DataNode 数据存储目录 -->  <property>    <name>dfs.datanode.data.dir</name>    <value>file://${hadoop.tmp.dir}/data</value>  </property>  <!-- JournalNode 数据存储目录（绝对路径，不能带 file://） -->  <property>    <name>dfs.journalnode.edits.dir</name>    <value>${hadoop.tmp.dir}/journal</value>  </property>  <!-- HDFS 集群名称 -->  <property>    <name>dfs.nameservices</name>    <value>{{ hdfs_name }}</value>  </property>  <!-- 集群 NameNode 节点列表 -->  <property>    <name>dfs.ha.namenodes.{{hdfs_name}}</name>    <value>{{ groups['namenodes'] | map('extract', hostvars) | map(attribute='id') | join(',') }}</value>  </property>  <!-- NameNode RPC 地址 -->  {% for host in groups['namenodes'] %}  <property>    <name>dfs.namenode.rpc-address.{{hdfs_name}}.{{hostvars[host]['id']}}</name>    <value>{{host}}:{{hostvars[host]['rpc_port']}}</value>  </property>  {% endfor %}  <!-- NameNode HTTP 地址 -->  {% for host in groups['namenodes'] %}  <property>    <name>dfs.namenode.http-address.{{hdfs_name}}.{{hostvars[host]['id']}}</name>     <value>{{host}}:{{hostvars[host]['http_port']}}</value>  </property>  {% endfor %}  <!-- NameNode 元数据在 JournalNode 上的存放位置 -->  <property>    <name>dfs.namenode.shared.edits.dir</name>    <value>qjournal://{{groups['journalnodes'] | zip( groups['journalnodes']|map('extract', hostvars)|map(attribute='journal_port') )| map('join', ':') | join(';') }}/{{hdfs_name}}</value>  </property>  <!-- fail-over 代理类 (client 通过 proxy 来确定 Active NameNode) -->  <property>    <name>dfs.client.failover.proxy.provider.my-hdfs</name>    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>  </property>  <!-- 隔离机制 (保证只存在唯一的 Active NameNode) -->  <property>    <name>dfs.ha.fencing.methods</name>    <value>sshfence</value>  </property>  <!-- SSH 隔离机制依赖的登录秘钥 -->  <property>    <name>dfs.ha.fencing.ssh.private-key-files</name>    <value>/home/{{ ansible_user }}/.ssh/id_rsa</value>  </property>  <!-- 启用自动故障转移 -->  <property>     <name>dfs.ha.automatic-failover.enabled</name>    <value>true</value>  </property>  <!-- NameNode 工作线程数量 -->  <property>    <name>dfs.namenode.handler.count</name>    <value>21</value>  </property> </configuration>

yarn-site.xml

<?xml version="1.0"?> <configuration>  <!-- 启用 ResourceManager HA -->  <property>    <name>yarn.resourcemanager.ha.enabled</name>    <value>true</value>  </property>    <!-- YARN 集群名称 -->  <property>    <name>yarn.resourcemanager.cluster-id</name>    <value>{{yarn_name}}</value>  </property>   <!-- ResourceManager 节点列表 -->  <property>    <name>yarn.resourcemanager.ha.rm-ids</name>    <value>{{ groups['resourcemanagers'] | map('extract', hostvars) | map(attribute='id') | join(',') }}</value>  </property>    <!-- ResourceManager 地址 -->  {% for host in groups['resourcemanagers'] %}  <property>    <name>yarn.resourcemanager.hostname.{{hostvars[host]['id']}}</name>    <value>{{host}}</value>  </property>  {% endfor %}  <!-- ResourceManager 内部通信地址 -->  {% for host in groups['resourcemanagers'] %}  <property>      <name>yarn.resourcemanager.address.{{hostvars[host]['id']}}</name>      <value>{{host}}:{{hostvars[host]['peer_port']}}</value>  </property>  {% endfor %}  <!-- NM 访问 ResourceManager 地址 -->  {% for host in groups['resourcemanagers'] %}  <property>      <name>yarn.resourcemanager.resource-tracker.{{hostvars[host]['id']}}</name>      <value>{{host}}:{{hostvars[host]['tracker_port']}}</value>  </property>  {% endfor %}  <!-- AM 向 ResourceManager 申请资源地址 -->  {% for host in groups['resourcemanagers'] %}  <property>      <name>yarn.resourcemanager.scheduler.address.{{hostvars[host]['id']}}</name>      <value>{{host}}:{{hostvars[host]['scheduler_port']}}</value>  </property>  {% endfor %}  <!-- ResourceManager Web 入口 -->  {% for host in groups['resourcemanagers'] %}  <property>      <name>yarn.resourcemanager.webapp.address.{{hostvars[host]['id']}}</name>      <value>{{host}}:{{hostvars[host]['web_port']}}</value>  </property>  {% endfor %}  <!-- 启用自动故障转移 -->  <property>    <name>yarn.resourcemanager.recovery.enabled</name>    <value>true</value>  </property>  <!-- 指定 Zookeeper 列表 -->  <property>    <name>yarn.resourcemanager.zk-address</name>    <value>{{ groups['zk_nodes'] | map('regex_replace','^(.+)$','//1:2181') | join(',') }}</value>  </property>  <!-- 将状态信息存储在 Zookeeper 集群-->  <property>    <name>yarn.resourcemanager.store.class</name>    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>  </property>  <!-- 减少 ResourceManager 处理 Client 请求的线程-->  <property>    <name>yarn.resourcemanager.scheduler.client.thread-count</name>    <value>10</value>  </property>    <!-- 禁止 NodeManager 自适应硬件配置（非独占节点）-->  <property>    <name>yarn.nodemanager.resource.detect-hardware-capbilities</name>    <value>false</value>  </property>  <!-- NodeManager 给容器分配的 CPU 核数-->  <property>    <name>yarn.nodemanager.resource.cpu-vcores</name>    <value>4</value>  </property>  <!-- NodeManager 使用物理核计算 CPU 数量（可选）-->  <property>    <name>yarn.nodemanager.resource.count-logical-processors-as-cores</name>    <value>false</value>  </property>    <!-- 减少 NodeManager 使用内存-->  <property>    <name>yarn.nodemanager.resource.memory-mb</name>    <value>4096</value>  </property>    <!-- 容器内存下限 -->  <property>    <name>yarn.scheduler.minimum-allocation-mb</name>    <value>1024</value>  </property>    <!-- 容器内存上限 -->  <property>    <name>yarn.scheduler.maximum-allocation-mb</name>    <value>2048</value>  </property>    <!-- 容器CPU下限 -->  <property>    <name>yarn.scheduler.minimum-allocation-vcores</name>    <value>1</value>  </property>    <!-- 容器CPU上限 -->  <property>    <name>yarn.scheduler.maximum-allocation-vcores</name>    <value>2</value>  </property>    <!-- 容器CPU上限 -->  <property>    <name>yarn.scheduler.maximum-allocation-vcores</name>    <value>2</value>  </property>  <!-- 关闭虚拟内存检查 -->  <property>    <name>yarn.nodemanager.vmem-check-enabled</name>    <value>false</value>  </property>  <!-- 设置虚拟内存和物理内存的比例 -->  <property>    <name>yarn.nodemanager.vmem-pmem-ratio</name>    <value>2.1</value>  </property>  <!-- NodeManager 在 MR 过程中使用 Shuffle（可选）-->  <property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduce_shuffle</value>  </property>   </configuration>

mapred-site.xml

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration>  <!-- MapReduce 运行在 YARN 上 -->  <property>    <name>mapreduce.framework.name</name>    <value>yarn</value>  </property>  <!-- MapReduce Classpath -->  <property>    <name>yarn.app.mapreduce.am.env</name>    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>  </property>  <property>    <name>mapreduce.map.env</name>    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>  </property>  <property>    <name>mapreduce.reduce.env</name>    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>  </property>  <!-- MapReduce JVM 参数（不允许换行） -->  <property>    <name>yarn.app.mapreduce.am.command-opts</name>    <value>-Xmx1024m --add-opens java.base/java.lang=ALL-UNNAMED</value>  </property>  <property>    <name>mapred.child.java.opts</name>    <value>--add-opens java.base/java.lang=ALL-UNNAMED -verbose:gc -Xloggc:/tmp/@taskid@.gc</value>  </property> </configuration>

workers

{% for host in groups['datanodes'] %} {{ host }} {% endfor %}

conf/hbase 目录

hbase-site.xml

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration>   <property>     <name>hbase.tmp.dir</name>     <value>./tmp</value>   </property>   <property>     <name>hbase.rootdir</name>     <value>hdfs://{{ hdfs_name }}/hbase</value>   </property>   <property>     <name>hbase.master.maxclockskew</name>     <value>180000</value>   </property>   <property>     <name>hbase.cluster.distributed</name>     <value>true</value>   </property>   <property>     <name>hbase.zookeeper.quorum</name>       <value>{{ groups['zk_nodes'] | map('regex_replace','^(.+)$','//1:2181') | join(',') }}</value>   </property> </configuration>

regionservers

{% for host in groups['regionservers'] %} {{ host }} {% endfor %}

backup-masters

{% for host in groups['hmasters'][1:] %} {{ host }} {% endfor %}

conf/metrics/exports 目录

jmx_exporter.yml

--- # https://github.com/prometheus/jmx_exporter startDelaySeconds: 5 ssl: false lowercaseOutputName: true lowercaseOutputLabelNames: true rules:  # ignore service - pattern: Hadoop<service=(/w+), name=([/w-.]+), sub=(/w+)><>([/w._]+)   name: $4   labels:     name: "$2"     group: "$3"   attrNameSnakeCase: true # ignore service - pattern: Hadoop<service=(/w+), name=(/w+)-([^<]+)><>([/w._]+)   name: $4   labels:     name: "$2"     entity: "$3"   attrNameSnakeCase: true # ignore service - pattern: Hadoop<service=(/w+), name=([^<]+)><>([/w._]+)   name: $3   labels:     name: "$2"   attrNameSnakeCase: true - pattern: .+

hmaster.yml

--- startDelaySeconds: 5 ssl: false lowercaseOutputName: true lowercaseOutputLabelNames: true blacklistObjectNames: - "Hadoop:service=HBase,name=JvmMetrics*" - "Hadoop:service=HBase,name=RegionServer,*" rules: - pattern: Hadoop<service=HBase, name=Master, sub=(/w+)><>([/w._]+)_(num_ops|min|max|mean|median|25th_percentile|75th_percentile|90th_percentile|95th_percentile|98th_percentile|99th_percentile|99.9th_percentile)   name: $2   labels:     group: "$1"     stat: "$3"   attrNameSnakeCase: true - pattern: Hadoop<service=HBase, name=Master, sub=(/w+)><>([/w._]+)   name: $2   labels:     group: "$1"   attrNameSnakeCase: true - pattern: Hadoop<service=HBase, name=Master><>([/w._]+)   name: $1   attrNameSnakeCase: true - pattern: Hadoop<service=HBase, name=(/w+), sub=(/w+)><>([/w._]+)   name: $3   labels:     name: "$1"     group: "$2"   attrNameSnakeCase: true - pattern: Hadoop<service=HBase, name=(/w+)><>([/w._]+)   name: $2   labels:     name: "$1"   attrNameSnakeCase: true - pattern: .+

regionserver.yml

--- startDelaySeconds: 5 ssl: false lowercaseOutputName: true lowercaseOutputLabelNames: true blacklistObjectNames: - "Hadoop:service=HBase,name=JvmMetrics*" - "Hadoop:service=HBase,name=Master,*" rules: - pattern: Hadoop<service=HBase, name=RegionServer, sub=Regions><>namespace_([/w._]+)_table_([/w._]+)_region_(/w+)_metric_([/w._]+)   name: $4   labels:     group: Regions     namespace: "$1"     table: "$2"     region: "$3"   attrNameSnakeCase: true - pattern: Hadoop<service=HBase, name=RegionServer, sub=Tables><>namespace_([/w._]+)_table_([/w._]+)_columnfamily_([/w._]+)_metric_([/w._]+)   name: $4   labels:     group: Tables     namespace: "$1"     table: "$2"     column_family: "$3"   attrNameSnakeCase: true - pattern: Hadoop<service=HBase, name=RegionServer, sub=(/w+)><>namespace_([/w._]+)_table_([/w._]+)_metric_([/w._]+)_(num_ops|min|max|mean|median|25th_percentile|75th_percentile|90th_percentile|95th_percentile|98th_percentile|99th_percentile|99.9th_percentile)   name: $4   labels:     group: "$1"     namespace: "$2"     table: "$3"     stat: "$5"   attrNameSnakeCase: true - pattern: Hadoop<service=HBase, name=RegionServer, sub=(/w+)><>namespace_([/w._]+)_table_([/w._]+)_metric_([/w._]+)   name: $4   labels:     group: "$1"     namespace: "$2"     table: "$3"   attrNameSnakeCase: true - pattern: Hadoop<service=HBase, name=RegionServer, sub=(/w+)><>([/w._]+)_(num_ops|min|max|mean|median|25th_percentile|75th_percentile|90th_percentile|95th_percentile|98th_percentile|99th_percentile|99.9th_percentile)   name: $2   labels:     group: "$1"     stat: "$3"   attrNameSnakeCase: true - pattern: Hadoop<service=HBase, name=RegionServer, sub=(/w+)><>([/w._]+)   name: $2   labels:     group: "$1"   attrNameSnakeCase: true - pattern: Hadoop<service=HBase, name=(/w+), sub=(/w+)><>([/w._]+)   name: $3   labels:     name: "$1"     group: "$2"   attrNameSnakeCase: true - pattern: Hadoop<service=HBase, name=(/w+)><>([/w._]+)   name: $2   labels:     name: "$1"   attrNameSnakeCase: true - pattern: .+

conf/metrics/targets 目录

zk-cluster.yml

- targets: {% for host in groups['zk_nodes'] %}   - {{ host }}:7000 {% endfor %}   labels:     service: zookeeper

hadoop-cluster.yml

- targets: {% for host in groups['namenodes'] %}   - {{ host }}:{{ namenode_metrics_port }} {% endfor %}   labels:     role: namenode     service: hdfs  - targets: {% for host in groups['datanodes'] %}   - {{ host }}:{{ datanode_metrics_port }} {% endfor %}   labels:     role: datanode     service: hdfs  - targets: {% for host in groups['journalnodes'] %}   - {{ host }}:{{ journalnode_metrics_port }} {% endfor %}   labels:     role: journalnode     service: hdfs  - targets: {% for host in groups['resourcemanagers'] %}   - {{ host }}:{{ resourcemanager_metrics_port }} {% endfor %}   labels:     role: resourcemanager     service: yarn  - targets: {% for host in groups['datanodes'] %}   - {{ host }}:{{ nodemanager_metrics_port }} {% endfor %}   labels:     role: nodemanager     service: yarn

hbase-cluster.yml

- targets: {% for host in groups['hmasters'] %}   - {{ host }}:{{ hmaster_metrics_port }} {% endfor %}   labels:     role: hmaster     service: hbase  - targets: {% for host in groups['regionservers'] %}   - {{ host }}:{{ regionserver_metrics_port }} {% endfor %}   labels:     role: regionserver     service: hbase

book 目录

vars.yml

hdfs_name: my-hdfs yarn_name: my-yarn

sync-host.yml

--- - name: Config Hostname & SSH Keys   hosts: nodes     connection: local   gather_facts: no   any_errors_fatal: true    vars:     hostnames: |       {% for h in groups['nodes'] if hostvars[h].hostname is defined %}{{h}} {{ hostvars[h].hostname }}       {% endfor %}    tasks:      - name: test connectivity       ping:       connection: ssh      - name: change local hostname        become: true       blockinfile:           dest: '/etc/hosts'         marker: "# {mark} ANSIBLE MANAGED HOSTNAME"         block: '{{ hostnames }}'       run_once: true      - name: sync remote hostname        become: true       blockinfile:           dest: '/etc/hosts'         marker: "# {mark} ANSIBLE MANAGED HOSTNAME"         block: '{{ hostnames }}'       connection: ssh      - name: fetch exist status       stat:         path: '~/.ssh/id_rsa'       register: ssh_key_path       connection: ssh      - name: generate ssh key       openssh_keypair:         path: '~/.ssh/id_rsa'         comment: '{{ ansible_user }}@{{ inventory_hostname }}'         type: rsa         size: 2048         state: present         force: no       connection: ssh       when: not ssh_key_path.stat.exists      - name: collect ssh key       command: ssh {{ansible_user}}@{{ansible_host|default(inventory_hostname)}} 'cat ~/.ssh/id_rsa.pub'       register: host_keys  # cache data in hostvars[hostname].host_keys       changed_when: false      - name: create temp file       tempfile:         state: file         suffix: _keys       register: temp_ssh_keys       changed_when: false       run_once: true      - name: save ssh key ({{temp_ssh_keys.path}})       blockinfile:           dest: "{{temp_ssh_keys.path}}"           block: |             {% for h in groups['nodes'] if hostvars[h].host_keys is defined %}             {{ hostvars[h].host_keys.stdout }}             {% endfor %}         changed_when: false       run_once: true      - name: deploy ssh key       vars:         ssh_keys: "{{ lookup('file', temp_ssh_keys.path).split('/n') | select('match', '^ssh') | join('/n') }}"       authorized_key:         user: "{{ ansible_user }}"         key: "{{ ssh_keys }}"         state: present       connection: ssh

install-hadoop.yml

--- - name: Install Hadoop Package   hosts: newborn   gather_facts: no   any_errors_fatal: true    vars:     local_repo: '../repo/hadoop'     remote_repo: '~/repo/hadoop'     package_info:       - {src: 'OpenJDK17U-jdk_x64_linux_hotspot_17.0.2_8.tar.gz', dst: 'java/jdk-17.0.2+8', home: 'jdk17'}       - {src: 'OpenJDK8U-jdk_x64_linux_hotspot_8u322b06.tar.gz', dst: 'java/jdk8u322-b06', home: 'jdk8'}       - {src: 'apache-zookeeper-3.6.3-bin.tar.gz', dst: 'apache/zookeeper-3.6.3', home: 'zookeeper'}       - {src: 'hbase-2.4.11-bin.tar.gz', dst: 'apache/hbase-2.4.11',home: 'hbase'}       - {src: 'hadoop-3.2.3.tar.gz', dst: 'apache/hadoop-3.2.3', home: 'hadoop'}    tasks:      - name: test connectivity       ping:      - name: copy hadoop package       copy:           src: '{{ local_repo }}'           dest: '~/repo'      - name: prepare directory       become: true # become root       file:         state: directory         path: '{{ deploy_dir }}/{{ item.dst }}'         owner: '{{ ansible_user }}'         group: '{{ ansible_user }}'         mode: 0775         recurse: yes       with_items: '{{ package_info }}'      - name: create link       become: true # become root       file:         state: link         src: '{{ deploy_dir }}/{{ item.dst }}'         dest: '{{ deploy_dir }}/{{ item.home }}'         owner: '{{ ansible_user }}'         group: '{{ ansible_user }}'       with_items: '{{ package_info }}'      - name: install package       unarchive:         src: '{{ remote_repo }}/{{ item.src }}'         dest: '{{ deploy_dir }}/{{ item.dst }}'         remote_src: yes         extra_opts:           - --strip-components=1       with_items: '{{ package_info }}'      - name: config /etc/profile       become: true       blockinfile:           dest: '/etc/profile'         marker: "# {mark} ANSIBLE MANAGED PROFILE"         block: |           export JAVA_HOME={{ deploy_dir }}/jdk8           export HADOOP_HOME={{ deploy_dir }}/hadoop           export HBASE_HOME={{ deploy_dir }}/hbase           export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$PATH      - name: config zkEnv.sh       lineinfile:         path: '{{ deploy_dir }}/zookeeper/bin/zkEnv.sh'         line: 'JAVA_HOME={{ deploy_dir }}/jdk17'         insertafter: '^#/!//usr//bin'         firstmatch: yes      - name: config hadoop-env.sh       blockinfile:         dest: '{{ deploy_dir }}/hadoop/etc/hadoop/hadoop-env.sh'         marker: "# {mark} ANSIBLE MANAGED DEFAULT HADOOP ENV"         block: |           export JAVA_HOME={{ deploy_dir }}/jdk8      - name: config hbase-env.sh       blockinfile:         dest: '{{ deploy_dir }}/hbase/conf/hbase-env.sh'         marker: "# {mark} ANSIBLE MANAGED DEFAULT HBASE ENV"         block: |           export JAVA_HOME={{ deploy_dir }}/jdk17           export HBASE_MANAGES_ZK=false           export HBASE_LIBRARY_PATH={{ deploy_dir }}/hadoop/lib/native           export HBASE_OPTS="$HBASE_OPTS --add-exports=java.base/jdk.internal.access=ALL-UNNAMED --add-exports=java.base/jdk.internal=ALL-UNNAMED --add-exports=java.base/jdk.internal.misc=ALL-UNNAMED --add-exports=java.base/sun.security.pkcs=ALL-UNNAMED --add-exports=java.base/sun.nio.ch=ALL-UNNAMED --add-opens java.base/java.lang=ALL-UNNAMED --add-opens java.base/java.lang.reflect=ALL-UNNAMED --add-opens java.base/java.io=ALL-UNNAMED --add-opens java.base/java.nio=ALL-UNNAMED --add-opens java.base/jdk.internal=ALL-UNNAMED --add-opens java.base/jdk.internal.misc=ALL-UNNAMED --add-opens java.base/jdk.internal.access=ALL-UNNAMED"      - name: patch hbase       copy:         src: '{{ local_repo }}/hbase-server-2.4.11.jar'         dest: '{{ deploy_dir }}/hbase/lib'         backup: no         force: yes      - name: link hadoop config       file:         state: link         src: '{{ deploy_dir }}/hadoop/etc/hadoop/{{ item }}'         dest: '{{ deploy_dir }}/hbase/conf/{{ item }}'       with_items:          - core-site.xml         - hdfs-site.xml      - name: add epel-release repo       shell: 'sudo yum -y install epel-release && sudo yum makecache'      - name: install native libary       shell: 'sudo yum -y install snappy snappy-devel lz4 lz4-devel libzstd libzstd-devel'      - name: check hadoop native       shell: '{{ deploy_dir }}/hadoop/bin/hadoop checknative -a'       register: hadoop_checknative       failed_when: false       changed_when: false       ignore_errors: yes       environment:         JAVA_HOME: '{{ deploy_dir }}/jdk8'      - name: hadoop native status       debug:         msg: "{{ hadoop_checknative.stdout_lines }}"      - name: check hbase native       shell: '{{ deploy_dir }}/hbase/bin/hbase --config ~/conf_hbase org.apache.hadoop.util.NativeLibraryChecker'       register: hbase_checknative       failed_when: false       changed_when: false       ignore_errors: yes       environment:         JAVA_HOME: '{{ deploy_dir }}/jdk17'         HBASE_LIBRARY_PATH: '{{ deploy_dir }}/hadoop/lib/native'      - name: hbase native status       debug:         msg: "{{ hbase_checknative.stdout_lines|select('match', '^[^0-9]') | list }}"      - name: test native compresssion       shell: '{{ deploy_dir }}/hbase/bin/hbase org.apache.hadoop.hbase.util.CompressionTest file:///tmp/test {{ item }}'       register: 'compression'       failed_when: false       changed_when: false       ignore_errors: yes       environment:         JAVA_HOME: '{{ deploy_dir }}/jdk17'         HBASE_LIBRARY_PATH: '{{ deploy_dir }}/hadoop/lib/native'       with_items:         - snappy         - lz4      - name: native compresssion status       vars:         results: "{{ compression | json_query('results[*].{type:item, result:stdout}') }}"       debug:         msg: |           {% for r in results %} {{ r.type }} => {{ r.result == 'SUCCESS' }} {% endfor %}

config-zk.yml

--- - name: Change Zk Config   hosts: zk_nodes   gather_facts: no   any_errors_fatal: true    vars:     template_dir: ../conf/zk     zk_home: '{{ deploy_dir }}/zookeeper'     zk_data_dir: '{{ zk_home }}/status/data'     zk_data_log_dir: '{{ zk_home }}/status/logs'    tasks:      - name: Create data directory       file:         state: directory         path: '{{ item }}'         recurse: yes       with_items:          - '{{ zk_data_dir }}'         - '{{ zk_data_log_dir }}'      - name: Init zookeeper myid       template:         src: '{{ template_dir }}/myid'         dest: '{{ zk_data_dir }}'      - name: Update zookeeper env       become: true       blockinfile:         dest: '{{ zk_home }}/bin/zkEnv.sh'         marker: "# {mark} ANSIBLE MANAGED ZK ENV"         block: |           export SERVER_JVMFLAGS="-Xmx1G -XX:+UseShenandoahGC -XX:+AlwaysPreTouch -Djute.maxbuffer=8388608"       notify:         - Restart zookeeper service      - name: Update zookeeper config       template:         src: '{{ template_dir }}/zoo.cfg'         dest: '{{ zk_home }}/conf'       notify:         - Restart zookeeper service    handlers:     - name: Restart zookeeper service       shell:         cmd: '{{ zk_home }}/bin/zkServer.sh restart'

config-hadoop.yml

--- - name: Change Hadoop Config   hosts: hadoop_nodes   gather_facts: no   any_errors_fatal: true    vars:     template_dir: ../conf/hadoop     hadoop_home: '{{ deploy_dir }}/hadoop'     hadoop_conf_dir: '{{ hadoop_home }}/etc/hadoop'     hadoop_data_dir: '{{ data_dir }}/hadoop'    tasks:      - name: Include common vars       include_vars: file=vars.yml      - name: Create data directory       become: true       file:         state: directory         path: '{{ hadoop_data_dir }}'         owner: '{{ ansible_user }}'         group: '{{ ansible_user }}'         mode: 0775         recurse: yes      - name: Sync hadoop config       template:         src: '{{ template_dir }}/{{ item }}'         dest: '{{ hadoop_conf_dir }}/{{ item }}'       with_items:          - core-site.xml         - hdfs-site.xml         - mapred-site.xml         - yarn-site.xml         - workers      - name: Config hadoop env       blockinfile:         dest: '{{ hadoop_conf_dir }}/hadoop-env.sh'         marker: "# {mark} ANSIBLE MANAGED HADOOP ENV"         block: |           export HADOOP_PID_DIR={{ hadoop_home }}/pid           export HADOOP_LOG_DIR={{ hadoop_data_dir }}/logs            JVM_OPTS="-XX:+AlwaysPreTouch"           export HDFS_JOURNALNODE_OPTS="-Xmx1G $JVM_OPTS $HDFS_JOURNALNODE_OPTS"           export HDFS_NAMENODE_OPTS="-Xmx4G $JVM_OPTS $HDFS_NAMENODE_OPTS"           export HDFS_DATANODE_OPTS="-Xmx8G $JVM_OPTS $HDFS_DATANODE_OPTS"      - name: Config yarn env       blockinfile:         dest: '{{ hadoop_conf_dir }}/yarn-env.sh'         marker: "# {mark} ANSIBLE MANAGED YARN ENV"         block: |           JVM_OPTS=""           export YARN_RESOURCEMANAGER_OPTS="$JVM_OPTS $YARN_RESOURCEMANAGER_OPTS"           export YARN_NODEMANAGER_OPTS="$JVM_OPTS $YARN_NODEMANAGER_OPTS"

config-hbase.yml

--- - name: Change HBase Config   hosts: hbase_nodes   gather_facts: no   any_errors_fatal: true    vars:     template_dir: ../conf/hbase     hbase_home: '{{ deploy_dir }}/hbase'     hbase_conf_dir: '{{ hbase_home }}/conf'     hbase_data_dir: '{{ data_dir }}/hbase'     hbase_log_dir: '{{ hbase_data_dir }}/logs'     hbase_gc_log_dir: '{{ hbase_log_dir }}/gc'    tasks:      - name: Include common vars       include_vars: file=vars.yml      - name: Create data directory       become: true       file:         state: directory         path: '{{ item }}'         owner: '{{ ansible_user }}'         group: '{{ ansible_user }}'         mode: 0775         recurse: yes       with_items:         - '{{ hbase_data_dir }}'         - '{{ hbase_log_dir }}'         - '{{ hbase_gc_log_dir }}'      - name: Sync hbase config       template:         src: '{{ template_dir }}/{{ item }}'         dest: '{{ hbase_conf_dir }}/{{ item }}'       with_items:          - hbase-site.xml         - backup-masters         - regionservers      - name: Config hbase env       blockinfile:         dest: '{{ hbase_conf_dir }}/hbase-env.sh'         marker: "# {mark} ANSIBLE MANAGED HBASE ENV"         block: |           export HBASE_LOG_DIR={{ hbase_log_dir }}            export HBASE_OPTS="-Xss256k -XX:+UseShenandoahGC -XX:+AlwaysPreTouch $HBASE_OPTS"           export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -Xlog:gc:{{hbase_gc_log_dir}}/gc-hmaster-%p-%t.log"           export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -Xlog:gc:{{hbase_gc_log_dir}}/gc-hregion-%p-%t.log"

config-metrics.yml

--- - name: Install Metrics Package   hosts: "{{ groups['hadoop_nodes'] + groups['hbase_nodes'] }}"   gather_facts: no   any_errors_fatal: true    vars:     local_repo: '../repo/metrics'     remote_repo: '~/repo/metrics'     template_dir: ../conf/metrics     default_conf: jmx_exporter.yml      export_tmpl: '{{template_dir}}/exports'     target_tmpl: '{{template_dir}}/targets'      metrics_dir: '{{ deploy_dir }}/prometheus'     hadoop_home: '{{ deploy_dir }}/hadoop'     hbase_home: '{{ deploy_dir }}/hbase'      jmx_exporter: 'jmx_prometheus_javaagent-0.16.1.jar'     agent_path: '{{ metrics_dir }}/{{ jmx_exporter }}'      namenode_metrics_port: 7021     datanode_metrics_port: 7022     journalnode_metrics_port: 7023     resourcemanager_metrics_port: 7024     nodemanager_metrics_port: 7025     historyserver_metrics_port: 7026      hmaster_metrics_port: 7027     regionserver_metrics_port: 7028      host_to_ip: |       { {% for h in groups['nodes'] %} {% for n in hostvars[h]['hostname'].split() %}        "{{ n }}" : "{{ h }}" ,       {% endfor %} {% endfor %} }      hadoop_metrics:       - { env: 'HDFS_NAMENODE_OPTS', conf: 'namenode.yml', port: '{{namenode_metrics_port}}',  }       - { env: 'HDFS_DATANODE_OPTS', conf: 'datanode.yml', port: '{{datanode_metrics_port}}'}       - { env: 'HDFS_JOURNALNODE_OPTS', conf: 'journalnode.yml', port: '{{journalnode_metrics_port}}' }       - { env: 'YARN_RESOURCEMANAGER_OPTS', conf: 'resourcemanager.yml', port: '{{resourcemanager_metrics_port}}' }       - { env: 'YARN_NODEMANAGER_OPTS', conf: 'nodemanager.yml', port: '{{nodemanager_metrics_port}}' }       - { env: 'MAPRED_HISTORYSERVER_OPTS', conf: 'historyserver.yml', port: '{{historyserver_metrics_port}}' }      hbase_metrics:       - { env: 'HBASE_MASTER_OPTS', conf: 'hmaster.yml', port: '{{hmaster_metrics_port}}' }       - { env: 'HBASE_REGIONSERVER_OPTS', conf: 'regionserver.yml', port: '{{regionserver_metrics_port}}'}    tasks:      - name: test connectivity       ping:      - name: copy metrics package       copy:           src: '{{ local_repo }}'           dest: '~/repo'      - name: ensure metrics dir       become: true       file:          path: '{{ metrics_dir }}'         owner: '{{ ansible_user }}'         group: '{{ ansible_user }}'         state: directory      - name: install jmx exporter       copy:         src: '{{ remote_repo }}/{{ jmx_exporter }}'         dest: '{{ metrics_dir }}/{{ jmx_exporter }}'         remote_src: yes      - name: fetch exist exporter config       stat:         path: '{{ export_tmpl }}/{{ item }}'       with_items: "{{ (hadoop_metrics + hbase_metrics) | map(attribute='conf') | list }}"       register: metric_tmpl       run_once: yes       connection: local      - name: update hadoop exporter config       vars:         metrics_ip: '{{host_to_ip[inventory_hostname]}}'         metrics_port: '{{ item.port }}'         custom_tmpl: "{{ item.conf in (metric_tmpl | json_query('results[?stat.exists].item')) }}"       template:         src: '{{ export_tmpl }}/{{ item.conf if custom_tmpl else default_conf }}'         dest: '{{ metrics_dir }}/{{ item.conf }}'       with_items: '{{ hadoop_metrics }}'       when: inventory_hostname in groups['hadoop_nodes']      - name: update hbase exporter config       vars:         metrics_ip: '{{host_to_ip[inventory_hostname]}}'         metrics_port: '{{ item.port }}'         custom_tmpl: "{{ item.conf in (metric_tmpl | json_query('results[?stat.exists].item')) }}"       template:         src: '{{ export_tmpl }}/{{ item.conf if custom_tmpl else default_conf }}'         dest: '{{ metrics_dir }}/{{ item.conf }}'       with_items: '{{ hbase_metrics }}'       when: inventory_hostname in groups['hbase_nodes']       - name: config hadoop-env.sh       blockinfile:         dest: '{{ deploy_dir }}/hadoop/etc/hadoop/hadoop-env.sh'         marker: "# {mark} ANSIBLE MANAGED DEFAULT HADOOP METRIC ENV"         block: |           {% for m in hadoop_metrics %}           export {{m.env}}="-javaagent:{{agent_path}}={{m.port}}:{{metrics_dir}}/{{m.conf}} ${{m.env}}"           {% endfor %}       when: inventory_hostname in groups['hadoop_nodes']       - name: config hbase-env.sh       blockinfile:         dest: '{{ deploy_dir }}/hbase/conf/hbase-env.sh'         marker: "# {mark} ANSIBLE MANAGED DEFAULT HBASE METRIC ENV"         block: |           {% for m in hbase_metrics %}           export {{m.env}}="-javaagent:{{agent_path}}={{m.port}}:{{metrics_dir}}/{{m.conf}} ${{m.env}}"           {% endfor %}       when: inventory_hostname in groups['hbase_nodes']      - name: ensure generated target dir       file:          path: '/tmp/gen-prometheus-targets'         state: directory       run_once: yes       connection: local      - name: generate target config to /tmp/gen-prometheus-targets       template:         src: '{{ target_tmpl }}/{{ item }}'         dest: '/tmp/gen-prometheus-targets/{{ item }}'       with_items:          - hadoop-cluster.yml         - hbase-cluster.yml         - zk-cluster.yml       run_once: yes       connection: local

操作步骤

配置中控机

安装 Ansible

必须禁用 SSH 登陆询问，否则后面的安装步骤可能卡住

初始化机器

修改 hosts 配置（必须为 IP 格式）

[nodes] 列出集群中所有节点
[newborn] 列出集群中未部署安装包的节点

执行 ansible-playbook book/sync-host.yml
执行 ansible-playbook book/install-hadoop.yml
修改 hosts 配置

[newborn] 清空该组节点

配置并启动 Zookeeper

修改 hosts 配置（必须配置 ansible_user 与 myid）

[zk_nodes] 列出集群中所有 ZK 节点

修改 book/config-zk.yml 调整 JVM 参数
执行 ansible-playbook book/config-zk.yml

配置 Hadoop

修改 hosts 配置

[hadoop_nodes] 列出集群中所有 Hadoop 节点
[namenodes] 集群中所有 NameNode（必须配置 id，rpc_port，http_port）
[datanodes] 集群中所有 DataNode
[journalnodes] 集群中所有 JournalNode（必须配置 journal_port）
[resourcemanagers] 集群中所有 ResourceManager（必须配置 id，peer_port，tracker_port，scheduler_port，web_port）

修改 book/config-hadoop.yml 调整 JVM 参数
执行 ansible-playbook book/config-hadoop.yml

启动 HDFS

在所有 JournalNode 节点上，启动 journalnode 服务

ansible journalnodes -m shell -a 'source /etc/profile && nohup hdfs --daemon start journalnode'  # 查看是否存在进程 JournalNode ansible journalnodes -m shell -a 'source /etc/profile && jps | grep JournalNode'

在 nn1 节点上，格式化 NameNode 并启动 namenode 服务

ansible 'namenodes[0]' -m shell -a 'source /etc/profile && hdfs namenode -format'  ansible 'namenodes[0]' -m shell -a 'source /etc/profile && nohup hdfs --daemon start namenode'  ansible 'namenodes[0]' -m shell -a 'source /etc/profile && jps | grep NameNode'

其余 NameNode 节点同步 nn1 的元数据信息并启动 namenode 服务

ansible 'namenodes[1:]' -m shell -a 'source /etc/profile && hdfs namenode -bootstrapStandby'  ansible 'namenodes[1:]' -m shell -a 'source /etc/profile && nohup hdfs --daemon start namenode'  ansible 'namenodes[1:]' -m shell -a 'source /etc/profile && jps | grep NameNode'

在所有 DataNode 节点上启动 datanode 服务（提前检查 DataNode 配置是否正常）

ansible datanodes -m shell -a 'source /etc/profile && nohup hdfs --daemon start datanode'  ansible datanodes -m shell -a 'source /etc/profile && jps | grep DataNode'

检查 NameNode 是否处于 Standby 状态

ansible 'namenodes[0]' -m shell -a 'source /etc/profile && hdfs haadmin -getServiceState nn1' ansible 'namenodes[0]' -m shell -a 'source /etc/profile && hdfs haadmin -getServiceState nn2'

初始化 DFSZKFailoverController 的状态

ansible 'namenodes[0]' -m shell -a 'source /etc/profile && hdfs zkfc -formatZK'

重启 HDFS 集群

ansible 'namenodes[0]' -m shell -a 'source /etc/profile && stop-dfs.sh'  ansible 'namenodes[0]' -m shell -a 'source /etc/profile && start-dfs.sh'  # 查看是否存在 DFSZKFailoverController 进程 ansible 'namenodes' -m shell -a 'source /etc/profile && jps | grep FailoverController'

检查 NameNode 是否处于 Active 状态

ansible 'namenodes[0]' -m shell -a 'source /etc/profile && hdfs haadmin -getServiceState nn1' ansible 'namenodes[0]' -m shell -a 'source /etc/profile && hdfs haadmin -getServiceState nn2'

启动 YARN

ansible 'namenodes[0]' -m shell -a 'source /etc/profile && start-yarn.sh'  # 查看是否存在进程 ResourceManager 与 NodeManager ansible 'hadoop_nodes' -m shell -a 'source /etc/profile && jps | grep Manager'

查看各个 ResourceManager 的状态，找到 Active RM

ansible 'namenodes[0]' -m shell -a 'source /etc/profile && yarn rmadmin -getServiceState rm1'  ansible 'namenodes[0]' -m shell -a 'source /etc/profile && yarn rmadmin -getServiceState rm2'

配置 HBase

修改 hosts 配置

[hbase_nodes] 列出集群中所有 HBase 节点
[hmasters] 集群中所有 HMaster
[regionservers] 集群中所有 RegionServer

修改 book/config-hbase.yml 调整 JVM 参数
执行 ansible-playbook book/config-hbase.yml

启动 HBase

ansible 'hmasters[0]' -m shell -a 'source /etc/profile && nohup start-hbase.sh'  # 查看是否存在进程 HMaster 与 RegionServer ansible 'hbase_nodes' -m shell -a 'source /etc/profile && jps | grep H'

配置监控

修改 book/install-metrics.yml 调整 JVM 参数
在 book/install-metrics.yml 定制不同节点的配置
执行 ansible-playbook book/install-metrics.yml
重启服务

# 关闭 HBase ansible 'hmasters[0]' -m shell -a 'source /etc/profile && stop-hbase.sh'  ansible 'hbase_nodes' -m shell -a 'source /etc/profile && jps | grep H'  # 关闭 Hadoop  ansible 'resourcemanagers[0]' -m shell -a 'source /etc/profile && stop-yarn.sh'  ansible 'namenodes[0]' -m shell -a 'source /etc/profile && stop-dfs.sh'  ansible 'hadoop_nodes' -m shell -a 'source /etc/profile && jps | grep -v "Jps/|QuorumPeerMain"'  # 启动 HDFS  ansible 'namenodes[0]' -m shell -a 'source /etc/profile && start-dfs.sh'  # 检查 HDFS # curl my.hadoop1:7021/metrics # curl my.hadoop1:7022/metrics # curl my.hadoop1:7023/metrics  # 启动 YARN ansible 'namenodes[0]' -m shell -a 'source /etc/profile && start-yarn.sh'  # 检查 YARN # curl my.hadoop3:7024/metrics # curl my.hadoop3:7025/metrics  # 启动 HBase ansible 'hmasters[0]' -m shell -a 'source /etc/profile && nohup start-hbase.sh'  # 检查 HBase # curl my.hbase1:7027/metrics # curl my.hbase1:7028/metrics

安装 Prometheus 与 Grafana

安装 Prometheus（参考附录）
安装 Grafana（参考附录）

附录

安装 Ansible

安装依赖

安装 pip（版本为 Python 2.7）

curl https://bootstrap.pypa.io/pip/2.7/get-pip.py -o get-pip.py  python get-pip.py --user  pip -V

安装依赖库

sudo yum install -y gcc glibc-devel zlib-devel rpm-build openssl-devel sudo yum install -y python-devel python-yaml python-jinja2 python2-jmespath

编译安装

而 Python2 仅支持 2.9 系列，因此无法通过 yum 进行安装

下载 ansible 2.9.27 源码，在本地编译安装

wget https://releases.ansible.com/ansible/ansible-2.9.27.tar.gz  tar -xf ansible-2.9.27.tar.gz  pushd ansible-2.9.27/  python setup.py build  sudo python setup.py install  popd  ansible --version

配置免密登陆

在主控机生成密钥

ssh-keygen -t rsa -b 3072 cat ~/.ssh/id_rsa.pub

受控机访问授权

cat <<EOF >> ~/.ssh/authorized_keys ssh-rsa XXX EOF

禁用受控机 SSH 登陆询问

vim /etc/ssh/ssh_config # 在 Host * 后加上 Host *         StrictHostKeyChecking no

安装 Prometheus

创建 prometheus 用户

sudo useradd --no-create-home --shell /bin/false prometheus  # 授予sudo权限 sudo visudo prometheus ALL=(ALL) NOPASSWD:ALL

在官网找到下载链接

wget https://github.com/prometheus/prometheus/releases/download/v2.35.0/prometheus-2.35.0.linux-amd64.tar.gz  tar -xvf prometheus-2.35.0.linux-amd64.tar.gz && sudo mv prometheus-2.35.0.linux-amd64 /usr/local/prometheus-2.35.0   sudo mkdir -p /data/prometheus/tsdb sudo mkdir -p /etc/prometheus  sudo ln -s /usr/local/prometheus-2.35.0 /usr/local/prometheus  sudo mv /usr/local/prometheus/prometheus.yml /etc/prometheus  sudo chown -R prometheus:prometheus /usr/local/prometheus/ sudo chown -R prometheus:prometheus /data/prometheus sudo chown -R prometheus:prometheus /etc/prometheus

添加到系统服务 (配置格式)

sudo vim /etc/systemd/system/prometheus.service  # 新增以下内容 [Unit] Description=Prometheus Server Documentation=https://prometheus.io/docs/introduction/overview/ Wants=network-online.target After=network-online.target  [Service] User=prometheus Group=prometheus Type=simple ExecStart=/usr/local/prometheus/prometheus /     --config.file=/etc/prometheus/prometheus.yml /     --storage.tsdb.path=/data/prometheus/tsdb /     --web.listen-address=:9090  [Install] WantedBy=multi-user.target

启动服务

sudo systemctl start prometheus.service  # 查看服务状态 systemctl status prometheus.service  # 查看日志 sudo journalctl -u prometheus  # 测试 curl 127.0.0.1:9090

修改配置 prometheus.yml

scrape_configs:    - job_name: "prometheus"     file_sd_configs:       - files:         - targets/prometheus-*.yml         refresh_interval: 1m    - job_name: "zookeeper"     file_sd_configs:       - files:         - targets/zk-cluster.yml         refresh_interval: 1m     metric_relabel_configs:     - action: replace       source_labels: ["instance"]       target_label: "instance"       regex: "([^:]+):.*"       replacement: "$1"    - job_name: "hadoop"     file_sd_configs:       - files:         - targets/hadoop-cluster.yml         refresh_interval: 1m     metric_relabel_configs:     - action: replace       source_labels: ["__name__"]       target_label: "__name__"       regex: "Hadoop_[^_]*_(.*)"       replacement: "$1"     - action: replace       source_labels: ["instance"]       target_label: "instance"       regex: "([^:]+):.*"       replacement: "$1"    - job_name: "hbase"     file_sd_configs:       - files:         - targets/hbase-cluster.yml         refresh_interval: 1m     metric_relabel_configs:     - action: replace       source_labels: ["instance"]       target_label: "instance"       regex: "([^:]+):.*"       replacement: "$1"     - action: replace       source_labels: ["stat"]       target_label: "stat"       regex: "(.*)th_percentile"       replacement: "p$1"

增加 targets

pushd /etc/prometheus/targets  sudo cat <<EOF >> prometheus-servers.yml - targets:   - localhost:9090   labels:     service: prometheus EOF  sudo cat <<EOF >> zk-cluster.yml - targets:   - my.zk1:7000   - my.zk2:7000   - my.zk3:7000   labels:     service: zookeeper EOF  sudo cat <<EOF >> hadoop-cluster.yml - targets:   - my.hadoop1:7021   - my.hadoop2:7021   labels:     role: namenode     service: hdfs - targets:   - my.hadoop1:7022   - my.hadoop2:7022   - my.hadoop3:7022   - my.hadoop4:7022   labels:     role: datanode     service: hdfs - targets:   - my.hadoop1:7023   - my.hadoop2:7023   - my.hadoop3:7023   labels:     role: journalnode     service: hdfs - targets:   - my.hadoop3:7024   - my.hadoop4:7024   labels:     role: resourcemanager     service: yarn - targets:   - my.hadoop1:7025   - my.hadoop2:7025   - my.hadoop3:7025   - my.hadoop4:7025   labels:     role: nodemanager     service: yarn EOF  sudo cat <<EOF >> hbase-cluster.yml - targets:   - my.hbase1:7027   - my.hbase2:7027   labels:     app: hmaster     service: hbase - targets:   - my.hbase1:7028   - my.hbase2:7028   - my.hbase3:7028   - my.hbase4:7028   labels:     app: regionserver     service: hbase EOF

安装 Grafana

安装服务

在官网找到下载链接（选择 OSS 版）：

wget https://dl.grafana.com/oss/release/grafana-8.5.0-1.x86_64.rpm sudo yum install grafana-8.5.0-1.x86_64.rpm  # 查看安装后生成的配置文件 rpm -ql grafana

修改配置 grafana.ini

sudo vim /etc/grafana/grafana.ini  # 存储路径 [paths] data = /data/grafana/data logs = /data/grafana/logs  # 管理员账号 [security] admin_user = admin admin_password = admin

启动 grafana 服务

sudo mkdir -p /data/grafana/{data,logs} && sudo chown -R grafana:grafana /data/grafana  sudo systemctl start grafana-server  systemctl status grafana-server  # 测试 curl 127.0.0.1:3000

配置 LDAP

修改配置文件 grafana.ini

sudo vim /etc/grafana/grafana.ini  # 开启 LDAP [auth.ldap] enabled = true  # 调整日志等级为 debug 方便调试（可选） [log] level = debug

增加 ldap 配置参考

sudo vim /etc/grafana/ldap.toml  [[servers]] # LDAP服务 host = "ldap.service.com" port = 389  # 访问授权 bind_dn = "cn=ldap_sync,cn=Users,dc=staff,dc=my,dc=com" bind_password = """???"""  # 查找范围 search_filter = "(sAMAccountName=%s)" search_base_dns = ["ou=Employees,dc=staff,dc=my,dc=com"]  # 用户信息映射 [servers.attributes] name = "givenname" surname = "cn" username = "cn" email =  "mail"  # 权限映射相关配置，此处忽略...