大数据计算 Spark

大数据计算 Spark#

在本章节将介绍Spark的两种部署模式,Standalone模式和Yarn模式。可视化安装中支持Standalone模式部署;命令行安装支持Standalone、Yarn两种部署模式。

Standalone模式需要准备至少3台主机,Yarn模式需要准备至少1台主机,各个节点上即将安装的组件如下表所示:

Mode

Role

oushu1

oushu2

oushu3

oushu4

IP

192.168.1.11

192.168.1.12

192.168.1.13

192.168.1.14

Standalone

Spark Master

active

standby

no

no

Spark Worker

yes

yes

yes

no

History Server

yes

no

no

no

Spark Client

no

no

no

yes

Yarn

Spark Client

yes

no

no

yes

  • Spark Master表示Spark的资源管理节点。资源管理节点HA采用的主备模式,分为active、standby两类。

  • Spark Worker表示Spark的计算节点,为Spark集群提供计算资源。

  • History Server表示Spark历史服务,记录了Spark Application执行的状态历史。

  • Spark Client表示Spark Yarn模式下提交Spark Application的客户端。

备注

每个节点都需要配置/etc/hosts,上表中的主机名称需要在每台机器的/etc/hosts中追加

192.168.1.11 oushu1
192.168.1.12 oushu2
192.168.1.13 oushu3
192.168.1.14 oushu4