部署环境准备#

本章首先介绍产品所支持的平台，然后详细阐述部署产品时集群所用节点的机架放置策略、节点的硬件规格和参数设置、外部存储的使用原则、组网规划原则，和操作系统基础软件等配置信息。

支持平台介绍#

硬件架构	硬件平台	操作系统
x86	Intel, AMD	CentOS 6.x/7.x, RedHat 6.x/7.x
arm	飞腾、龙芯、申威、兆芯、海光、鲲鹏	银河麒麟V10，统信UOS

机架放置策略#

由于产品中大多数组件在软件架构设计时采用无中心化架构或者主从架构，因此，集群中节点的机架放置策略需要分别考虑各组件的管理节点、计算和数据节点。

管理节点机架放置策略#

为防止因整个机架故障导致部分甚至所有组件服务异常的情况发生，应将各组件互为主备服务的管理/控制节点分别部署在不同的机架上。

计算节点机架放置策略#

计算节点采用无状态的设计，并不保存元数据或者数据，只需均匀地部署在各个机架上即可。

数据节点机架放置策略#

客户端在向HDFS集群写入数据时，会将数据优先写入距离自己最近的数据节点上。该距离是指网络拓扑结构中的逻辑距离。

当客户端程序与Datanode进程部署在同一主机时，那么客户端会认为距离自己最近的数据节点就是自身所在主机，其次为与客户端所在同一机架中的其他数据节点，再者为其他机架上的数据节点；
当客户端程序部署在HDFS集群之外时，即客户端所在主机不与任何集群数据节点在同一机架中时，客户端会向被随机选中的数据节点写数据。HDFS系统在随机选择数据节点时会先随机选择一个机架，然后在该机架中再随机选择一台数据节点。由于每个机架被选中的概率相同，且某一机架中每个数据节点被选中的概率也相同，那么如果数据节点不是均衡分布在各机架中，则意味着在写入数据时，节点数量较少的机架中的数据节点被选中的概率更高，进而导致集群中写入数据倾斜的现象发生。因此，HDFS集群数据节点在上架时，应按节点数量平均分配在各机架上，即各机架中数据节点数量应保持基本相同。

节点规格推荐#

节点硬件规格#

硬件	推荐配置
CPU	2路 x 12核
内存	256GB
磁盘	2组RAID5；每组8块盘（其中6块数据盘，1块校验盘，1块热备盘）；每块盘2T容量；万转SAS接口或者SSD更佳
网络	2 x 万兆数据网卡 + 1 x 千兆管理网卡

节点参数配置#

超线程参数配置在BIOS中开启（Enabled）超线程配置。通常，超线程功能在BIOS中是默认开启的，只要CPU支持超线程技术，则会自动模拟出双倍数量的物理核心。使在并行任务较多时，提高CPU的使用效率。
BMC网络参数配置在BIOS中使用所分配到的静态IPMI IP地址与子网掩码对BMC 模块的网络参数进行配置，使运维人员能够使用BMC模块对主机进行远程管理。具体配置步骤请以相应服务器厂商提供的操作手册为准。
UEFI启动模式配置部分服务器机型默认使用UEFI作为操作系统动模式，但目前操作系统大规模实施使用的镜像仅支持旧的（Legacy）启动模式，所以根据需要在部分服务器BIOS中修改“UEFI”启动模式为“Legacy”以保证操作系统的正常实施。
阵列卡参数配置目前Hadoop集群数据磁盘可选择两种配置模式，分别为多盘配RAID5和MegaRAID阵列卡的JBOD模式。默认情况下将统一配置为RAID5模式。如有特殊需求，请应用提出后进行评审，评审通过即可实施。

存储使用原则#

存储在集群中的任何文件被切分成等大小的数据块，并分布式存储在多个数据节点内置磁盘中，所以在对某个文件进行计算分析时，会将计算任务下发到存有该文件数据块的数据节点上，各计算任务以并行的方式从本地节点读取相应数据块进行计算，以此避免在做计算时的数据网络传输的消耗的带宽与时间，即所谓“移动计算比移动数据更高效”。在使用网络化存储（如SAN、NAS等）存放业务数据时，在对数据集进行分析计算时，将不可避免地涉及到数据网络传输与存储服务器的单点性能瓶颈问题。因此，如应用无特殊需求，集群应尽量避免使用外挂存储系统。

SAN存储(限制使用) HDFS系统架构的本质是将数据分布存储在多台x86服务器上，而非集中存放在某一台高性能的存储服务器上，以此来实现海量数据的分布式存储与并行访问，并且可以方便地实现存储系统的横向扩展。该架构可有效提升系统的数据吞吐量，避免在访问大量数据时，单存储服务器成为整个系统的瓶颈。因此，在集群中应避免使用集中式的SAN存储存放业务或元数据。如有特殊需求请应用提出，评审通过后即可实施。
NAS存储（限制使用） HDFS系统的业务数据与元数据均存储在集群节点的内置磁盘中，一般情况下无需使用NAS存放业务数据或元数据，故Hadoop集群中应尽量避免使用NAS存储。如有特殊需求请应用提出，评审通过后即可实施。

组网规划原则#

集群在正常运行期间，可将其产生的网络流量分为两类，分别为业务流量与管理流量。业务流量主要由客户端或上层应用的存取数据、提交MR作业等操作产生，管理流量则由集群节点间的心跳、监控与管理指令下发等操作产生。因此，整个集群网络应划分为2个平面，即业务平面与管理平面。为保证双平面各自网络的安全性，应采用物理隔离的方式进行双平面组网。根据数据中心机房网络环境，业务平面应通过生产网络接入，管理平面应通过带管网络接入。

采用双平面组网时，集群中每个节点分别接入业务平面和管理平面，每个节点需分配一个生产IP地址和一个带管IP地址，每个IP地址用两块网卡配置为Bond，分别连接两台接入交换机。各节点的业务平面建议采用10GE带宽，业务平面的接入交换机与汇聚交换机之间建议采用20GE带宽及以上，在每机架放置16台节点时接入层收敛比为4:1。业务平面汇聚交换机的堆叠带宽建议设置为40GE及以上。

打通端口#

在即将部署集群的网络环境中，当存在防火墙时，打通端口（即开放端口）是确保特定服务或应用能够正常通信的重要步骤。以下是平台各组件所使用到的默认端口的汇总，可根据实际需要打通相应的端口。

组件	模块	端口号	协议	连接类型	用途	内外
OushuDB	主节点	5432	TCP	短连接	存储服务	对外
		5437	TCP	短连接	RM	对内
	计算节点	5438	TCP	短连接	Segment RM	对内
		10000-65535	TCP	短连接	存储服务（随机）	对内
		10000-65535	UDP	短连接	存储服务（随机）	对内
	Magma	6666-6671	TCP	短连接	Magma	对内
	gpfdist	8008	TCP	短连接	文件分发工具	对内
Lava	lava-assist	1620-1629	TCP	短连接	监控运维Agent	对内
	prometheus	1623	TCP	短连接	监控数据存储	对内
	lava-server	1610-1619、1660、1667	TCP	短连接	Lava服务后端	对内
	db-server	1630-1639	TCP	短连接	数据库可视化后端	对内
	lava-admin	1650-1659	TCP	短连接	监控运维后端	对内
	lava-dataend	1670-1679	TCP	短连接	数据源后端服务	对内
	Nginx	3000-3020	TCP	短连接	前端服务	对外
	pgpool	9003、9694、9898	TCP	短连接	pgpool心跳检查	对内
		9999	TCP	长连接	pgpool对外提供服务	对内
Postgres	Postgres	4432、9694、9999	TCP	长连接	平台元数据存储	对内
Flow	Flow	1690-1699	TCP	短连接	作业调度	对内
Wasp	Wasp	1680-1689	TCP	短连接	数据同步	对内
	Flink	1684	TCP	短连接	内部使用	对内
		1685、1686	TCP	短连接	指标采集	对内
		1688	TCP	短连接	对外UI	对外
	RestServer	1687	TCP	短连接	批量同步API接口	对外
Littleboy	前端	3016	TCP	短连接	人工智能	对外
	后端	1880-1889 1890-1899	TCP	短连接	人工智能	对内
	Spark	2881-2885	TCP	短连接	人工智能所依赖计算引擎	对内
Orbit	前端	3015	TCP	短连接	数据治理	对外
	后端	2201	TCP	短连接	数据治理	对内
Kepler	前端	3011	TCP	短连接	数据分析与应用	对外
	前端移动端	3020	TCP	短连接	数据分析与应用	对外
	后端	17877	TCP	短连接	数据分析与应用	对内对外
	后端	17878	TCP	短连接	数据分析与应用	对内
Copilot	后端	3030	TCP	短连接	AI助手	对内
	前端	3031	TCP	短连接	AI助手	对外
	后端	3032	TCP	短连接	AI助手	对内
	DB-GPT	5000	TCP	短连接	AI助手	对内
	FastChat Controller	21001	TCP	短连接	AI助手	对内
	FastChat API Server	8000	TCP	短连接	AI助手	对内
	FastChat Model Worker	30000-40000 随机	TCP	短连接	AI助手	对内
大数据组件	Zookeeper	2181	TCP	短连接	监听客户端的连接	对内
		2888	TCP	短连接	Leader和Flower通信的端口号	对内
		3888	TCP	短连接	选举Leader时通信的端口号	对内
	HDFS	8019	TCP	短连接	ZooKeeper FailoverController，用于NN HA	对内
		8480	TCP	短连接	Journalnode http服务端口	对内
		8485	TCP	短连接	Journalnode rpc服务端口	对内
		9000	TCP	短连接	接收Client连接的RPC端口，用于获取文件系统metadata信息	对内
		50010	TCP	短连接	Datanode 数据传输端口	对内
		50020	TCP	短连接	Datanode RPC服务端口	对内
		50070	TCP	短连接	Namenode http端口	对内
		50090	TCP	短连接	Standby Namenode http端口	对内
		50091	TCP	短连接	Standby Namenode https端口	对内
		50475	TCP	短连接	Datanode https端口	对内
		50470	TCP	短连接	Namenode https服务的端口	对内
		50075	TCP	短连接	Datanode http端口	对内
		9864	TCP	短连接	Datanode http服务的端口	对内
		9865	TCP	短连接	Datanode https服务的端口	对内
		9866	TCP	短连接	Datanode 数据传输端口	对内
		9867	TCP	短连接	Datanode RPC服务端口	对内
		9868	TCP	短连接	Standby Namenode http端口	对内
		9869	TCP	短连接	Standby Namenode https端口	对内
		9871	TCP	短连接	Namenode https服务的端口	对内
其他基础服务	httpd	80	TCP	短连接	yum repo	对内
	ssh	22	TCP	短连接	服务器互相访问	对内
	ntp	123	UDP	短连接	集群间时间同步	对内

配置Yum源#

在部署集群之前，需要选择一台机器配置Yum源，例如，选择IP地址为192.168.1.10的机器。

首先登陆到机器上，然后切换到root用户:

ssh 192.168.1.10
su - root

下载安装包，配置本地源，适合不需一直联网安装情况

下载安装包（或通过物理介质拷贝的方式获取）：

sudo su root
cd /
wget $获取的tarball url

解压缩到一个全路径为root权限的位置，并安装httpd，请用具体的版本号代替*...，比如oushu-software-full-...*-rhel7-x86_64.tar.gz：

tar xzf oushu-software-full-*.*.*.*-rhel7-x86_64.tar.gz
yum -y install httpd
systemctl start httpd

安装本地源，全路径sudo权限执行，请用具体的版本号代替*...，比如/oushu-database-full-...*/setup_repo.sh：

/oushu-database-full-*.*.*.*/setup_repo.sh

完成配置后，在/etc/yum.repos.d下会生成oushu.repo文件。

操作系统配置#

本节介绍操作系统（以CentOS/RedHat 6.x/7.x为例）上一些基础软件的安装。

以下软件需要以root用户进行安装。

安装lava命令行管理工具：

yum clean all
yum makecache
yum install -y lava

创建一个allhostfile文件，包含所有机器:

touch ~/allhostfile

编辑allhostfile文件内容如下（所有机器的hostname）：

host1
host2
host3
...

修改配置机器的/etc/hosts:

# 追加内容
yum源：内网ip hostname
每台机器：内网ip hostname

和所有机器交换公钥：

lava ssh-exkeys -f ~/allhostfile -p ********

将/etc/hosts分发到所有机器节点：

lava scp -f ~/allhostfile /etc/hosts =:/etc/hosts

NTP安装#

lava ssh -f ~/allhostfile -e "yum install -y ntp"
lava ssh -f ~/allhostfile -e "systemctl enable ntpd"
lava ssh -f ~/allhostfile -e "systemctl start ntpd"

如果集群是在内网环境且没有可用的NTP授时服务，则采用集群中host1的时钟作为NTP同步的时钟。具体配置方式为，编辑host1的/etc/ntp.conf配置文件并添加以下内容：

server host1

如果集群有可用的NTP授时服务，假定授时服务器主机名为host_ntp。具体配置方式为，编辑host1的/etc/ntp.conf配置文件并添加以下内容：

server host_ntp

将/etc/ntp.conf分发到所有机器节点，并进行时钟同步的操作：

lava scp -f ~/allhostfile /etc/ntp.conf =:/etc/ntp.conf
lava ssh -f ~/allhostfile -v -e 'ntpd'

Java安装#

lava ssh -f ~/allhostfile -e "yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel"
lava ssh -f ~/allhostfile -e "mkdir /usr/java"
lava ssh -f ~/allhostfile -e "ln -s $(dirname $(dirname $(readlink -f $(which javac)))) /usr/java/default"

部署环境准备

本页目录