本文共 3942 字,大约阅读时间需要 13 分钟。
我们都知道,Hadoop是一个由Apache基金会所开发的基于分布式系统基础架构。使用用户可以在不了解分布式底层细节的情况下,进行分布式程序开发。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),不但包括分部署文件系统,而且还包括MapReduce计算,其中一个组件是HDFS。
以下以三台服务器节点为例,叙述hadoop集群的部署过程,它们分别如下:
192.168.0.1 #作为主节点 192.168.0.2 192.168.0.3 本次部署,使用appuser用户登录,将hadoop-3.2.1.tar.gz压缩文件解压到当前目录,最终文件存储目录为/appuser/hadoop-3.2.1,待配置完成后分别分发到其他相同目录的节点。进入到hadoop-3.2.1目录下分别创建文件夹;
hadoop-3.2.1/hdfs hadoop-3.2.1/hdfs/name #命名节点目录 hadoop-3.2.1/hdfs/tmp #临时文件目录 hadoop-3.2.1/hdfs/data #数据存储目录
cd /appuser/hadoop-3.2.1/etc/hadoop到目录,配置文件内容如下:
export JAVA_HOME=/usr/java/jdk1.8.0_151
cd /appuser/hadoop-3.2.1/etc/hadoop到目录,配置另外两个节点为Slave worker节点
192.168.0.2192.168.0.3
cd /appuser/hadoop-3.2.1/etc/hadoop到目录,配置文件内容如下。注意在服务重启时,可能会出现失败,此时需要检查/appuser/hadoop-3.2.1/hdfs/tmp目录下的VERSION文件,确保每个节点VERSION版本相同
,如果不同,统一用其中一个节点内容替代。
fs.defaultFS hdfs://192.168.0.1:9000 hadoop.tmp.dir file:/appuser/hadoop-3.2.1/hdfs/tmp 临时目录 io.file.buffer.size 131072
cd /appuser/hadoop-3.2.1/etc/hadoop到目录,配置文件内容如下:
yarn.resourcemanager.address 192.168.0.1:18040 yarn.resourcemanager.scheduler.address 192.168.0.1:18030 yarn.resourcemanager.webapp.address 192.168.0.1:18088 yarn.resourcemanager.resource-tracker.address 192.168.0.1:18025 yarn.resourcemanager.admin.address 192.168.0.1:18141 yarn.resourcemanager.aux-services mapreduce_shuffle 服务Shuffle yarn.resourcemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler Shuffle处理类 yarn.resourcemanager.am.max-attempts 4 最大重试次数 yarn.resourcemanager.vmem-check-enabled false 关闭虚拟内存检查,防提示内存不够用
dfs.replication 2 分片数(slaves数) dfs.namenode.name.dir file:/appuser/hadoop-3.2.1/hdfs/name true dfs.namenode.data.dir file:/appuser/hadoop-3.2.1/hdfs/data true dfs.namenode.secondary.http-address 192.168.0.1:9001 http Web访问地址 dfs.webhdfs.enable true dfs.permissions false
cd /appuser/hadoop-3.2.1/etc/hadoop到目录,配置文件内容如下:
mapreduce.framework.name yarn
首次配置完成后一定要进行格式化,不需要删除/appuser/hadoop-3.2.1/hdfs/name和/appuser/hadoop-3.2.1/hdfs/data,进入bin目录执行脚本:
./hdfs namenode -format./hdfs datanode -format
倘若后续服务出现异常或者需要重启服务时,出现了需要格式化提示,请先停止所有节点./sbin/stop-all.sh,删除/appuser/hadoop-3.2.1/hdf/tmp临时文件,然后再执行格式化操作。
执行命令./sbin/start-all.sh
浏览器登录web访问地址,检查服务是否正常:
http://192.168.0.1:18088 #查看yarn集群http://192.168.0.1:50070/dfshealth.html#tab-overview #查看hdfshttp://192.168.0.1:19888/jobhistory #查看历史完成的任务
官方文档介绍MinIO是唯一一个具有性能和规模的对象存储平台,它可以介入并取代传统的、但对任务至关重要的Hadoop HDFS部署。从对两者之间的比较我们可以得知,Hadoop是为MapReduce计算而设计的,Minio仅提供HDFS服务,更适合基于容器云,它使用也比Hadoop简单得多。
有关Minio的部署,如果感兴趣的话,可查看另一篇《》文章。转载地址:http://kjcpi.baihongyu.com/