前段时间,搭建了一个hadoop分布式环境,特点在于
1 把定制的配置文件和hadoop源码分开,这样升级hadoop版本的时候,不需要重新修改配置文件;
2 经常要在集群模式/单点模式下进行切换
硬件准备情况:
有4台机器,一台作为namenode,三台作为datanode,机器名分配如下
10.2.224.24 namenode
10.2.224.25 datanode1
10.2.224.26 datanode2
10.2.224.27 datanode3
环境搭建步骤
1.在每台机器上创建一个admin用户,打通从namenode到各个datanode的ssh通道,这个在网上资料很多,不再描述;
2.mkdir /home/admin/hadoop-installed
3. 在 /home/admin/hadoop-installed目录下解压hadoop压缩包,解压为hadoop
4. mkdir /home/admin/hadoop-installed/cluster-conf
5. 在cluster-conf目录下创建如下四个文件
masters
引用
namenode #namenode机器的机器名
slaves
引用
datanode1
datanode2
datanode3
hadoop-site.xml
引用
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/admin/hadoop-installed/filesystem</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:54310</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdsf://namenode:54311</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx512m</value>
</property>
</configuration>
hadoop-env.sh
引用
export JAVA_HOME=/usr/ali/java
export HADOOP_NAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_NAMENODE_OPTS"
export HADOOP_SECONDARYNAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_SECONDARYNAMENODE_OPTS"
export HADOOP_DATANODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_DATANODE_OPTS"
export HADOOP_BALANCER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_BALANCER_OPTS"
export HADOOP_JOBTRACKER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_JOBTRACKER_OPTS"
export HADOOP_LOG_DIR=/home/admin/hadoop-installed/logs
6.增加环境变量HADOOP_CONF_DIR
引用
export HADOOP_CONF_DIR=/home/alisoft/hadoop-installed/conf
7.增加single-conf目录,在该目录下也增加如下四个文件
masters
引用
localhost #namenode机器的机器名
slaves
引用
localhost
hadoop-site.xml
引用
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/admin/hadoop-installed/filesystem</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:54310</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdsf://localhost:54311</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx512m</value>
</property>
</configuration>
hadoop-env.sh
引用
export JAVA_HOME=/usr/ali/java
export HADOOP_NAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_NAMENODE_OPTS"
export HADOOP_SECONDARYNAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_SECONDARYNAMENODE_OPTS"
export HADOOP_DATANODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_DATANODE_OPTS"
export HADOOP_BALANCER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_BALANCER_OPTS"
export HADOOP_JOBTRACKER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_JOBTRACKER_OPTS"
export HADOOP_LOG_DIR=/home/alisoft/hadoop-installed/logs
8. ln -s cluster-conf/ conf 集群模式
或者 ln -s single-conf/ conf 单机调试模式
9. 增加一个同步脚本
引用
DESTSERVER='datanode1 datanode2 datanode3'
for DEST in $DESTSERVER
do
rsync -v -r -l -H -p -g -t -S -e ssh --exclude ".svn" --delete /home/admin/hadoop-installed/conf/ admin@$DEST:/home/admin/hadoop-installed/conf/
rsync -v -r -l -H -p -g -t -S -e ssh --delete /home/admin/hadoop-installed/hadoop/ alisoft@$DEST:/home/admin/hadoop-ins
talled/hadoop/
done
exit 0
分享到:
相关推荐
hadoop的环境搭建过程.方便第一次使用hadoop的同学.快速搭建环境
Linux Info: Ubuntu 16.10 x64 Docker 本身就是基于 Linux 的,所以首先以我的一台服务器做实验。虽然最后跑 wordcount 已经由于内存不足而崩掉,但是之前的过程还是可以参考的。 连接服务器 使用 ssh 命令连接远程...
HADOOP快速入门及搭建集群环境,可以进行搭建试试,文档比较详细
详实的记录了搭建Hadoop云计算环境的过程,希望能帮助他人快速搭建Hadoop云计算环境,目录如下: 1引言 1 1.1 编写目的 1 2搭建过程 1 2.1 所需软件 1 2.2 VMware Workstation安装 1 2.3 Ubuntu安装 2 2.4 VMware ...
利用VMWare虚拟机建立3台ubuntu虚拟系统,在此基础上搭建的hadoop完全分布式环境,本人亲测可行
包含Hadoop,hive,sqoop,spark,mysql ,azkaban软件的快速搭建。适合新手搭建大数据环境使用,更加的节省时间。文档写完后,本人按照文档搭建一遍,完全可行。(对于未接触过Linux,请先掌握一些Linux基本命令)
资源名称:云计算Hadoop:快速部署Hadoop集群内容简介: 近来云计算越来越热门了,云计算已经被看作IT业的新趋势。云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费。可以...
在笔记本上搭建 Hadoop 集群,本文档对笔 记本上创建虚拟机搭建 Hadoop 集群的步骤进行了说明。包含所有需要安装的软件与服务 的版本,安装路径,安装方法等。 主要流程为:安装虚拟机管理程序,创建三台虚拟服务器...
本文档通过网络资源收集的资料整理,具有较强的实战性,可以一步一步让你从零基础到学会搭建Hadoop服务器,并能利用FS文件系统及mapreduce做词频统计,掌握其基本原理; 其中由于本人已搭建好的原因,有的图截不到...
hadoop2 - 虚拟机VMWare - Linux(ubuntu) ,单节点伪分布环境搭建快速手册,同之前上传的doc文档配套。
Hadoop 是一个分布式系统基础架构,在大数据领域被广泛的使用,它将大数据处理引擎尽可能的靠近存储,Hadoop 最核心的设计就是 HDFS
这个文件是关于hadoop的搭建文档,有很详细的hadoop搭建安装内容,能快速的帮助您搭建一套完整的hadoop技术架构,希望对你有所帮助。
从零学习Kerberos安全认证机制,并和Hadoop、YARN、HIVE进行集成,通过知识点 + 案例教学法帮助小白快速掌握Hadoop集成Kerberos安全技术。 课程亮点 1,专项攻破Hadoop安全配置。 2,生动形象,化繁为简,讲解通俗...
练习搭建伪分布Hadoop3.X集群,只用于刚刚开始学习搭建hadoo伪分布式集群的人群,帮助大家快速搭建Hadoop3.X伪分布式集群,快速入门大数据为日后的学习打下坚实的基础
人工智能-hadoop
摘要:本文将详细介绍如何使用 IBCS 虚拟专线搭建 Hadoop 集群,同时阐述 IBCS 虚拟专线 在提高 Hadoop 集群性能和稳定性方面的优势。使用 IBCS 虚拟专线搭建 Hadoop 集群具有显著的优势。企业可以通过 IBCS 虚拟 ...
Hadoop环境搭建(一)虚拟机快速创建和环境准备搭建所使用的环境和软件:创建虚拟机(VM)完成虚拟机创建配置后给VM安装操作系统如果时间不对,设置时区和时间同步将一台虚拟机ip修改为静态ip,和修改主机名字用Xshell...
Hadoop 中文教程 。包括快速入门,集群搭建,分布式文件系统,命令手册等文件。
ambari详细安装教程,已经ambari安装完成后详细的部署hadoop大数据集群