Hadoop分别从三个角度将主机划分为两种角色。第一,划分为master和slave,即主人与奴隶;第二,从HDFS的角度,将主机划分为NameNode和DataNode(在分布式文件系统中,目录的管理很重要,管理目录的就相当于主人,而NameNode就是目录管理者);第三,从MapReduce的角度,将主机划分为JobTracker和TaskTracker(一个job经常被划分为多个task,从这个角度不难理解它们之间的关系)。
Hadoop有官方发行版与cloudera版,其中cloudera版是Hadoop的商用版本,这里先介绍Hadoop官方发行版的安装方法。
Hadoop有三种运行方式:单节点方式、单机伪分布方式与集群方式。乍看之下,前两种方式并不能体现云计算的优势,在实际应用中并没有什么意义,但是在程序的测试与调试过程中,它们还是很有意义的。
由于项目的需要,最近研究了cloudera版和发行版的安装,cloudera的确是商用,安装和管理方便,但由于机器短缺无法进行很好的实验,执行一个简单的任务都卡半天。最后就只能通过发行版的单机伪分布方式来当练手。
当前Hadoop稳定版的版本是2.2.0(
稳定版的下载地址),本次就以这个版本为例子来进行安装和实验。在安装Hadoop前,需要先安装JDK(JDK6或更高版本,但建议使用JDK6,因为并不是所有的软件都支持1.7版本),SSH免密码登录(不配置,则在启动hadoop时会提示输入密码)。
JDK6安装(使用Root用户操作)
#下载JDK6包到/opt目录下(jdk-6u45-linux-x64-1.bin)
#解压jdk
cd /opt
chmod u+x jdk-6u45-linux-x64-1.bin
./jdk-6u45-linux-x64-1.bin
#配置java环境变量
vi /etc/profile
#################################
export JAVA_HOME=/opt/jdk1.6.0_45
export PATH=$JAVA_HOME/bin:$PATH
#################################
source /etc/profile
新增hadoop用户
adduser hadoop
su - hadoop #切换用户
SSH免密码登录(使用hadoop用户)
ssh-keygen -t rsa
#(连续三次回车,即在本地生成了公钥和私钥,不设置密码)
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
#(将id_rsa.pub的内容追加到 authorized_keys 中)
主机名的配置
vi /etc/hostname
#################
node1
#################
vi /etc/hosts
#################
127.0.0.1 node1
#################
hostname node1
Hadoop下载和解压
wget http://mirror.bit.edu.cn/apache/hadoop/common/stable/hadoop-2.2.0.tar.gz
tar -zxvf hadoop-2.2.0.tar.gz
Hadoop环境变量的配置
vi .profile
##################追加以下内容##################
export HADOOP_HOME=/home/hadoop/hadoop-2.2.0
export PATH=$PATH:$HADOOP_HOME/bin
##############################################
source .profile
vi hadoop-2.2.0/etc/hadoop/hadoop-env.sh
###############在顶部追加以下内容###############
export JAVA_HOME=/opt/jdk1.6.0_45
#############################################
cd hadoop-2.2.0
mkdir names
mkdir datas
hadoop-2.2.0/etc/hadoop/core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://node1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-2.2.0/tmp</value>
</property>
</configuration>
hadoop-2.2.0/etc/hadoop/hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/hadoop-2.2.0/names/name1</value>
<description> </description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/hadoop-2.2.0/datas/data1</value>
<description> </description>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
hadoop-2.2.0/etc/hadoop/mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>node1:9001</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/home/hadoop/hadoop-2.2.0/tmp</value>
</property>
</configuration>
格式化Hadoop文件系统HDFS
bin/hadoop namenode -format
启动Hadoop
sbin/start-all.sh
验证Hadoop是否启动成功
netstat -tlnp #查看监听端口
jps #查看java进程
#打开Web管理界面 http://node1:8088/
准备测试数据
mkdir txt
vi txt/01.txt
##########内容是以下内容#########
this is is a first txt.
today is a new day.
my name is ding xiaoyang.
haha 丁小样
##############################
vi txt/02.txt
##########内容是以下内容#########
one two three four five six.
today is a good day.
my name is ding xiaoyang.
haha 丁小样
##############################
vi txt/03.txt
##########内容是以下内容#########
this is is a first txt.
today is a new day.
my name is ding xiaoyang.
haha 丁小样
##############################
#测试Hadoop
#创建文件目录
bin/hdfs dfs -mkdir /tmp
#拷贝文件到文件目录
bin/hdfs dfs -copyFromLocal txt/*.txt /tmp
#执行测试
bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /tmp/ /tmp-output
#查看测试结果
bin/hdfs dfs -cat /tmp-output/*
###########结果如下###########
a 5
day. 3
ding 3
first 2
five 1
four 1
good 1
haha 3
is 10
my 3
name 3
new 2
one 1
six. 1
this 2
three 1
today 3
two 1
txt. 2
xiaoyang. 3
丁小样 3
######################
分享到:
相关推荐
01_MapReduce框架处理数据的流程及几点注意 02_编写MapReduce编程模块 03_MapReduce数据类型及自定义数据类型 04_案例:网站基本指标分析(一) ...11_分布式安装部署:配置主从节点之间的SSH无密钥登录
Hadoop的安装分为单机方式、伪分布式方式和完全分布式方式。 a. 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件...
linux环境大数据hadoop多模式安装部署。 一、环境准备 二、ssh无密登录 三、单节点安装 四、伪分布安装部署 五、分布式安装部署
该方法把Ambari及其运行环境和配置构建成Docker镜像,并把多节点容器的运行和Hadoop集群的部署过程写成Shell脚本,只需一条命令,即可实现集群的自动化部署。实验结果表明,该方法简单可靠并极大地提高了集群部署的...
2.1 Hadoop插件安装及部署 第一步:Hadoop环境部署和源数据准备 安装好VMware(查看) 第二步:使用python开发的mapper reducer进行数据处理。 第三步:创建hive数据库,将处理的数据导入hive数据库 第四步:将...
3.集群能正常运行的条件是集群可节点宕机数应保证有超过集群机器总数一半的机器在运行,因此从经济和实用性来说,集群的节点一般是奇数个,本文部署4台机器,其容灾能力与部署3台机器一致,即只能宕机1台
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和...
部署Hadoop3.0高性能集群,Hadoop完全分布式模式: Hadoop的守护进程分别运行在由多个主机搭建的集群上,不同 节点担任不同的角色,在实际工作应用开发中,通常使用该模式构建企业级Hadoop系统。 在Hadoop环境中,所有...
主要介绍了ol7.7安装部署4节点hadoop 3.2.1分布式集群学习环境,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
6.3.1 Hadoop FaceBook版本安装 6.3.2 节点配置 6.3.3 启动HDFS 6.3.4 NameNode失效切换 第7章 AvatarNode异常解决方案 7.1 测试环境 7.2 Primary失效 7.2.1 解决方案 7.2.2 写操作实验步骤 7.2.3 改进写操作机制 ...
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个...本篇pdf只是单节点,即本机部署。
hadoop 1.2 api 伪中文版。支持即时查询,高级查询。方便编码学习。 大数据炙手可热!hadoop是一个大数据分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分...
资料目录如下: 1. 制作docker基础镜像-01 2. 制作支持ssh的docker镜像-centos7_ssh-01 ...4. 构建基于docker的单节点的HDFS集群-01 5. docker容器跨物理节点通信-01 ...Docker一键部署hadoop分布式.zip
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据...
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File ...
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的...
手把手教你搭建分布式Hadoop家族集群视频教程(视频+讲义+笔记+配置),内容包括 Hadoop,SQOOP,Hive,Hbase的安装配置及集群搭建。内容包括但不限于: ... 14_分布式集群搭建:HADOOP分布式集群安装部署测试 ......
在一台服务器上使用虚拟机软件虚拟所有的节点,也属于完全分布模式,在一些数据量比较少的公司集群就是这样部署的。 完全分布模式Hadoop大数据平台集群 - 服务器角色规划 Master (IP:192.168.128.128) Slave1 ...
由于早期项目的客户服务器重新规划,原来部署应用的员工已离职且部署文档不完整,所以用三个虚机节点搭了简单的Hadoop+Hbase+Solr的环境并形成部署步骤文档给运维人员参考,有兴趣的可以下载一下,以上。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的...