参考地址: [链接] 将下载好的 hadoop-2.7.3.tar.gz 上传到 CentOS 7 指定目录进行解压: tar -zxvf hadoop-2.7.3.tar.gz -C /home/training 修改环境变量: vi /etc/profile HADOOP_HOME=/home/training/h ..

基于 hadoop-2.7.3 安装使用

本贴最后更新于 440 天前,其中的信息可能已经事过境迁

参考地址:

hadoop 官网下载安装文档

将下载好的 hadoop-2.7.3.tar.gz 上传到 CentOS 7 指定目录进行解压:

tar -zxvf hadoop-2.7.3.tar.gz -C /home/training

修改环境变量:

vi /etc/profile

  HADOOP_HOME=/home/training/hadoop-2.7.3
  export HADOOP_HOME
  PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  export PATH

记得刷新下配置:

source /etc/profile

Hadoop 的安装模式:

<1> 本地模式(一台):
特点:没有 HDFS、只能测试 MapReduce 程序
MapReduce 处理的是本地 Linux 的文件数据(下面的配置一定要记得配上去)

vi hadoop-env.sh

export JAVA_HOME=/home/training/jdk1.8.0_144

测试 MapReduce 程序:

  1. 创建目录 mkdir ~/input
  2. 运行 例子:/home/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

<2> 伪分布模式(一台 192.168.1.222):
特点:是在单机上,模拟一个分布式的环境
具备 Hadoop 的主要功能
HDFS: namenode+datanode+secondarynamenode
Yarn: resourcemanager + nodemanager

进入到 hadoop 配置文件目录:
cd /home/training/hadoop-2.7.3/etc/hadoop

hdfs-site.xml (原则:一般数据块的冗余度跟数据节点(DataNode)的个数一致;最大不超过 3)

<!--表示数据块的冗余度,默认:3-->
<property>
   <name>dfs.replication</name>
   <value>1</value>
</property>
先不设置
<!--是否开启HDFS的权限检查,默认true-->
<property>
   <name>dfs.permissions</name>
   <value>false</value>
</property>

core-site.xml

<!--配置NameNode地址,9000是RPC通信端口-->
<property>
   <name>fs.defaultFS</name>
   <value>hdfs://192.168.1.222:9000</value>
</property> 
<!--HDFS数据保存在Linux的哪个目录,默认值是Linux的tmp目录-->
<property>
   <name>hadoop.tmp.dir</name>
   <value>/home/training/hadoop-2.7.3/tmp</value>
</property>

mapred-site.xml 默认没有
cp mapred-site.xml.template mapred-site.xml

<!--MR运行的框架-->
<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>
<!--Yarn的主节点RM的位置-->
<property>
   <name>yarn.resourcemanager.hostname</name>
   <value>192.168.1.222</value>
</property> 
<!--MapReduce运行方式:shuffle洗牌-->
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property> 

yarn-site.xml

<!--Yarn的主节点RM的位置-->
<property>
   <name>yarn.resourcemanager.hostname</name>
   <value>192.168.1.222</value>
</property>	
<!--MapReduce运行方式:shuffle洗牌-->
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>	

格式化:HDFS(NameNode)
hdfs namenode -format
日志(格式化成功):
Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted.
启动停止 Hadoop 的环境:
start-all.sh && stop-all.sh

访问:通过 Web 界面:
HDFS: http://192.168.1.222:50070
Yarn: http://192.168.1.222:8088
运行例子:
/home/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/0407
注意:一定配置免密码登录:原理、配置

  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    66 引用 • 102 回帖
  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    54 引用 • 117 回帖 • 746 关注
回帖
请输入回帖内容...