初学hadoop,折腾了几天总算把hadoop0.20.2在windows上安装成功了。因为网上很多安装成功的资料都是用的hadoop0.20.2,所以我们初学就先用这个版本。
本文安装环境概述:
windows7
jdk1.6.0_43
cygwin
openssh
hadoop0.20.2
hadoop0.20.2版本比较老,所以最好用jdk6,不要用jdk7,以免出现一些奇怪的问题。
1.安装cygwin和openssh,配置ssh免密码登陆
可以参考另一篇文章
http://xpenxpen.iteye.com/blog/2061856
不要小看这步,这步没做好,后面都是徒劳。本人就在这栽跟头了,浪费了很多时间。
2. 下载hadoop0.20.2
hadoop所有的历史版本可以在这里找到
http://archive.apache.org/dist/hadoop/core
下载完了,解压。比如我们解压到d盘。D:\opensource\hadoop\hadoop-0.20.2
3.创建符号链接(仅限Win7)
mklink /d c:\tmp c:\cygwin64\tmp
mklink /d d:\tmp c:\cygwin64\tmp
这步是比较关键的一步,因为hadoop的代码编写没有考虑到windows系统,所以tmp目录的定位是比较乱的,这里将c:\tmp,d:\tmp全部链接到cygwin下的tmp目录,后面就不会报诸如tmp目录找不到的错了。d:\tmp是由于我将hadoop-0.20.2解压到D盘了,c:\tmp则是因为cygwin装在C盘。如果你装在别的盘上了,则改成相应的盘符。
4. 修改/home/<user>/.bashrc
所指的home是C:\cygwin64\home
export JAVA_HOME=/cygdrive/c/jdk1.6.0_43
export PATH=/cygdrive/d/opensource/hadoop/hadoop-0.20.2/bin:$JAVA_HOME/bin:$PATH
重新进入cygwin确认
$ which java
/cygdrive/c/jdk1.6.0_43/bin/java
$ which hadoop
/cygdrive/d/opensource/hadoop/hadoop-0.20.2/bin/hadoop
5.修改hadoop-0.20.2/conf/hadoop-env.sh
export JAVA_HOME=/cygdrive/c/jdk1.6.0_43
export HADOOP_LOG_DIR=/tmp/logs
6.修改hadoop-0.20.2/conf目录下的3个配置文件
core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>4</value>
</property>
7.格式化名称节点
hadoop namenode -format
会创建C:\cygwin64\tmp\hadoop-<user>\dfs\name目录
8.启动集群
start-all.sh
9.检查是否正常
9.1 访问网页查看状态
访问http://localhost:50030查看 JobTracker 的运行状态
访问http://localhost:50060查看 TaskTracker 的运行状态
访问http://localhost:50070查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等
9.2 查看进程,应该有5个java进程
$ ps -ef | grep java
pchen4 8404 1 ? 12:55:30 /cygdrive/c/jdk1.6.0_43/bin/java
pchen4 7596 1 ? 12:55:19 /cygdrive/c/jdk1.6.0_43/bin/java
pchen4 3596 1 pty1 12:55:37 /cygdrive/c/jdk1.6.0_43/bin/java
pchen4 6836 1 ? 12:55:49 /cygdrive/c/jdk1.6.0_43/bin/java
pchen4 8144 1 pty1 12:55:06 /cygdrive/c/jdk1.6.0_43/bin/java
9.3 检查C:\cygwin64\tmp目录下文件是否都生成了
10.停止集群
stop-all.sh
11.wordcount测试
hadoop目录下有一个hadoop-0.20.2-examples.jar,自带wordcount,顺利安装完hadoop后可以测试一下。
首先找一个文本文件,比如http://introcs.cs.princeton.edu/java/data/dickens.txt
然后将这个文件放到hdfs上
hadoop fs -put dickens.txt input/dickens.txt
然后运行wordcount
hadoop jar hadoop-0.20.2-examples.jar wordcount input output
如果一切顺利,可以看到单词的统计出来了。
hadoop fs -cat output/part-r-00000 > aa.txt
查看一下aa.txt,内容正确的话就表明hadoop安装无误了。
12.参考资料
http://yangshangchuan.iteye.com/blog/1839814
- 大小: 35.3 KB
分享到:
相关推荐
成功实现Ubuntu11.10下安装Hadoop0.20.2(单机伪分布式)。涉及内容:1. 安装虚拟机VMware Workstation v7.1.4 2. 在虚拟机上安装ubuntu11.10 3. 为ubuntu11.10安装vmware tool 4. 安装JAVA6 5. 在ubuntu中安装ssh 6...
Hadoop安装教程_单机_伪分布式配置
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第二讲Hadoop图文训练课程:全球最详细(不放过任何一个细节)的从零起步搭建Hadoop单机和伪分布式开发环境图文教程.pdf
Hadoop单机伪分布式安装
2、大数据环境-安装Hadoop2.5.2伪分布式傻瓜教程 原创
Hadoop的单机伪分布式搭建和运行第一个WordCount程序 • 环境: macOs下 Eclipse(Neon)+Hadoop-2.5.2(64位) 注:已经安装的java环境,我的事jdk1.8的
Hadoop单节点伪分布式搭建中文版 个人翻译的Hadoop搭建文档,这里只是翻译了伪分布式搭建。 如果是测试、学习hadoop,伪分布式足够了。
haodop超详细安装教程:包含jdk配置,ssh免密登录以及单机版hadoop安装配置、伪分布式hadoop安装及配置,以及分布式集群安装配置。
hadoop伪分布式安装!
hadoop2.6.5伪分布式搭建hadoop2.6.5伪分布式搭建hadoop2.6.5伪分布式搭建hadoop2.6.5伪分布式搭建
hadoop cdh版本伪分布式集群搭建详细图文教程
虚拟机Ubuntu下hadoop2.6.0的安装与配置 (单机模式,伪分布式,完全分布式)非常详细的安装配置指南
1、hadoop单机模式和伪分布式 2、hadoop集群 3、hadoop运行WordCount程序 4、编码实践并在Hadoop上运行 题目:输入两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号...
Hadoop安装教程_单机/伪分布式配置_Hadoop2.7.1/Ubuntu 16.04
详细的hadoop2 伪分布式环境搭建以及eclipse部署。demo示例代码测试运行。文中有插件包。资源包等参考链接参考下载。
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
hadoop2.4.1伪分布式搭建
hadoop0.20.2版本在虚拟机中的安装指南,经过测试可以实现
redHat linux下安装hadoop 0.20.2
开源思想,少要积分,仅供学习。 Hadoop1.0伪分布式安装步骤。 开源思想,少要积分,仅供学习。 Hadoop1.0伪分布式安装步骤。