搭建hadoop伪分布式环境
(1)安装JDK
linux下配置JDK的方法网上可以搜到,这里就不再赘述了,有些操作系统本身也自带jdk。
(2)安装配置ssh无密码登陆。
root@ubuntu:~# apt-get install ssh,由于是在单机环境下,安装ssh后只需配置ssh免密码登陆到本机就可以了:
root@ubuntu:~# ssh-keygen -t rsa ~/.ssh/id_rsa
root@ubuntu:~# cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
验证:
root@ubuntu:~# ssh localhost
如果成功应该无需输入密码就能显示出如下信息了:
Welcome to LinuxDeepin 2013 (GNU/Linux 3.8.0-34-generic
x86_64)
* Documentation: http://wiki.linuxdeepin.com/
Last
login: Tue Mar 4 22:20:23 2014 from localhost
root@ubuntu:~#
(3)安装配置hadoop(以hadoop-0.20.2为例)
(a)、下载稳定版:hadoop-0.20.2.tar.gz复制到准备安装的目录。
(b)切换到安装目录,并解压。
(c)配置(配置文件放在安装目录下的conf目录)
hadoop-env.sh:
取消JAVA_HOME注释并做如下修改:
export JAVA_HOME=/usr/java/jdk1.7(根据你JDK安装路径来配置)
core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp</value>
</property>
</configuration>
属性fs.default.name的值填你的主机名,单机环境下填localhost就可以。
mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
hdfs-site.xml:
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/dfs/name</value>
<description>Determines where on the local filesystem the DFS name node should store </description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/dfs/data</value>
<description>Determin. If this is a comma-delimited </description>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replicied when the file is created. The default </description>
</property>
</configuration>
(d)运行
先格式化文件系统
root@ubuntu:/usr/local/hadoop/hadoop-0.20.2/bin# hadoop namenode -format
启动hadoop
root@ubuntu:/usr/local/hadoop/hadoop-0.20.2/bin# hadoop namenode -format
检查是否启动成功
root@ubuntu:/usr/local/hadoop/hadoop-0.20.2/bin# jps
如果以下几个进程都出现:
3384 NameNode
3479 DataNode
3663
JobTracker
4621 jar
3774 TaskTracker
3586
SecondaryNameNode
则hadoop系统伪分布式已经搭建成功了!
可能出现的问题
有时候DataNode会莫名的启动不起,把hdfs-size.xml配置文件下属性dfs.data.dir的所配置的目录删除掉,然后重启就可以看到DataNode启动了。
原文:http://www.cnblogs.com/ttblog/p/3585250.html