1.安装SSH server、配置SSH无密码登陆
Ubuntu默认安装了SSH client,还需要安装SSH server。
sudo apt-get install openssh-server
设置SSH无密码登陆本机
ssh localhost
会有如下提示(SSH首次登陆提示),输入yes。
SSH首次登陆提示
然后按提示输入密码hadoop,这样就登陆到本机了。但这样的登陆是需要密码的,需要配置成无密码登陆。
先退出刚才的ssh,然后生成ssh证书:
exit                           # 退出 ssh localhost
cd ~/.ssh                      # 如果没有该目录,先执行一次ssh localhost
ssh-keygen -t rsa              # 一直按回车就可以
cp id_rsa.pub authorized_keys
此时再用ssh localhost命令,就可以直接登陆了
2.Hadoop的安装
下载hadoop安装包    binary
解压、移动到你想要放置的文件夹
    tar -zvxf hadoop-2.7.3.tar.gz
    mv ./hadoop-2.7.3.tar.gz   /opt/hadoop
授予执行权限
sudo chmod -R 755 /opt/hadoop
sudo chown -R xxx:hadoop /opt/hadoop  //否则ssh会拒绝访问 
修改/etc/profile
#set hadoop environment 
export HADOOP_HOME=/opt/hadoop
export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:$PATH
测试是否配置成功
hadoop version
3.伪分布式配置    cd /opt/hadoop
hdfs配置:
vim etc/hadoop/core-site.xml
<configuration>
        <property>
             <name>hadoop.tmp.dir</name>
             <value>file:/opt/hadoop/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://localhost:9000</value>
        </property>
</configuration>
vim etc/hadoop/hdfs-site.xml
<configuration>
        <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/opt/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/opt/hadoop/tmp/dfs/data</value>
        </property>
</configuration>
mapreduce配置:
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
vim etc/hadoop/mapred-site.xml
<configuration>
        <property>
             <name>mapreduce.framework.name</name>
             <value>yarn</value>
        </property>
</configuration>
vim etc/hadoop/yarn-site.xml
<configuration>
        <property>
             <name>yarn.nodemanager.aux-services</name>
             <value>mapreduce_shuffle</value>
            </property>
</configuration>
开启hdfs:./sbin/start-dfs.sh
访问http://localhost:50070 查看节点信息。
关闭hdfs: ./sbin/stop-dfs.sh
开启历史服务器 ./sbin/mr-jobhistory-daemon.sh start historyserver
不启用 YARN 时,是 “mapred.LocalJobRunner” 在跑任务,启用 YARN 之后,是 “mapred.YARNRunner” 在跑任务。启动 YARN 有个好处是可以通过 Web 界面查看任务的运行情况:http://localhost:8088/cluster 。
Ubuntu16.04 install Hadoop 伪分布式
原文:http://www.cnblogs.com/DowneyJr/p/7623942.html