搭建Spark环境(Standalone部署模式)

时间：2019-03-22 21:00:42 阅读：281 评论：0 收藏：0 [点我收藏+]

搭建Spark的单独（Standalone）部署模式

Standalone单独部署（伪分布或全分布），不需要有依赖资源管理器。主要学习单独（Standalone）部署中的伪分布模式的搭建。

实验环境

个人笔记本安装。
内存：至少4G
硬盘：至少空余40G
操作系统: 64位 Windows系统
VMware 12+

实验步骤

1、总体步骤如下：

安装前的准备

技术分享图片

搭建

技术分享图片

2、详细步骤如下

安装前的准备

①安装Linux

下载Ubuntu 16.04，下载地址：http://ftp.sjtu.edu.cn/ubuntu-cd/16.04.5/

（a）Desktop --> 桌面版，默认带了界面
ubuntu-16.04.5-desktop-amd64.iso

（b）Server --> 服务器版，默认没有带界面
ubuntu-16.04.5-server-amd64.iso

②关闭防火墙

查看防火墙状态：

  $ sudo ufw status
  Status: inactive

关闭防火墙：

  $ sudo ufw disable

防火墙在系统启动时自动禁用

  $ sudo ufw status
  Status: inactive

查看防火墙状态：

  $ sudo ufw status
  Status: inactive

③确认openssh-client、openssh-server是否安装

  $ dpkg -l | grep openssh

如果没有安装，则安装：

  $ sudo apt-get install openssh-client
  $ sudo apt-get install openssh-server

④设置免密登录

通过ssh-keyen生成一个RSA的密钥对

  $ ssh-keygen -t rsa -P ''

公钥追加到~/.ssh/authorized_keys文件中

  $ ssh-copy-id -i  ~/.ssh/id_rsa.pub  主机名(如上面都node1)

测试免密码登录：

  $ ssh node1

⑤安装JDK

解压到根目录：

  $ tar zxvf jdk-8u144-linux-x64.tar.gz -C  ~

建一个软链接（方便使用）

  $ ln  -s  jdk-8u144-linux-x64  jdk

配置环境变量：

  $ vi  ~/.bashrc
  （注意！等号两侧不要加入空格）
  export JAVA_HOME=/home/hadoop/jdk
  export PATH=$JAVA_HOME/bin:$PATH
  export CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:.

使得变量生效：

  $ source  ~/.bashrc

⑥安装Scala

将Scala的安装包通过Xshell、Xftp上传到Linux。

  (解压)
  $ tar zxvf  scala-2.11.12.tgz   -C   ~
  (创建软连接)
  $ ln  -s   scala-2.11.12  scala
  (配置环境变量)
  $ vi  ~/.bashrc

  export SCALA_HOME=~/scala
  export PATH=$SCALA_HOME/bin:$PATH
  (使环境变量生效)
  $ source  ~/.bashrc

⑦安装Anoaconda3

上传Anaconda的安装包，执行安装。

  $ sh Anaconda3-5.2.0-Linux-x86_64.sh

许可协议，按ENTER继续，显示许可协议，按q到达“是否同意”，输入yes，同意。如下图所示：

技术分享图片

安装位置，查看文件即将安装的位置，按enter，即可安装。如下图所示：

技术分享图片

环境变量，加入环境变量，输入yes。如下图所示：

技术分享图片

不安装VSCode，输入no。如下图所示：

技术分享图片

    source  ~/.bashrc

**⑧安装pyspark**

安装pyspark

    $ conda install pyspark

搭建Spark伪分布

①安装包解压、配置环境变量

  $ tar  -zxvf  spark-2.4.0-bin-hadoop2.7.tgz  -C ~

创建超链接：(便于使用)

  $ ln   -s   spark-2.4.0-bin-hadoop2.7    spark

增加环境变量（如果已经安装过hadoop，这步可以省略，避免冲突）

  $ vi ~/.bashrc

  export SPARK_HOME=/home/hadoop/spark
  export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

  $ source  ~/.bashrc

②修改配置文件

进入Spark配置文件所在目录，修改spark-env.sh文件。

  $ cd ~/spark/conf
  $ cp spark-env.sh.template spark-env.sh
  $ vi spark-env.sh

  export JAVA_HOME=/home/hadoop/jdk
  export SPARK_MASTER_HOST=node1
  export SPARK_MASTER_PORT=7077

  #识别到python
  export PYTHON_HOME=/home/hadoop/anaconda3
  export PATH=$PYTHON_HOME/bin:$PATH

修改slaves文件。

  $ cp slaves.template slaves
  $ vi slaves

将里面在localhost改完主机名

  # A Spark Worker will be started on each of the machines listed below.
  #localhost
  node1

③启动

  $ cd ~/spark
  $ sbin/start-all.sh

④验证

（a）查看进程验证

  $ jps
  显示如下进程：
  1398 Worker
  1327 Master

（b）打开网页http://[IP地址]:8080

（c）打开pyspark验证

  pyspark --master  spark://node1:7077

conda

conda简介

  一个工具，用于包管理和环境管理
  包管理与pip类似，管理Python的第三方库。
  环境管理能够允许用户使用不同版本Python，并能灵活切换

conda基本命令

查看版本：

  conda --version  或： conda -V

创建环境:

  conda create --name test

创建制定python版本的环境:

  conda create --name test2 python=2.7
  conda create --name test3 python=3

创建包含某些包的环境：

  conda create --name test4 numpy scipy

创建指定python版本下包含某些包的环境

  conda create --name test5 python=3.5 numpy scipy

删除某个环境

  conda remove --name test  --all

列举当前所有环境：

  conda info --envs
  conda env list

进入某个环境：

  conda activate test

退出当前环境

  conda deactivate

搭建Spark环境(Standalone部署模式)

原文：https://www.cnblogs.com/jiajiaba/p/10580810.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)