首页 > 其他 > 详细

假期学习进度十二

时间:2020-02-12 17:34:57      阅读:80      评论:0      收藏:0      [点我收藏+]

一、安装Spark

  1. sudo tar -zxf ~/下载/spark-1.6.2-bin-without-hadoop.tgz -C /usr/local/
  2. cd /usr/local
  3. sudo mv ./spark-1.6.2-bin-without-hadoop/ ./spark
  4. sudo chown -R hadoop:hadoop ./spark

技术分享图片

Shell 命令

安装后,还需要修改Spark的配置文件spark-env.sh

  1. cd /usr/local/spark
  2. cp ./conf/spark-env.sh.template ./conf/spark-env.sh

技术分享图片

编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
技术分享图片

配置完成后就可以直接使用,不需要像Hadoop运行启动命令。
通过运行Spark自带的示例,验证Spark是否安装成功。

  1. cd /usr/local/spark
  2. bin/run-example SparkPi

技术分享图片

 

 

执行时会输出非常多的运行信息,输出结果不容易找到,可以通过 grep 命令进行过滤(命令中的 2>&1 可以将所有的信息都输出到 stdout 中,否则由于输出日志的性质,还是会输出到屏幕中):

  1. bin/run-example SparkPi 2>&1 | grep "Pi is"
技术分享图片

 

二、使用 Spark Shell 编写代码

启动Spark Shell

  1. bin/spark-shell

技术分享图片

 

 加载text文件

spark创建sc,可以加载本地文件和HDFS文件创建RDD。这里用Spark自带的本地文件README.md文件测试。

  1. val textFile = sc.textFile("file:///usr/local/spark/README.md")
技术分享图片

加载HDFS文件和本地文件都是使用textFile,区别是添加前缀(hdfs://和file://)进行标识。

 简单的RDD操作:

//获取RDD文件textFile的第一行内容
textFile.first()

技术分享图片

//获取RDD文件textFile所有项的计数
textFile.count()

技术分享图片

//抽取含有“Spark”的行,返回一个新的RDD
val lineWithSpark = textFile.filter(line => line.contains("Spark"))

技术分享图片

//统计新的RDD的行数
lineWithSpark.count()

技术分享图片

退出spark shell

技术分享图片

 

 

假期学习进度十二

原文:https://www.cnblogs.com/lover995/p/12299747.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!