小樱知识 > 生活常识spark 安装教程（spark环境搭建及配置）

spark 安装教程（spark环境搭建及配置）

提问时间：2022-03-16 12:59:19来源：小樱知识网

一 .spark 安装配置

注：按照自己saprk 安装包版本安装

1、下载，解压

$tar zxf spark-1.6.1-bin-2.5.0-cdh5.3.6.tgz

-C /opt/modules/

2、配置

重命名mv spark-env.sh.template spark-env.sh

JAVA_HOME=/opt/modlues/jdk1.7.0_67

SCALA_HOME=/opt/modlues/scala-2.10.4

HADOOP_CONF_DIR=

/opt/modlues/hadoop-2.5.0/etc/hadoop

3、启动HDFS服务

$sbin/hadoop-daemon.sh start namenode

$sbin/hadoop-daemon.sh start datanode

$sbin/start-master.sh

$start-slaves.sh

4、常见问题

命令强制离开

$bin/hadoop dfsadmin -safemode leave

二、实现WordCount

//hdfs path

方式一

val rdd = sc.textFile(“/input/wc.txt”)

//这是在内存中处理 flatmap函数这是匿名函数

按行读取分割split

val wcrdd=rdd.flatMap(line=>line.split(“\t”)).map(word

=>(word,1)).reduceByKey((a,b)=>(a+b))

//保存到HDFS

wcrdd.saveAsTextFile(“wc-spark”)

方式二

val wcrdd=sc.textFile(“/input/wc.txt”).flatMap(line

=>line.split(“\t”)).map(word=>(word,1)).reduceByKey((a,b)

=>(a+b)).saveAsTextFile(“wc-spark”)

方式三

val rdd = sc.textFile(“/input/wc.txt”)

//分割这个行

val linerdd=rdd.flatMap(line=>line.split(“\t”))

//元组对出现一个就是一个元组对

val kvrdd=linerdd.map(word=>(word,1))

val wcrdd=kvrdd.reduceByKey((a,b)=>(a+b))

wcrdd.saveAsTextFile(“wc-spark”)

方式四

val rdd = sc.textFile(“/input/wc.txt”)

val wcrdd=rdd.flatMap(_.split(“\t”)).map

((_,1)).reduceByKey((_+_))

wcrdd.saveAsTextFile(“wc-spark”)

spark sc：SparkContext（上下文）

Spark context available as sc.

三、spark常用函数

过滤filter

val rdd = sc.textFile(“/input/wc.txt”).filter

(line=>line.contains(“hadoop”))

val wcrdd=rdd.flatMap(_.split(“\t”)).map

((_,1)).reduceByKey((_+_))

循环foreach

wcrdd.foreach(word=>println(word))

//查看函数

wcrdd.first

wcrdd.take(3)

wcrdd.top(3)

wcrdd.collect 查看结果

wcrdd.count

//缓存

wcrdd.cache

wcrdd.count//使缓存生效

四、spark 二次排序

分析：（spark，2）=》（2，spark）》sortByKey(false)=》

（2，spark）=》（spark，2）

代码：

val rdd = sc.textFile(“/input/wc.txt”)

val wcrdd=rdd.flatMap(_.split(“\t”)).map

((_,1)).reduceByKey((_+_))

val sortrdd=wcrdd.map(word=>(word._2,word._1)).

sortByKey(false).map(word=>(word._2,word._1))

sortrdd.collect

//top:自带排序

val sortrdd=wcrdd.map(word=>(word._2,word._1)).top(3)

五、spark standalone集群模式的配置

1、sparp-evn

//主节点配置

SPARK_MASTER_IP=li(主机名)

SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080

//从节点配置

SPARK_WORKER_CORES=2

SPARK_WORKER_MEMORY=2g

SPARK_WORKER_PORT=7078

SPARK_WORKER_WEBUI_PORT=8081

SPARK_WORKER_INSTANCES=1

2、slaves

写入hostname名称：自己主机名

3、启动服务

$sbin/start-master.sh

$start-slaves.sh

4、spark-shell常用命令行参数

帮助信息查看：

$bin/spark-shell –help

（1）spark运行在本地模式下：

$bin/spark-shell –master local

或者$bin/spark-shell

//本地

bin/spark-shell \

–class org.apache.spark.examples.SparkPi \

–master local \

–jars lib/spark-examples-1.6.1-hadoop2.5.0-cdh5.3.6.jar \

100

//集群

bin/spark-shell \

–class org.apache.spark.examples.SparkPi \

–master spark://bigdata.beifeng.com:7077 \

–jars lib/spark-examples-1.6.1-hadoop2.5.0-cdh5.3.6.jar \

100

spark-shell和spark-submit

一般执行脚本时使用spark-shell；

一般向集群提交job是使用spark-submit。

spark-shell的本质是spark-submit

spark-shell和spark-submit通知只能使用一个

//本地

bin/spark-submit \

–class org.apache.spark.examples.SparkPi \

–master local \

lib/spark-examples-1.6.1-hadoop2.5.0-cdh5.3.6.jar \

100

//集群

bin/spark-submit \

–class org.apache.spark.examples.SparkPi \

–master spark://bigdata.beifeng.com:7077 \

lib/spark-examples-1.6.1-hadoop2.5.0-cdh5.3.6.jar \

100

//spark开发时模式的使用

一般本地模式适合本地开发测试。集群模式适合生产环境

六、spark日志聚合功能配置

1、spark-env.sh

SPARK_HISTORY_OPTS=”-Dspark.history.fs.logDirectory

=hdfs://192.168.1.1:8020/user/li/spark-events”

注：spark-events目录需要创建

2、spark-default.conf

spark.eventLog.enabled

true

spark.eventLog.dir

hdfs://192.168.1.1:8020/user/li/spark-events

注：spark.eventLog.dir 目录和

-Dspark.history.fs.logDirectory保持一致

3、启动history服务

$sbin/start-history-server.sh

以上内容就是为大家推荐的spark 安装教程（spark环境搭建及配置）最佳回答，如果还想搜索其他问题，请收藏本网站或点击搜索更多问题

内容来源于网络仅供参考

扫一扫关注我们

本文标题：spark 安装教程（spark环境搭建及配置）

本文地址：https://www.xiaoyin02.com/shcs/118189.html

上一篇：win10原版系统安装步骤（2021目前win10最稳定的版本）

下一篇：远程安装软件怎么操作（手机推送电视安装软件）

小美绝密视频展示合集5V2.6G推特福利姬珍藏版

校花小美特殊才艺展示视频合集解析...

2025-12-09
推书郑原创OL职场新人339MB私密教程

职场新人成长记录...

2025-10-08
快手高倩308M肉肉收藏4V全L深蹲趴姿势练习视频教程

快手上有一位网红...

2025-10-07
亚裔妹子AikoDoll合集第四弹[50V+82.72G][百度盘]，分割打包，手机解压教程

标题：亚裔妹子AikoDoll合集第四弹[50V+82.72G][百度盘]...

2025-06-07
转载vlog百度盘解压教程糖心91V500M，海南约会御姐音

### 转载vlog百度盘解压教程糖心91V500M...

2025-05-13

站点导航

spark 安装教程（spark环境搭建及配置）

一 .spark 安装配置

1、下载，解压

2、配置

3、启动HDFS服务

4、常见问题

二、实现WordCount

方式一

方式二

方式三

方式四

三、spark常用函数

过滤filter

循环foreach

四、spark 二次排序

五、spark standalone集群模式的配置

六、spark日志聚合功能配置

扫一扫关注我们

小美绝密视频展示合集5V2.6G推特福利姬珍藏版

推书郑原创OL职场新人339MB私密教程

快手高倩308M肉肉收藏4V全L深蹲趴姿势练习视频教程

亚裔妹子AikoDoll合集第四弹[50V+82.72G][百度盘]，分割打包，手机解压教程

转载vlog百度盘解压教程糖心91V500M，海南约会御姐音

推特合集双木有夕55部3.48G优质妻子

男王抖馒头474部快手合集27G绝密展示

合集Miuzxc乱来反差39.8G37部太诱人了

十月美女泄密视频推特合集50部1.65G太诱人了

茶姬430V福利合集171G霸王新作

推特蔬菜高汤约会女神合集66部1G超顶

推特ICICIS女大学生合集140部20.7G火辣

海角奶气草莓23部3.73G劲爆合集