您现在的位置是:主页 > news > 巴中建设机械网站/网站推广与优化方案

巴中建设机械网站/网站推广与优化方案

admin2025/6/22 22:37:05news

简介巴中建设机械网站,网站推广与优化方案,襄阳微信网站建设,网站建设报价书概述确保 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 指向包含 Hadoop(客户端)配置文件的目录。这些配置文件用于写HDFS和连接YARN ResourceManager。这个目录下包含的配置文件被分发给YARN集群,这样application所使用的容器都使用同样的配置。如果配置引用了Java系统属性…

巴中建设机械网站,网站推广与优化方案,襄阳微信网站建设,网站建设报价书概述确保 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 指向包含 Hadoop(客户端)配置文件的目录。这些配置文件用于写HDFS和连接YARN ResourceManager。这个目录下包含的配置文件被分发给YARN集群,这样application所使用的容器都使用同样的配置。如果配置引用了Java系统属性…
65975095c012fae90c6e3c75f6fafb22.png

概述

确保 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 指向包含 Hadoop(客户端)配置文件的目录。这些配置文件用于写HDFS和连接YARN ResourceManager。这个目录下包含的配置文件被分发给YARN集群,这样application所使用的容器都使用同样的配置。如果配置引用了Java系统属性或非YARN管理的环境变量,他们也应该被配置在Spark application的配置中(driver,executors,client 模式下的AM)。

有两种YARN上的部署模式。cluster模式,Spark driver运行在由YARN管理的一个application master进程内。启动这个application后,客户端可以撤离。client模式,driver运行在客户端进程内,application master仅被用于向YARN请求资源。

和Spark standalone,Mesos不同,部署在YARN上,master的地址由--master指定,ResourceManager的地址从Hadoop配置中获取。这样--master配置为”yarn”。

以cluster模式在YARN上运行application

$ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] [app options]

例如:

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi

--master yarn

--deploy-mode cluster

--driver-memory 4g

--executor-memory 2g

--executor-cores 1

--queue thequeue

lib/spark-examples*.jar

10

上面启动一个 YARN 客户端程序,这个客户端程序启动了默认的 Application Master。SparkPi将作为Application Master的子线程运行。客户端定期地轮询Application Master获得状态的更新并将在控制台展示出来。一旦Application 运行完成客户端就退出。

添加其他的jar

在cluster模式下,driver运行在与客户端不同的机器上,因此SparkContext.addJar不能使用位于客户端本地的文件。为了使SparkContext.addJar可以利用客户端本地文件,通过--jars指定这些文件(jar)。

$ ./bin/spark-submit --class my.main.Class

--master yarn

--deploy-mode cluster

--jars my-other-jar.jar,my-other-other-jar.jar

my-main-jar.jar

app_arg1 app_arg2

准备工作

在YARN上运行Spark需要YARN 支持的binary distribution of Spark(Spark的二进制分布式文件),可以下载他:

http://spark.apache.org/downloads.html

为了能够在YARN上使用Spark运行时jar(Spark runtime jars),需要设置spark.yarn.archive 或spark.yarn.jars,如果没有指定其中之一,那么Spark会将$SPARK_HOME/jars下的文件打包为zip文件并上传到分布式缓存。

为了省去这个过程,将jar包放到HDFS上,并在程序中设置这个参数:

sparkConf.set("spark.yarn.jar