Spark的框架

1.组成(主从结构)

client

提交应用的客户端

master(ResourceManager)

主节点,standalone模式时,为master;yarn模式时,为ResourceManager

worker(NodeManager)

从节点,standalone模式时,为worker;yarn模式时,为NodeManager

driver

负责协调应用提交后的一个分布式应用程序,包含一下内容

(1)SparkContext

spark上下文环境,负责应用程序的生命周期

(2)RDD DAG

弹性分布式数据集,spark的计算单元,一组弹性分布式数据集,可以形成有向无环图

(3)DAG scheduler

根据应用构建基于stage(阶段)的有向无环图,并将stage提交给task scheduler

(4)Task scheduler

将包和文件进行序列化,task任务传送给worker上的executor执行

(5)SparkEnv

线程级别的上下文

  • SparkConf

       配置信息

  • broadcastManager

      存储广播变量和元数据信息

 

2.流程

(1)client提交应用给master

(2)master发送指令给worker,worker收到指令,创建driver

(3)driver向master申请资源,并将应用转化等RDD graph

(4)DAG scheduler将RDD graph转化成基于stage的有向无环图

(5)Task scheduler将基于stage的有向无环图图转化成task,将文件和包序列化,传送给对应的worker上的executor执行。

 参考书籍:《循序渐进Spark》

相关文章

1.SparkStreaming是什么?SparkStreaming是SparkCore的扩展A...
本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识...
本篇文章给大家分享的是有关如何进行Spark数据分析,小编觉得...
本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别...
这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数...
本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识,...