Skip to content

Spark性能调优广播变量(非决定性)

liaotian1005 edited this page Nov 17, 2018 · 1 revision

前三点具有决定性 资源, 并行度、 rdd缓存, 这一点是非决定性 比如通用变量map . 有1000个 每个1m, 第一首先通过网络传输 1000次 就1g 网络开销需要时间, 其次map过大 会导致内存异常 如果是那个表的维度数据就更大,100m 100g网络传输.因此消耗内存.

task大变量(0-100)使用广播变量 BroadCast广播出去.

一个Executor对应一个 blockManager 负责管理executor内存和磁盘上的数据

task首先再blockManager找寻 变量,刚开始没有,没有通过blockManger 从driver中找. 另外的直接去blockManger拿

Clone this wiki locally