Skip to content

Spark shuffle调优

liaotian1005 edited this page Nov 20, 2018 · 1 revision

什么情况发生shuffle
groupbykey ,reducebykey , countbykey ,join .
什么是shuffle
groupbykey,把分布式在集群各个节点的数据中同一个key,对应的values,集中到一个节点的一个executor 一个task中.
集中完了之后,我们再处理