Skip to content

数据倾斜解决方案sample

liaotian1005 edited this page Dec 18, 2018 · 1 revision

先对数据进行抽样,比如10%,
找出前n最多key,
将rdd分为两个rdd,
一个是最多的key rdd,
一个是普通rdd.
分好之后两个rdd,分别join另外张表,再合并

Clone this wiki locally