Skip to content

重构rdd架构以及持久化

liaotian1005 edited this page Nov 17, 2018 · 1 revision

rdd架构重构优化 尽量重复使用rdd,抽取一个公共rdd 公共rdd一定实现持久化(BlockManager).

持久化 也是可以序列化的, 如何正常持久化可能导致oom

当内存无法支撑rdd存放的时候,使用序列化的方式存储, 将rdd partition数据,序列化成一个大的字节数组,就一个对象,大大减少内存的空间占用,(jvm层面) 但是需要反序列化, 如果还是oom,考虑内存加磁盘,

再不行 内存+磁盘 序列化

使用持久化双副本机制. 持久化一份副本放在其他节点上,丢失了 从其他机器拿, 如果内存充足

Clone this wiki locally