We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
rdd架构重构优化 尽量重复使用rdd,抽取一个公共rdd 公共rdd一定实现持久化(BlockManager).
持久化 也是可以序列化的, 如何正常持久化可能导致oom
当内存无法支撑rdd存放的时候,使用序列化的方式存储, 将rdd partition数据,序列化成一个大的字节数组,就一个对象,大大减少内存的空间占用,(jvm层面) 但是需要反序列化, 如果还是oom,考虑内存加磁盘,
再不行 内存+磁盘 序列化
使用持久化双副本机制. 持久化一份副本放在其他节点上,丢失了 从其他机器拿, 如果内存充足