Spark RDD 弹性

弹性之一:自动进行内存和磁盘数据存储的切换

spark 数据存储优先考虑内存,如果内存放不下,自动放到磁盘

弹性之二:基于Lineage的高校容错

弹性之三:Task如果失败会自动进行特定次数的重试

弹性之四:Stage如果失败会自动进行特定次数的重试

(如果阶段计算失败,只重新计算失败的数据分片)

弹性之五:checkpoint 和 persisit

弹性之六:数据调度弹性 DAG Task 和资源管理无关

弹性之七:数据分片的高度弹性,repartition

弹性之八: