Powered by GitBook

Spark RDD 弹性

弹性之一：自动进行内存和磁盘数据存储的切换

spark 数据存储优先考虑内存，如果内存放不下，自动放到磁盘

弹性之二：基于Lineage的高校容错

弹性之三：Task如果失败会自动进行特定次数的重试

弹性之四：Stage如果失败会自动进行特定次数的重试

(如果阶段计算失败，只重新计算失败的数据分片)

弹性之五：checkpoint 和 persisit

弹性之六：数据调度弹性 DAG Task 和资源管理无关

弹性之七：数据分片的高度弹性，repartition

弹性之八：