可用性調(diào)優(yōu)
SPARK-13793
之前的PipedRDD實(shí)現(xiàn)容錯性較差颓哮,只要發(fā)生fetch錯誤時,整個job就會失敗,該P(yáng)R改進(jìn)了PipedRDD從而可以更優(yōu)雅地處理fetch錯誤,使得job可以從失敗中恢復(fù);
SPARK-13369
可配置最大fetch失敗次數(shù)丹泉,對于長時間運(yùn)行的服務(wù),由于機(jī)器重啟導(dǎo)致fetch失敗的次數(shù)可能會顯著增加萝风,這里增加了一個可配置fetch失敗的最大次數(shù)(4-20)從而使得任務(wù)更加魯邦嘀掸。
SPARK-13279
反應(yīng)遲鈍的driver,當(dāng)添加一個task時driver會操作(O^2)次導(dǎo)致反應(yīng)遲鈍规惰,導(dǎo)致job阻塞或者被Killed睬塌。當(dāng)提交200k個tasks時,executor不能再注冊由于driver被阻塞住歇万,通過jstask觀察鎖在
TaskSchedulerImpl.submitTasks
上揩晴。
SPARK-13850
TimSort存在存在一處bug導(dǎo)致處理內(nèi)存操作時導(dǎo)致curruption;
調(diào)節(jié)shuffle service使得可以處理更大量的連接
通過設(shè)置
spark.shuffle.io.serverThreads
和spark.shuffle.io.backLog
來處理在shuffle階段executor的timeout情況贪磺;
SPARK-13958
發(fā)現(xiàn)host處理4個reduce任務(wù)時會發(fā)生OOM硫兰,發(fā)現(xiàn)了一處ShuffleExternal溢出內(nèi)存時的bug;
性能提升
性能監(jiān)控工具
- SparkUI
- jstack
- libperfagent for Java symbol生成火焰圖
參考: