我們常說 打江山難,坐江山更難博个,hadoop集群搭建不容易,hadoop性能調(diào)優(yōu)就更不簡單功偿,之前就因為 *-site配置文件中的內(nèi)存分配不夠準(zhǔn)確盆佣,連demo中的wordcount 都運行不起來,另外 在我們 生產(chǎn)環(huán)境中,由于阿里云的機器一直不便宜共耍,我們的節(jié)點有限虑灰,在運行中,數(shù)據(jù)量本身也大痹兜,自然運行就慢穆咐,假如 資源分配就還不足夠優(yōu)異,那自然就更難佃蚜。我們老大天天給我做數(shù)學(xué)題庸娱,為甚 運行這么慢,為甚運行這么慢谐算,哎熟尉,它就是一盤大蘿貝!洲脂!
我們讓我們的hadoop 運行足夠 快斤儿,只能在不變的硬件基礎(chǔ)上 進行不斷調(diào)整,
我認(rèn)為 大家可以參考 這兩篇
http://rocketeer.leanote.com/post/Yarn-%E5%B0%8F%E8%AE%B0
http://blog.csdn.net/hy245120020/article/details/75202058
我們的目標(biāo)就是 硬件的所有資源 cpu 和內(nèi)存都充分使用上恐锦,并保證集群的高可用和容災(zāi)可恢復(fù)往果,我們還要保證任務(wù)的task充足的并行度