關(guān)于hbase走孽、spark惧辈、hive使用時(shí)的優(yōu)化問題

一、Hbase的優(yōu)化

1磕瓷、JVM優(yōu)化:

1)如:HBase RegionServer 的 Java 配置選項(xiàng)

-XX:+UseParNewGC (設(shè)置年輕代為并行收集)-XX:+UseConcMarkSweepGC(使用CMS內(nèi)存收集) -XX:CMSInitiatingOccupancyFraction=70(使用cms作為垃圾回收使用70%后開始CMS收集) -XX:+CMSParallelRemarkEnabled(降低標(biāo)記停頓) -XX:+UseCompressedOops (壓縮指針盒齿,解決內(nèi)存占用)

2)另外設(shè)置合理的zookeeper.session.timeout,默認(rèn)3分鐘(GC回收時(shí)間如果超過這個(gè)值生宛,zk認(rèn)為宕機(jī)regionserver下線)

2县昂、讀寫性能優(yōu)化:

1)HTable.setAutoFlushTo(false)關(guān)閉自動(dòng)刷新,避免一個(gè)put就執(zhí)行更新陷舅。開啟緩存倒彰、客戶端達(dá)到閾值批量提交給RS。

2)對于日志數(shù)據(jù)可以臨時(shí)關(guān)閉WAL增加性能莱睁。

3)建議少的列族(最優(yōu)不超過3)原因1 多個(gè)列族意味著多個(gè)memstore待讳,內(nèi)存使用大效率低。原因2 假設(shè)列族1 數(shù)據(jù)量大仰剿,列族2數(shù)據(jù)量很少创淡,region分裂時(shí)兩個(gè)都會(huì)分裂,造成列族2分裂到不同的多個(gè)region上造成查詢效率低南吮。

4)設(shè)置Bloomfilter提升讀寫性能定位在那個(gè)hfile上r琳彩;

5)設(shè)置hbase壓縮。

6)設(shè)置hbase.regionserver.handler.count處理RPC線程數(shù)部凑,默認(rèn)10露乏,不是越大越好(OOM)

7)在離線批量讀取請求時(shí)設(shè)置禁用緩存,scan.setBlockCache(false)

8)region拆分:rowkey設(shè)d計(jì)預(yù)分區(qū)涂邀,保證散列瘟仿,讀寫壓力均衡

二、Spark優(yōu)化

1比勉、預(yù)估好資源使用情況劳较,通過submmit時(shí)的配置參數(shù)申請資源。根據(jù)core根據(jù)資源設(shè)置合理的并行度

2浩聋、注意數(shù)據(jù)傾斜观蜗,在shuffle階段,如distinct,groupbykey,join,repartition等赡勘,看是在那個(gè)stage,那個(gè)task嫂便。抽樣數(shù)據(jù),確定是什么key導(dǎo)致闸与,可以通過hive預(yù)處理聚合毙替,或者過濾這些key,單獨(dú)計(jì)算践樱;或者預(yù)處理采用兩步聚合厂画,比如key前加個(gè)隨機(jī)數(shù),聚合一次拷邢,去掉隨機(jī)數(shù)再聚合袱院;

3、另外大表join小表情況采用mapjoin(broadcast+map)瞭稼,

4忽洛、算子的使用,了解執(zhí)行原理环肘,比如reducebykey對比groupbykey的效果欲虚,repartion對比Coalesce,以及map和mappartition等等悔雹,對于可復(fù)用的RDD使用cache,persist或者checkpoint等緩存复哆,以及盡量減少shuffle。

三腌零、hive優(yōu)化

1梯找、排序:orderby,sortby等幾種類型排序的選擇(詳細(xì)見發(fā)布的另外一篇文章)

2、存儲(chǔ)類型優(yōu)化:詳細(xì)見:快速理解Hive的數(shù)據(jù)存儲(chǔ)格式及mapreduce底層原理

3益涧、根據(jù)數(shù)據(jù)量設(shè)置合理的map锈锤、reduce數(shù)量

4、其他:如查詢的過濾條件必須加入分區(qū)篩選闲询, join操作對于大表關(guān)聯(lián)小表時(shí)采用map join久免,對于普通量級別的數(shù)據(jù)采用即席查詢的mpp引擎(presto,impala等等)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市嘹裂,隨后出現(xiàn)的幾起案子妄壶,更是在濱河造成了極大的恐慌,老刑警劉巖寄狼,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件丁寄,死亡現(xiàn)場離奇詭異,居然都是意外死亡泊愧,警方通過查閱死者的電腦和手機(jī)伊磺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來删咱,“玉大人屑埋,你說我怎么就攤上這事√底蹋” “怎么了摘能?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵续崖,是天一觀的道長。 經(jīng)常有香客問我团搞,道長严望,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任逻恐,我火速辦了婚禮像吻,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘复隆。我一直安慰自己拨匆,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布挽拂。 她就那樣靜靜地躺著惭每,像睡著了一般。 火紅的嫁衣襯著肌膚如雪轻局。 梳的紋絲不亂的頭發(fā)上洪鸭,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天,我揣著相機(jī)與錄音仑扑,去河邊找鬼览爵。 笑死,一個(gè)胖子當(dāng)著我的面吹牛镇饮,可吹牛的內(nèi)容都是我干的蜓竹。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼储藐,長吁一口氣:“原來是場噩夢啊……” “哼俱济!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起钙勃,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蛛碌,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后辖源,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蔚携,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年克饶,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了酝蜒。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,144評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡矾湃,死狀恐怖亡脑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤霉咨,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布蛙紫,位于F島的核電站,受9級特大地震影響躯护,放射性物質(zhì)發(fā)生泄漏惊来。R本人自食惡果不足惜丽涩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一棺滞、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧矢渊,春花似錦继准、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至毡鉴,卻和暖如春崔泵,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背猪瞬。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工憎瘸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人陈瘦。 一個(gè)月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓幌甘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親痊项。 傳聞我的和親對象是個(gè)殘疾皇子锅风,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 簡介 HBase是高可靠性,高性能鞍泉,面向列皱埠,可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PC Serve...
    九世的貓閱讀 2,195評論 1 6
  • 【什么是大數(shù)據(jù)咖驮、大數(shù)據(jù)技術(shù)】 大數(shù)據(jù)边器,又稱巨量資料,指的是所涉及的數(shù)據(jù)資料量規(guī)模巨大到無法在合理時(shí)間內(nèi)通過傳統(tǒng)的應(yīng)...
    kimibob閱讀 2,745評論 0 51
  • HBase那些事 @(大數(shù)據(jù)工程學(xué)院)[HBase, Hadoop, 優(yōu)化, HadoopChen, hbase]...
    分癡閱讀 3,944評論 3 17
  • 關(guān)于Mongodb的全面總結(jié) MongoDB的內(nèi)部構(gòu)造《MongoDB The Definitive Guide》...
    中v中閱讀 31,938評論 2 89
  • github鏈接 針對Hive的優(yōu)化主要有以下幾個(gè)方面: map reduce file format shuff...
    zoyanhui閱讀 6,174評論 2 33