DT近期合作爬坑記錄

歸檔至github

DT代碼中的坑

連續(xù)兩周時間都在支持DT以及相關(guān)的label的開發(fā)
能夠明顯的發(fā)現(xiàn)DT提供的代碼質(zhì)量非常之差。列舉出來哟楷,前事不忘后事之師。

hard core

在spark的代碼中,將master 以及入?yún)⑷縣ard core,入?yún)⒉槐卣f他嗽仪,將master 設(shè)置之后,我spark submit可是會報錯的啊柒莉。

不轉(zhuǎn)為String 直接saveAsTextFile

常常出現(xiàn)

(ABACD,ADF,1)

[Ljava.long.String;@76abcd405]

前者是元組直接輸出闻坚,后者輸出的是地址,寫代碼的時候一定需要注意

集群600G 內(nèi)存兢孝,輸入200G 全部cache

恩 cache 的確可以提高效率窿凤,但是你這個樣子做,確定不會oom跨蟹?

多次join

輸入為 (A,B,C)
希望得到的輸出 (A,B/sum(B),B,D)
做了多次join,開銷非常之大
在實踐之前雳殊,可以先進(jìn)行采樣,加入對A進(jìn)行reduce 之后 窗轩,按key分布的數(shù)據(jù)量不大相种,傾斜不嚴(yán)重的情況下,
可以將join 轉(zhuǎn)變
map 處理為 RDD[String,Map]
再reduce品姓, 得到RDD[String,Map]之后寝并,在map內(nèi)部進(jìn)行相似邏輯的操作,這樣能提高效率腹备。

不做異常檢測

維表可能存在空值衬潦,不做異常檢測,直接進(jìn)行string =》 int 的轉(zhuǎn)化植酥,必然異常镀岛。

過濾數(shù)據(jù)

接上,對空值的過濾友驮,需要謹(jǐn)慎再謹(jǐn)慎漂羊,每條數(shù)據(jù)都是很寶貴的,需要非常認(rèn)真的對待卸留,建議在filter之前走越,先sample一下,看看數(shù)據(jù)是什么樣子耻瑟,看看要filter的數(shù)據(jù)是什么樣子旨指,再做決斷。

sample的重要性

既然用到了spark 處理的數(shù)據(jù)量級自然不會小喳整,在大數(shù)據(jù)量測試之前務(wù)必使用小數(shù)據(jù)量進(jìn)行邏輯的驗證谆构,直接用大數(shù)據(jù)量跑的話,耗時耗資源不去說框都,萬一錯了搬素,代價也很大。

其他非代碼的坑

維表過多

維表過多,導(dǎo)致管理起來非常困難熬尺,一定要協(xié)商好一個更新機(jī)制

Spark-submit 腳本

這個必須有何荚,整理的晚了,每次提交都要重新編寫猪杭,雖然時間不多餐塘,但多幾次,很容易讓人狂躁
整理了如下一個模板
spark-submit模板

信息溝通必須及時

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末皂吮,一起剝皮案震驚了整個濱河市戒傻,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蜂筹,老刑警劉巖需纳,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異艺挪,居然都是意外死亡不翩,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進(jìn)店門麻裳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來口蝠,“玉大人,你說我怎么就攤上這事津坑∶钫幔” “怎么了?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵疆瑰,是天一觀的道長眉反。 經(jīng)常有香客問我,道長穆役,這世上最難降的妖魔是什么寸五? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮耿币,結(jié)果婚禮上梳杏,老公的妹妹穿的比我還像新娘。我一直安慰自己掰读,他們只是感情好秘狞,可當(dāng)我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蹈集,像睡著了一般。 火紅的嫁衣襯著肌膚如雪雇初。 梳的紋絲不亂的頭發(fā)上拢肆,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼郭怪。 笑死支示,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的鄙才。 我是一名探鬼主播颂鸿,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼攒庵!你這毒婦竟也來了嘴纺?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤浓冒,失蹤者是張志新(化名)和其女友劉穎栽渴,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體稳懒,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡闲擦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了场梆。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片墅冷。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖或油,靈堂內(nèi)的尸體忽然破棺而出俺榆,到底是詐尸還是另有隱情,我是刑警寧澤装哆,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布罐脊,位于F島的核電站,受9級特大地震影響蜕琴,放射性物質(zhì)發(fā)生泄漏萍桌。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一凌简、第九天 我趴在偏房一處隱蔽的房頂上張望上炎。 院中可真熱鬧,春花似錦雏搂、人聲如沸藕施。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽裳食。三九已至,卻和暖如春芙沥,著一層夾襖步出監(jiān)牢的瞬間诲祸,已是汗流浹背浊吏。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留救氯,地道東北人找田。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像着憨,于是被迫代替她去往敵國和親墩衙。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容