DT近期合作爬坑記錄

DT代碼中的坑

連續(xù)兩周時間都在支持DT以及相關(guān)的label的開發(fā)
能夠明顯的發(fā)現(xiàn)DT提供的代碼質(zhì)量非常之差。列舉出來哟楷，前事不忘后事之師。

hard core

在spark的代碼中，將master 以及入?yún)⑷縣ard core，入?yún)⒉槐卣f他嗽仪，將master 設(shè)置之后，我spark submit可是會報錯的啊柒莉。

不轉(zhuǎn)為String 直接saveAsTextFile

常常出現(xiàn)

(ABACD,ADF,1)

[Ljava.long.String;@76abcd405]

前者是元組直接輸出闻坚，后者輸出的是地址，寫代碼的時候一定需要注意

集群600G 內(nèi)存兢孝，輸入200G 全部cache

恩 cache 的確可以提高效率窿凤，但是你這個樣子做，確定不會oom跨蟹？

多次join

輸入為（A,B,C）
希望得到的輸出（A,B/sum(B),B,D）
做了多次join,開銷非常之大
在實踐之前雳殊，可以先進(jìn)行采樣，加入對A進(jìn)行reduce 之后窗轩，按key分布的數(shù)據(jù)量不大相种，傾斜不嚴(yán)重的情況下，
可以將join 轉(zhuǎn)變
map 處理為 RDD[String,Map]
再reduce品姓，得到RDD[String,Map]之后寝并，在map內(nèi)部進(jìn)行相似邏輯的操作，這樣能提高效率腹备。

不做異常檢測

維表可能存在空值衬潦，不做異常檢測，直接進(jìn)行string =》 int 的轉(zhuǎn)化植酥，必然異常镀岛。

過濾數(shù)據(jù)

接上，對空值的過濾友驮，需要謹(jǐn)慎再謹(jǐn)慎漂羊，每條數(shù)據(jù)都是很寶貴的，需要非常認(rèn)真的對待卸留，建議在filter之前走越，先sample一下，看看數(shù)據(jù)是什么樣子耻瑟，看看要filter的數(shù)據(jù)是什么樣子旨指，再做決斷。

sample的重要性

既然用到了spark 處理的數(shù)據(jù)量級自然不會小喳整，在大數(shù)據(jù)量測試之前務(wù)必使用小數(shù)據(jù)量進(jìn)行邏輯的驗證谆构，直接用大數(shù)據(jù)量跑的話，耗時耗資源不去說框都，萬一錯了搬素，代價也很大。

其他非代碼的坑

維表過多

維表過多，導(dǎo)致管理起來非常困難熬尺，一定要協(xié)商好一個更新機(jī)制

Spark-submit 腳本

這個必須有何荚，整理的晚了，每次提交都要重新編寫猪杭，雖然時間不多餐塘，但多幾次，很容易讓人狂躁
整理了如下一個模板
spark-submit模板

信息溝通必須及時

最后編輯于：2018.07.03 00:11:48

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末皂吮，一起剝皮案震驚了整個濱河市戒傻，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌蜂筹，老刑警劉巖需纳，帶你破解...
沈念sama閱讀 218,755評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異艺挪，居然都是意外死亡不翩，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門麻裳，熙熙樓的掌柜王于貴愁眉苦臉地迎上來口蝠，“玉大人，你說我怎么就攤上這事津坑∶钫幔” “怎么了？”我有些...
開封第一講書人閱讀 165,138評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵疆瑰，是天一觀的道長眉反。經(jīng)常有香客問我，道長穆役，這世上最難降的妖魔是什么寸五？我笑而不...
開封第一講書人閱讀 58,791評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮耿币，結(jié)果婚禮上梳杏，老公的妹妹穿的比我還像新娘。我一直安慰自己掰读，他們只是感情好秘狞，可當(dāng)我...
茶點故事閱讀 67,794評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蹈集，像睡著了一般。火紅的嫁衣襯著肌膚如雪雇初。梳的紋絲不亂的頭發(fā)上拢肆，一...
開封第一講書人閱讀 51,631評論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼郭怪。笑死支示，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的鄙才。我是一名探鬼主播颂鸿，決...
沈念sama閱讀 40,362評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼攒庵！你這毒婦竟也來了嘴纺？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,264評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤浓冒，失蹤者是張志新（化名）和其女友劉穎栽渴，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體稳懒，經(jīng)...
沈念sama閱讀 45,724評論 1贊 315
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡闲擦，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,900評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了场梆。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片墅冷。...
茶點故事閱讀 40,040評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖或油，靈堂內(nèi)的尸體忽然破棺而出俺榆，到底是詐尸還是另有隱情，我是刑警寧澤装哆，帶...
沈念sama閱讀 35,742評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布罐脊，位于F島的核電站，受9級特大地震影響蜕琴，放射性物質(zhì)發(fā)生泄漏萍桌。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,364評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一凌简、第九天我趴在偏房一處隱蔽的房頂上張望上炎。院中可真熱鬧，春花似錦雏搂、人聲如沸藕施。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,944評論 0贊 22
一樁弒父案凸郑，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽裳食。三九已至，卻和暖如春芙沥，著一層夾襖步出監(jiān)牢的瞬間诲祸，已是汗流浹背浊吏。一陣腳步聲響...
開封第一講書人閱讀 33,060評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留救氯，地道東北人找田。一個月前我還...
沈念sama閱讀 48,247評論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長得像着憨，于是被迫代替她去往敵國和親墩衙。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,979評論 2贊 355