spark褪猛,es之踩坑記

這幾天用spark和es寫了點(diǎn)統(tǒng)計(jì)和查詢,記錄下這過程中踩過的一些坑羹饰。

先說說spark中的坑吧伊滋,記得之前在書上看spark算子的時(shí)候碳却,是這么說action和transformation的區(qū)別的:transformation變換/轉(zhuǎn)換算子:這種變換并不觸發(fā)提交作業(yè),完成作業(yè)中間過程處理笑旺。action行動(dòng)算子:這類算子會(huì)觸發(fā) sparkcontext 提交 job 作業(yè)昼浦。

當(dāng)時(shí)看過之后也沒太在意這句話,可是這幾天真正實(shí)踐的時(shí)候出現(xiàn)了一個(gè)百思不得其解的問題筒主。好吧关噪,當(dāng)我信心滿滿的寫完一堆map,filter,groupby的時(shí)候開始調(diào)試,問題來了乌妙,map函數(shù)的斷點(diǎn)死活進(jìn)不去使兔,頓時(shí)開始懷疑人生......后來偶然間和一個(gè)網(wǎng)友討論這事兒,才得知這里的奧秘,map屬于transformation藤韵,它是會(huì)延遲加載的虐沥,只有當(dāng)你調(diào)用了rdd.collect才會(huì)觸發(fā)map去執(zhí)行,也就是上面說的那兩類算子的區(qū)別泽艘。

第二個(gè)問題欲险,我要從es里面查詢每天的流量數(shù)據(jù),然后拿到里面的每條數(shù)據(jù)根據(jù)ip分組統(tǒng)計(jì)該ip的訪問次數(shù)匹涮,然后就噌噌寫完了天试,當(dāng)時(shí)想的是用es查詢,分組統(tǒng)計(jì)直接spark reducebykey然低。寫慣了java面向?qū)ο蟮拇a秋秤,自然而然的就在循環(huán)里調(diào)了連接spark-es的context,然后reducebykey了脚翘。很顯然這樣功能是實(shí)現(xiàn)了灼卢,但是性能卻會(huì)有很大影響,而且spark的函數(shù)有點(diǎn)類似于面向過程的思想来农,這么調(diào)用顯然不符合思想鞋真,最終換成了es的分組聚合。

最后一個(gè)es的奇葩的問題沃于,按照時(shí)間范圍搜索的時(shí)候涩咖,明明有數(shù)據(jù)在那個(gè)范圍內(nèi),死活就是搜索不出來繁莹,后來發(fā)現(xiàn)mapping里這個(gè)字段竟然是string類型的檩互,好坑,然后各種刪mapping咨演,再重建闸昨。最后把那個(gè)字段的日期定義成了date,再次搜索完美解決,還需要注意一個(gè)地方饵较,時(shí)間的查詢條件最好寫成毫秒值拍嵌,那樣的話就不會(huì)出現(xiàn)什么日期轉(zhuǎn)化異常,省的在這上面浪費(fèi)時(shí)間了循诉。

剛接觸es好多坑還需要繼續(xù)踩横辆,歡迎有用到這些技術(shù)的朋友一起探討!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末茄猫,一起剝皮案震驚了整個(gè)濱河市狈蚤,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌划纽,老刑警劉巖脆侮,帶你破解...
    沈念sama閱讀 212,542評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異阿浓,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)蹋绽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門芭毙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人卸耘,你說我怎么就攤上這事退敦。” “怎么了蚣抗?”我有些...
    開封第一講書人閱讀 158,021評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵侈百,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我翰铡,道長(zhǎng)钝域,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,682評(píng)論 1 284
  • 正文 為了忘掉前任锭魔,我火速辦了婚禮例证,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘迷捧。我一直安慰自己织咧,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,792評(píng)論 6 386
  • 文/花漫 我一把揭開白布漠秋。 她就那樣靜靜地躺著笙蒙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪庆锦。 梳的紋絲不亂的頭發(fā)上捅位,一...
    開封第一講書人閱讀 49,985評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼绿渣。 笑死朝群,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的中符。 我是一名探鬼主播姜胖,決...
    沈念sama閱讀 39,107評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼淀散!你這毒婦竟也來了右莱?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,845評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤档插,失蹤者是張志新(化名)和其女友劉穎慢蜓,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體郭膛,經(jīng)...
    沈念sama閱讀 44,299評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡晨抡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,612評(píng)論 2 327
  • 正文 我和宋清朗相戀三年组题,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了久橙。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,747評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡同欠,死狀恐怖棍现,靈堂內(nèi)的尸體忽然破棺而出调煎,到底是詐尸還是另有隱情,我是刑警寧澤己肮,帶...
    沈念sama閱讀 34,441評(píng)論 4 333
  • 正文 年R本政府宣布士袄,位于F島的核電站,受9級(jí)特大地震影響谎僻,放射性物質(zhì)發(fā)生泄漏娄柳。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,072評(píng)論 3 317
  • 文/蒙蒙 一艘绍、第九天 我趴在偏房一處隱蔽的房頂上張望西土。 院中可真熱鬧,春花似錦鞍盗、人聲如沸需了。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,828評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽肋乍。三九已至,卻和暖如春敷存,著一層夾襖步出監(jiān)牢的瞬間墓造,已是汗流浹背堪伍。 一陣腳步聲響...
    開封第一講書人閱讀 32,069評(píng)論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留觅闽,地道東北人帝雇。 一個(gè)月前我還...
    沈念sama閱讀 46,545評(píng)論 2 362
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像蛉拙,于是被迫代替她去往敵國和親尸闸。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,658評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容