使用hive進(jìn)行日志分析

任務(wù)

將一批登陸日志導(dǎo)入到hive中朗若,然后通過hive計(jì)算如下數(shù)據(jù)材失,并將計(jì)算結(jié)果存入mongoDB磨淌。
1级遭、每小時(shí)的登陸用戶數(shù)(qid消重)
2香嗓、每小時(shí)通過各渠道登陸各游戲的用戶數(shù)
3、12月9日10點(diǎn)的新用戶登陸日志的數(shù)據(jù)結(jié)構(gòu)如下所示装畅。



年月時(shí)分秒gkey登陸時(shí)間qid skey 渠道ip地址

步驟

1靠娱、在hive中建立日志的表結(jié)構(gòu)
由于登陸日志中,有一些無用的信息需要剔除掠兄,例如”info像云、SPR“等,因此在建表時(shí)蚂夕,需要通過自定義SerDe(serialize/deserialize迅诬,數(shù)據(jù)序列化和反序列化時(shí)格式化數(shù)據(jù))來提取特定信息。


2婿牍、加載數(shù)據(jù)到登陸日志表
日志文件是按小時(shí)組織的侈贷,因此一天有24個(gè)文件。通過使用“20131208*”可以將12月8號(hào)那天的24個(gè)文件一次性加載到hive中等脂。

3俏蛮、在hive中建立計(jì)算結(jié)果的表結(jié)構(gòu)
storedby指定了該表的存儲(chǔ)位置。這里使用了開源的Hive-mongo程序使hive的計(jì)算結(jié)果直接保存到mongoDB中上遥。tblproperties中指定了mongo的host搏屑、port、db粉楚、collection辣恋。

4蹦疑、加載數(shù)據(jù)到計(jì)算結(jié)果表

遇到的坑

1.加載數(shù)據(jù)到登陸日志表失敗甘邀,所有記錄的值都為null
原因:正則表達(dá)式編寫不正確。由于自定義了表屬性信息serdeproperties扼雏,因此要求正則表達(dá)式必須能與日志格式完全匹配燃异,否則提取不到特定信息携狭。為了寫出正確的正則表達(dá)式,首先在Regex Match Tracer中編寫來匹配日志特铝,成功后再將每個(gè)正則表達(dá)式中的轉(zhuǎn)義字符再加上一個(gè)轉(zhuǎn)義符號(hào)""(詳細(xì)解釋)暑中,但仍然加載不成功壹瘟。仔細(xì)分析后發(fā)現(xiàn)鲫剿,在Regex Match Tracer中用來匹配的那條日志記錄,其"渠道"字段都為字符串稻轨,因此我在正則表達(dá)式中直接使用\w+來匹配灵莲,而日志中絕大多數(shù)的記錄,其“渠道”字段中有分隔符“-”殴俱,從而導(dǎo)致絕大多數(shù)日志記錄不匹配政冻。而每次查看日志表時(shí)枚抵,只查看前10條記錄,恰好前10條記錄都不匹配明场,讓我誤以為所有的都是null汽摹。
2.加載數(shù)據(jù)到計(jì)算結(jié)果表時(shí),經(jīng)常性的失敗
原因:將mongo.host寫成127.0.0.1苦锨。hive會(huì)將操作語(yǔ)句轉(zhuǎn)換為map-reduce任務(wù)逼泣,map-reduce會(huì)在w5-w15集群中進(jìn)行分布式運(yùn)算。本機(jī)為w5舟舒,而mongodb只有在w5上才有拉庶。若任務(wù)分配到w5則能成功連上mongodb,若分配到其他機(jī)器上秃励,則會(huì)嘗試連接其他機(jī)器的mongodb氏仗,當(dāng)然會(huì)連不上而導(dǎo)致失敗。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末夺鲜,一起剝皮案震驚了整個(gè)濱河市皆尔,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌币励,老刑警劉巖床佳,帶你破解...
    沈念sama閱讀 218,036評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異榄审,居然都是意外死亡砌们,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門搁进,熙熙樓的掌柜王于貴愁眉苦臉地迎上來浪感,“玉大人,你說我怎么就攤上這事饼问∮笆蓿” “怎么了?”我有些...
    開封第一講書人閱讀 164,411評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵莱革,是天一觀的道長(zhǎng)峻堰。 經(jīng)常有香客問我,道長(zhǎng)盅视,這世上最難降的妖魔是什么捐名? 我笑而不...
    開封第一講書人閱讀 58,622評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮闹击,結(jié)果婚禮上镶蹋,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好贺归,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,661評(píng)論 6 392
  • 文/花漫 我一把揭開白布淆两。 她就那樣靜靜地躺著,像睡著了一般拂酣。 火紅的嫁衣襯著肌膚如雪秋冰。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,521評(píng)論 1 304
  • 那天婶熬,我揣著相機(jī)與錄音丹莲,去河邊找鬼。 笑死尸诽,一個(gè)胖子當(dāng)著我的面吹牛甥材,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播性含,決...
    沈念sama閱讀 40,288評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼洲赵,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了商蕴?” 一聲冷哼從身側(cè)響起叠萍,我...
    開封第一講書人閱讀 39,200評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎绪商,沒想到半個(gè)月后苛谷,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,644評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡格郁,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,837評(píng)論 3 336
  • 正文 我和宋清朗相戀三年腹殿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片例书。...
    茶點(diǎn)故事閱讀 39,953評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锣尉,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出决采,到底是詐尸還是另有隱情自沧,我是刑警寧澤,帶...
    沈念sama閱讀 35,673評(píng)論 5 346
  • 正文 年R本政府宣布树瞭,位于F島的核電站拇厢,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏晒喷。R本人自食惡果不足惜孝偎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,281評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望厨埋。 院中可真熱鬧邪媳,春花似錦捐顷、人聲如沸荡陷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)废赞。三九已至徽龟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間唉地,已是汗流浹背据悔。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留耘沼,地道東北人极颓。 一個(gè)月前我還...
    沈念sama閱讀 48,119評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像群嗤,于是被迫代替她去往敵國(guó)和親菠隆。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,901評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容