基于大數(shù)據(jù)處理技術(shù)Hadoop的論壇日志分析_謝樹銘.caj

基于大數(shù)據(jù)處理技術(shù)Hadoop的論壇日志分析_謝樹銘.caj

//


Paste_Image.png

使用 HBase 框架對(duì)用戶的【消費(fèi)記錄可以實(shí)現(xiàn)毫秒級(jí)查詢】粘衬。
淘寶的【推薦系統(tǒng)和自定義篩選使用的是 Hive】,可以精確地查詢海量的數(shù)據(jù)。

//

Paste_Image.png

//
2.2.1
功能概述

論壇日志分析系統(tǒng)主要用于通過【收集】到的日志信息咳促,【清洗】數(shù)據(jù)后稚新,
【統(tǒng)計(jì)】出頁面
的瀏覽量
PV(Page View)
、注冊(cè)用戶數(shù)褂删、網(wǎng)站訪問的 ip 數(shù)、網(wǎng)站訪問的跳出率冲茸。

論壇的總瀏覽量可以發(fā)現(xiàn)論壇的受歡迎程度屯阀,用戶對(duì)網(wǎng)站的
興趣程度,就好比【電視收視率】對(duì)于電視劇一樣噪裕,
PV
的統(tǒng)計(jì)就是簡(jiǎn)單的計(jì)算每個(gè)日志
文件中記錄的總和蹲盘。

//流程
論壇系統(tǒng)每天產(chǎn)生的日志文件,是
Apache Commong 格式膳音,每行記錄有 5 部分組
成召衔,分別是訪問 ip、訪問時(shí)間祭陷、訪問資源苍凛、訪問狀態(tài)、本次流量兵志。利用
Flume 把日志文件導(dǎo)入到Hadoop的文件系統(tǒng)HDFS上醇蝴,然后用
Map Reduce程序?qū)?shù)據(jù)進(jìn)行清洗,

清洗完后再利用 Hive
對(duì)數(shù)據(jù)根據(jù)需求和指標(biāo)進(jìn)行統(tǒng)計(jì)分析想罕,若想查詢所有的數(shù)據(jù)信息悠栓,
利用
HBase
查詢展現(xiàn)所有的數(shù)據(jù),分析后的數(shù)據(jù)再利用
sqoop
導(dǎo)入到集群外的數(shù)據(jù)庫(kù)
中按价。

把系統(tǒng)腳本放入
linux
調(diào)度器上惭适,設(shè)定每天凌晨 1 點(diǎn)的時(shí)候自動(dòng)運(yùn)行項(xiàng)目,處理
昨天的日志文件數(shù)據(jù)楼镐。

公司決策者次日就可以得到想要的數(shù)據(jù)癞志。

從上可得出論壇日志分析系統(tǒng)可以分為五個(gè)功能模塊,文件上傳功能模塊框产、數(shù)據(jù)
清洗功能模塊凄杯、數(shù)據(jù)統(tǒng)計(jì)分析功能模塊错洁、數(shù)據(jù)導(dǎo)出功能模塊、數(shù)據(jù)展現(xiàn)功能模塊戒突。

Paste_Image.png

//
Hadoop
的整個(gè)體系結(jié)構(gòu)就是構(gòu)建在
RPC
之上
的屯碴,無論框架如何封裝,底層都是通過
RPC
進(jìn)行交互的妖谴。如下圖示:

Paste_Image.png

//
3.2.2
客戶端與
HDFS
遠(yuǎn)程交互的
RPC
機(jī)制算法實(shí)現(xiàn)

通過查看源碼窿锉,分析可得,
Hadoop

RPC
算法實(shí)現(xiàn)主要由三個(gè)類完成膝舅,
RPC
嗡载、
Client

Server
仍稀,分別提供對(duì)外
RPC
編程接口洼滚、客戶端實(shí)現(xiàn)和服務(wù)器端的實(shí)現(xiàn)。
Hadoop RPC
對(duì)外提供的接口方法主要有
public static Versioned Protocol wait For Proxy(),
負(fù)責(zé)創(chuàng)建客
戶端的代理對(duì)象技潘,向服務(wù)器端發(fā)起
RPC
請(qǐng)求遥巴。
public static Server get Server(),
負(fù)責(zé)創(chuàng)建
服務(wù)器端對(duì)象,用來處理客戶端發(fā)起的請(qǐng)求
[28]
享幽。

Hadoop
的主節(jié)點(diǎn)
Name Node

Hadoop RPC
的服務(wù)端铲掐,底層調(diào)用
get Server()
方法,
實(shí)現(xiàn)了很多接口以滿足不同通信的需要值桩,如
Client Protocol
是客戶端
(File System)

Name Node
通信的接口摆霉,
Datanode Protocol

Data Node

Name Node
通信的接口,
Namenode Protocol

Secondary Name Node

Name Node
通信的接口奔坟。這些接口都繼
承了
versionedprotocol
接口携栋。

客戶端不是直接通過調(diào)用
getproxy()

waitfoproxy()
方法與服務(wù)器端通信的,而是

File System
類操作的咳秉,
filesystem
調(diào)用了
Distributed File System,Distributed File System
調(diào)用
DFSClient
對(duì)象婉支,
DFSClient
是直接調(diào)用
Name Node
接口的對(duì)象與
Name Node

交道的。具體算法步驟如下表:

Paste_Image.png
Paste_Image.png

//p35


Paste_Image.png
Paste_Image.png

//

Paste_Image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末澜建,一起剝皮案震驚了整個(gè)濱河市向挖,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌炕舵,老刑警劉巖户誓,帶你破解...
    沈念sama閱讀 218,204評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異幕侠,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)碍彭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門晤硕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來悼潭,“玉大人,你說我怎么就攤上這事舞箍〗⑼剩” “怎么了?”我有些...
    開封第一講書人閱讀 164,548評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵疏橄,是天一觀的道長(zhǎng)占拍。 經(jīng)常有香客問我,道長(zhǎng)捎迫,這世上最難降的妖魔是什么晃酒? 我笑而不...
    開封第一講書人閱讀 58,657評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮窄绒,結(jié)果婚禮上贝次,老公的妹妹穿的比我還像新娘。我一直安慰自己彰导,他們只是感情好蛔翅,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,689評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著位谋,像睡著了一般山析。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上掏父,一...
    開封第一講書人閱讀 51,554評(píng)論 1 305
  • 那天笋轨,我揣著相機(jī)與錄音,去河邊找鬼损同。 笑死翩腐,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的膏燃。 我是一名探鬼主播茂卦,決...
    沈念sama閱讀 40,302評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼组哩!你這毒婦竟也來了等龙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,216評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤伶贰,失蹤者是張志新(化名)和其女友劉穎蛛砰,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體黍衙,經(jīng)...
    沈念sama閱讀 45,661評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡泥畅,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,851評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了琅翻。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片位仁。...
    茶點(diǎn)故事閱讀 39,977評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡柑贞,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出聂抢,到底是詐尸還是另有隱情钧嘶,我是刑警寧澤,帶...
    沈念sama閱讀 35,697評(píng)論 5 347
  • 正文 年R本政府宣布琳疏,位于F島的核電站有决,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏空盼。R本人自食惡果不足惜书幕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,306評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望我注。 院中可真熱鬧按咒,春花似錦、人聲如沸但骨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽奔缠。三九已至掠抬,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間校哎,已是汗流浹背两波。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留闷哆,地道東北人腰奋。 一個(gè)月前我還...
    沈念sama閱讀 48,138評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像抱怔,于是被迫代替她去往敵國(guó)和親劣坊。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,927評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容