數(shù)據(jù)科學(xué)之路(7)即席查詢工具Impala

我們在前面兩篇中介紹了數(shù)據(jù)倉庫工具 Hive厚骗,但是早期的 Hive 是依賴 Hadoop 的 MapReduce 進(jìn)行并行數(shù)據(jù)處理扭仁,而 MapReduce 作為離線批處理計算框架的延時是非常高的隘马,用 Hive 做實時交互式查詢的等待一般都是在分鐘級別,這顯然無法滿足企業(yè)的即席查詢要求。為了解決實時交互式查詢這一問題坑律,Cloudera 公司開發(fā)了 Impala臂痕,Impala 的查詢速度是 Hive 的 3~30倍伯襟。當(dāng)然,Impala 也提供了數(shù)據(jù)倉庫的功能握童,業(yè)界很多人甚至認(rèn)為姆怪,Impala 將會替代 Hive 成為數(shù)據(jù)倉庫最火的工具。

Impala 系統(tǒng)架構(gòu)

上圖給出了 Impala 的整個系統(tǒng)架構(gòu)澡绩,其中黃色標(biāo)出來的部分是屬于 Impala 的系統(tǒng)組件稽揭,而藍(lán)色部分是 Hadoop 的其他組件,從這張圖小伙伴們就可以明白肥卡,Impala 并不是單獨部署而是跟 Hadoop 的其他組件部署在同一個集群上的溪掀。正是由于部署在同一個集群上,Impala 才可以使用 HDFS 和 HBase 來存儲數(shù)據(jù)步鉴,還可以使用 Hive 為其存儲元數(shù)據(jù)揪胃!

Impalad(Impala Daemon):駐留在集群的每個 DataNode 節(jié)點上的守護(hù)進(jìn)程璃哟,與集群中的其他節(jié)點上的 Impalad 進(jìn)行分布式并行工作,負(fù)責(zé)具體的查詢?nèi)蝿?wù)喊递,其包含三個模塊:Query Planner随闪,Query CoordinatorQuery Exec Engine
Impalad 主要負(fù)責(zé)協(xié)調(diào)客戶端提交的查詢的執(zhí)行骚勘,與 HDFS 的數(shù)據(jù)節(jié)點(HDFS DataNode)運行在同一節(jié)點上铐伴,這樣可以就近處理數(shù)據(jù),實現(xiàn)了計算向數(shù)據(jù)靠攏俏讹。給其他 Impalad 分配任務(wù)以及收集其他 Impalad 的執(zhí)行結(jié)果進(jìn)行匯總盛杰,這也比較好理解,對于大規(guī)模數(shù)據(jù)藐石,要想快速得到結(jié)果即供,肯定是分布式查詢,將一個大的查詢分成很多的子查詢于微,每個子查詢(Impalad 執(zhí)行其他 Impalad 給其分配的任務(wù)逗嫡,對本地 HDFS 和 HBase 里的部分?jǐn)?shù)據(jù)進(jìn)行操作)處理一個節(jié)點上的數(shù)據(jù),然后再將這些結(jié)果進(jìn)行匯總株依。

StateStore:負(fù)責(zé)整個元數(shù)據(jù)管理和狀態(tài)信息維護(hù)驱证,每個 Impala 的查詢提交時,系統(tǒng)都會為其創(chuàng)建一個 StateStored 進(jìn)程恋腕,前面我們剛提到 Impalad 會將一個查詢?nèi)蝿?wù)分解成很多子查詢抹锄,并讓其他節(jié)點上的 Impalad 為其執(zhí)行子查詢?nèi)蝿?wù),那么 Impala 如何知道這些子查詢是否成功了呢荠藤?就要靠 StateStored 進(jìn)程去跟蹤每個 Impalad 的執(zhí)行情況以及監(jiān)控狀態(tài)信息伙单。所以,StateStored 進(jìn)程就是負(fù)責(zé)收集分布在集群中各個 Impalad 進(jìn)程的資源信息用于查詢調(diào)度哈肖。

CLI:即用戶訪問接口吻育,給用戶提供查詢使用的命令行工具。

需要注意的是淤井,Impala 的元數(shù)據(jù)是直接存儲在 Hive 中的布疼。所以,Impala 采用與 Hive 相同的元數(shù)據(jù)币狠、相同的 SQL 語法游两,相同的 ODBC 驅(qū)動程序和用戶接口,這樣做的好處是可以在一個 Hadoop 平臺上統(tǒng)一部署 Hive 和 Impala 等分析工具漩绵,實現(xiàn)在一個平臺上可以同時滿足批處理和實時查詢贱案。

Impala 查詢的執(zhí)行過程

第0步,在用戶提交查詢之前渐行,Impala 就已經(jīng)創(chuàng)建了一個負(fù)責(zé)協(xié)調(diào)客戶端提交查詢的 Impalad 進(jìn)程轰坊,該進(jìn)程會向 StateStore 提交注冊訂閱信息铸董,StateStore 會創(chuàng)建一個 statestored 進(jìn)程,statestored 進(jìn)程通過創(chuàng)建多個線程來處理 Impalad 的注冊訂閱信息肴沫。
第1步粟害,用戶通過 CLI 客戶端提交一個查詢到 Impalad 進(jìn)程,Impalad 的 Query Planner 對 SQL 語句進(jìn)行解析颤芬,生成解析樹悲幅,Planner 把這個查詢的解析樹再變成若干 PlanFragment,發(fā)送到 Query Coordinator站蝠。
第2步汰具,Coordinator 通過從 MySQL 元數(shù)據(jù)庫中獲取元數(shù)據(jù),從 HDFS 的 NameNode 節(jié)點中獲取數(shù)據(jù)的存儲地址菱魔,以得到存儲這個查詢相關(guān)數(shù)據(jù)的所有數(shù)據(jù)節(jié)點留荔。
第3步,Coordinator 初始化相應(yīng) Impalad 上的任務(wù)執(zhí)行澜倦,即把查詢?nèi)蝿?wù)分配給所有存儲這個查詢相關(guān)數(shù)據(jù)的數(shù)據(jù)節(jié)點聚蝶。
第4步档礁,Query Executor 通過流式交換中間輸出秽澳,并由 Query Coordinator 匯聚來自各個 Impalad 的結(jié)果。
第5步奇瘦,Coordinator 把匯總后的結(jié)果返回給 CLI 客戶端桩卵。

Impala 與 Hive 的比較

不同點

  1. Hive 適合長時間的批處理查詢分析验靡,而 Impala 適合實時交互式 SQL 查詢。
  2. Hive 依賴于 MapReduce 計算框架雏节,Impala 把整個執(zhí)行計劃表現(xiàn)為一棵完整的執(zhí)行計劃樹胜嗓,直接分發(fā)執(zhí)行計劃到各個 Impalad 執(zhí)行查詢。
  3. Hive 在執(zhí)行過程中矾屯,如果內(nèi)存放不下所有數(shù)據(jù)則會啟用磁盤兼蕊,以保證查詢可以順利執(zhí)行。但是 Impala 在遇到內(nèi)存放不下的情況時件蚕,不會利用磁盤。

相同點

  1. Hive 和 Impala 均采用 HDFS 和 HBase 存儲數(shù)據(jù)产禾。
  2. Hive 和 Impala 均使用相同的元數(shù)據(jù)排作。
  3. Hive 和 Impala 均是通過將 SQL 解析處理成計劃樹,生成執(zhí)行計劃亚情。

那么妄痪,通過本篇的講解,相信小伙伴們已經(jīng)對 Impala 有了定位楞件,Impala 的存在并不是為了取代 Hive衫生,而是為了彌補 Hive 的處理時間過長裳瘪,無法做到實時查詢的問題。所以罪针,企業(yè)在實際使用時彭羹,往往是配合使用 Hive 和 Impala,即先用 Hive 對數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理之后泪酱,再使用 Impala 在 Hive 處理完成的數(shù)據(jù)集上進(jìn)行快速數(shù)據(jù)分析派殷。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市墓阀,隨后出現(xiàn)的幾起案子毡惜,更是在濱河造成了極大的恐慌,老刑警劉巖斯撮,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件经伙,死亡現(xiàn)場離奇詭異,居然都是意外死亡勿锅,警方通過查閱死者的電腦和手機(jī)橱乱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來粱甫,“玉大人泳叠,你說我怎么就攤上這事〔柘” “怎么了危纫?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長乌庶。 經(jīng)常有香客問我种蝶,道長,這世上最難降的妖魔是什么瞒大? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任螃征,我火速辦了婚禮,結(jié)果婚禮上透敌,老公的妹妹穿的比我還像新娘盯滚。我一直安慰自己,他們只是感情好酗电,可當(dāng)我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布魄藕。 她就那樣靜靜地躺著,像睡著了一般撵术。 火紅的嫁衣襯著肌膚如雪背率。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天,我揣著相機(jī)與錄音寝姿,去河邊找鬼交排。 笑死,一個胖子當(dāng)著我的面吹牛饵筑,可吹牛的內(nèi)容都是我干的埃篓。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼翻翩,長吁一口氣:“原來是場噩夢啊……” “哼都许!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起嫂冻,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤胶征,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后桨仿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體睛低,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年服傍,在試婚紗的時候發(fā)現(xiàn)自己被綠了钱雷。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡吹零,死狀恐怖罩抗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情灿椅,我是刑警寧澤套蒂,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站茫蛹,受9級特大地震影響操刀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜婴洼,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一骨坑、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧柬采,春花似錦欢唾、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至杀迹,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背树酪。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工浅碾, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人续语。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓垂谢,卻偏偏與公主長得像,于是被迫代替她去往敵國和親疮茄。 傳聞我的和親對象是個殘疾皇子滥朱,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容