數(shù)據(jù)科學(xué)之路（7）即席查詢工具Impala

我們在前面兩篇中介紹了數(shù)據(jù)倉庫工具 Hive厚骗，但是早期的 Hive 是依賴 Hadoop 的 MapReduce 進(jìn)行并行數(shù)據(jù)處理扭仁，而 MapReduce 作為離線批處理計算框架的延時是非常高的隘马，用 Hive 做實時交互式查詢的等待一般都是在分鐘級別，這顯然無法滿足企業(yè)的即席查詢要求。為了解決實時交互式查詢這一問題坑律，Cloudera 公司開發(fā)了 Impala臂痕，Impala 的查詢速度是 Hive 的 3~30倍伯襟。當(dāng)然，Impala 也提供了數(shù)據(jù)倉庫的功能握童，業(yè)界很多人甚至認(rèn)為姆怪，Impala 將會替代 Hive 成為數(shù)據(jù)倉庫最火的工具。

Impala 系統(tǒng)架構(gòu)

上圖給出了 Impala 的整個系統(tǒng)架構(gòu)澡绩，其中黃色標(biāo)出來的部分是屬于 Impala 的系統(tǒng)組件稽揭，而藍(lán)色部分是 Hadoop 的其他組件，從這張圖小伙伴們就可以明白肥卡，Impala 并不是單獨部署而是跟 Hadoop 的其他組件部署在同一個集群上的溪掀。正是由于部署在同一個集群上，Impala 才可以使用 HDFS 和 HBase 來存儲數(shù)據(jù)步鉴，還可以使用 Hive 為其存儲元數(shù)據(jù)揪胃！

Impalad（Impala Daemon）：駐留在集群的每個 DataNode 節(jié)點上的守護(hù)進(jìn)程璃哟，與集群中的其他節(jié)點上的 Impalad 進(jìn)行分布式并行工作，負(fù)責(zé)具體的查詢?nèi)蝿?wù)喊递，其包含三個模塊：Query Planner随闪，Query Coordinator 和 Query Exec Engine。
Impalad 主要負(fù)責(zé)協(xié)調(diào)客戶端提交的查詢的執(zhí)行骚勘，與 HDFS 的數(shù)據(jù)節(jié)點（HDFS DataNode）運行在同一節(jié)點上铐伴，這樣可以就近處理數(shù)據(jù)，實現(xiàn)了計算向數(shù)據(jù)靠攏俏讹。給其他 Impalad 分配任務(wù)以及收集其他 Impalad 的執(zhí)行結(jié)果進(jìn)行匯總盛杰，這也比較好理解，對于大規(guī)模數(shù)據(jù)藐石，要想快速得到結(jié)果即供，肯定是分布式查詢，將一個大的查詢分成很多的子查詢于微，每個子查詢（Impalad 執(zhí)行其他 Impalad 給其分配的任務(wù)逗嫡，對本地 HDFS 和 HBase 里的部分?jǐn)?shù)據(jù)進(jìn)行操作）處理一個節(jié)點上的數(shù)據(jù)，然后再將這些結(jié)果進(jìn)行匯總株依。

StateStore：負(fù)責(zé)整個元數(shù)據(jù)管理和狀態(tài)信息維護(hù)驱证，每個 Impala 的查詢提交時，系統(tǒng)都會為其創(chuàng)建一個 StateStored 進(jìn)程恋腕，前面我們剛提到 Impalad 會將一個查詢?nèi)蝿?wù)分解成很多子查詢抹锄，并讓其他節(jié)點上的 Impalad 為其執(zhí)行子查詢?nèi)蝿?wù)，那么 Impala 如何知道這些子查詢是否成功了呢荠藤？就要靠 StateStored 進(jìn)程去跟蹤每個 Impalad 的執(zhí)行情況以及監(jiān)控狀態(tài)信息伙单。所以，StateStored 進(jìn)程就是負(fù)責(zé)收集分布在集群中各個 Impalad 進(jìn)程的資源信息用于查詢調(diào)度哈肖。

CLI：即用戶訪問接口吻育，給用戶提供查詢使用的命令行工具。

需要注意的是淤井，Impala 的元數(shù)據(jù)是直接存儲在 Hive 中的布疼。所以，Impala 采用與 Hive 相同的元數(shù)據(jù)币狠、相同的 SQL 語法游两，相同的 ODBC 驅(qū)動程序和用戶接口，這樣做的好處是可以在一個 Hadoop 平臺上統(tǒng)一部署 Hive 和 Impala 等分析工具漩绵，實現(xiàn)在一個平臺上可以同時滿足批處理和實時查詢贱案。

Impala 查詢的執(zhí)行過程

第0步，在用戶提交查詢之前渐行，Impala 就已經(jīng)創(chuàng)建了一個負(fù)責(zé)協(xié)調(diào)客戶端提交查詢的 Impalad 進(jìn)程轰坊，該進(jìn)程會向 StateStore 提交注冊訂閱信息铸董，StateStore 會創(chuàng)建一個 statestored 進(jìn)程，statestored 進(jìn)程通過創(chuàng)建多個線程來處理 Impalad 的注冊訂閱信息肴沫。
第1步粟害，用戶通過 CLI 客戶端提交一個查詢到 Impalad 進(jìn)程，Impalad 的 Query Planner 對 SQL 語句進(jìn)行解析颤芬，生成解析樹悲幅，Planner 把這個查詢的解析樹再變成若干 PlanFragment，發(fā)送到 Query Coordinator站蝠。
第2步汰具，Coordinator 通過從 MySQL 元數(shù)據(jù)庫中獲取元數(shù)據(jù)，從 HDFS 的 NameNode 節(jié)點中獲取數(shù)據(jù)的存儲地址菱魔，以得到存儲這個查詢相關(guān)數(shù)據(jù)的所有數(shù)據(jù)節(jié)點留荔。
第3步，Coordinator 初始化相應(yīng) Impalad 上的任務(wù)執(zhí)行澜倦，即把查詢?nèi)蝿?wù)分配給所有存儲這個查詢相關(guān)數(shù)據(jù)的數(shù)據(jù)節(jié)點聚蝶。
第4步档礁，Query Executor 通過流式交換中間輸出秽澳，并由 Query Coordinator 匯聚來自各個 Impalad 的結(jié)果。
第5步奇瘦，Coordinator 把匯總后的結(jié)果返回給 CLI 客戶端桩卵。

Impala 與 Hive 的比較

不同點

Hive 適合長時間的批處理查詢分析验靡，而 Impala 適合實時交互式 SQL 查詢。
Hive 依賴于 MapReduce 計算框架雏节，Impala 把整個執(zhí)行計劃表現(xiàn)為一棵完整的執(zhí)行計劃樹胜嗓，直接分發(fā)執(zhí)行計劃到各個 Impalad 執(zhí)行查詢。
Hive 在執(zhí)行過程中矾屯，如果內(nèi)存放不下所有數(shù)據(jù)則會啟用磁盤兼蕊，以保證查詢可以順利執(zhí)行。但是 Impala 在遇到內(nèi)存放不下的情況時件蚕，不會利用磁盤。

相同點

Hive 和 Impala 均采用 HDFS 和 HBase 存儲數(shù)據(jù)产禾。
Hive 和 Impala 均使用相同的元數(shù)據(jù)排作。
Hive 和 Impala 均是通過將 SQL 解析處理成計劃樹，生成執(zhí)行計劃亚情。

那么妄痪，通過本篇的講解，相信小伙伴們已經(jīng)對 Impala 有了定位楞件，Impala 的存在并不是為了取代 Hive衫生，而是為了彌補 Hive 的處理時間過長裳瘪，無法做到實時查詢的問題。所以罪针，企業(yè)在實際使用時彭羹，往往是配合使用 Hive 和 Impala，即先用 Hive 對數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理之后泪酱，再使用 Impala 在 Hive 處理完成的數(shù)據(jù)集上進(jìn)行快速數(shù)據(jù)分析派殷。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市墓阀，隨后出現(xiàn)的幾起案子毡惜，更是在濱河造成了極大的恐慌，老刑警劉巖斯撮，帶你破解...
沈念sama閱讀 207,113評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件经伙，死亡現(xiàn)場離奇詭異，居然都是意外死亡勿锅，警方通過查閱死者的電腦和手機(jī)橱乱，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,644評論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來粱甫，“玉大人泳叠，你說我怎么就攤上這事〔柘” “怎么了危纫？”我有些...
開封第一講書人閱讀 153,340評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長乌庶。經(jīng)常有香客問我种蝶，道長，這世上最難降的妖魔是什么瞒大？我笑而不...
開封第一講書人閱讀 55,449評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任螃征，我火速辦了婚禮，結(jié)果婚禮上透敌，老公的妹妹穿的比我還像新娘盯滚。我一直安慰自己，他們只是感情好酗电，可當(dāng)我...
茶點故事閱讀 64,445評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布魄藕。她就那樣靜靜地躺著，像睡著了一般撵术。火紅的嫁衣襯著肌膚如雪背率。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,166評論 1贊 284
城市分裂傳說
那天，我揣著相機(jī)與錄音寝姿，去河邊找鬼交排。笑死，一個胖子當(dāng)著我的面吹牛饵筑，可吹牛的內(nèi)容都是我干的埃篓。我是一名探鬼主播，決...
沈念sama閱讀 38,442評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼翻翩，長吁一口氣：“原來是場噩夢啊……” “哼都许！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起嫂冻，我...
開封第一講書人閱讀 37,105評論 0贊 261
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤胶征，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后桨仿，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體睛低，經(jīng)...
沈念sama閱讀 43,601評論 1贊 300
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,066評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年服傍，在試婚紗的時候發(fā)現(xiàn)自己被綠了钱雷。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,161評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡吹零，死狀恐怖罩抗，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情灿椅，我是刑警寧澤套蒂，帶...
沈念sama閱讀 33,792評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站茫蛹，受9級特大地震影響操刀，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜婴洼，卻給世界環(huán)境...
茶點故事閱讀 39,351評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一骨坑、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧柬采，春花似錦欢唾、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,352評論 0贊 19
一樁弒父案匈辱，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至杀迹，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背树酪。一陣腳步聲響...
開封第一講書人閱讀 31,584評論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工浅碾，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人续语。一個月前我還...
沈念sama閱讀 45,618評論 2贊 355
代替公主和親
正文我出身青樓垂谢，卻偏偏與公主長得像，于是被迫代替她去往敵國和親疮茄。傳聞我的和親對象是個殘疾皇子滥朱，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,916評論 2贊 344

數(shù)據(jù)科學(xué)之路（7）即席查詢工具Impala

Impala 系統(tǒng)架構(gòu)

Impala 查詢的執(zhí)行過程

Impala 與 Hive 的比較

推薦閱讀更多精彩內(nèi)容