SparkES 多維分析引擎設(shè)計(jì)

設(shè)計(jì)動(dòng)機(jī)

ElasticSearch 毫秒級的查詢響應(yīng)時(shí)間還是很驚艷的蹲堂。其優(yōu)點(diǎn)有:

  1. 優(yōu)秀的全文檢索能力
  2. 高效的列式存儲(chǔ)與查詢能力
  3. 數(shù)據(jù)分布式存儲(chǔ)(Shard 分片)

其列式存儲(chǔ)可以有效的支持高效的聚合類查詢,譬如groupBy等操作雷酪,分布式存儲(chǔ)則提升了處理的數(shù)據(jù)規(guī)模。

相應(yīng)的也存在一些缺點(diǎn):

  1. 缺乏優(yōu)秀的SQL支持
  2. 缺乏水平擴(kuò)展的Reduce(Merge)能力须揣,現(xiàn)階段的實(shí)現(xiàn)局限在單機(jī)
  3. JSON格式的查詢語言钟沛,缺乏編程能力窄刘,難以實(shí)現(xiàn)非常復(fù)雜的數(shù)據(jù)加工,自定義函數(shù)(類似Hive的UDF等)

Spark 作為一個(gè)計(jì)算引擎就谜,可以克服ES存在的這些缺點(diǎn):

  1. 良好的SQL支持
  2. 強(qiáng)大的計(jì)算引擎怪蔑,可以進(jìn)行分布式Reduce
  3. 支持自定義編程(采用原生API或者編寫UDF等函數(shù)對SQL做增強(qiáng))

所以在構(gòu)建即席多維查詢系統(tǒng)時(shí),Spark 可以和ES取得良好的互補(bǔ)效果丧荐。通過ES的列式存儲(chǔ)特性缆瓣,我們可以非常快的過濾出數(shù)據(jù)篮奄,
并且支持全文檢索捆愁,之后這些過濾后的數(shù)據(jù)從各個(gè)Shard 進(jìn)入Spark,Spark分布式的進(jìn)行Reduce/Merge操作,并且做一些更高層的工作割去,最后輸出給用戶。

通常而言昼丑,結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)可以有效提升數(shù)據(jù)的查詢速度呻逆,但是會(huì)對數(shù)據(jù)的構(gòu)建產(chǎn)生一定的吞吐影響。ES強(qiáng)大的Query能力取決于數(shù)據(jù)結(jié)構(gòu)化的存儲(chǔ)(索引文件)菩帝,為了解決這個(gè)問題咖城,我們可以通過Spark Streaming
有效的對接各個(gè)數(shù)據(jù)源(Kafka/文件系統(tǒng))等,將數(shù)據(jù)規(guī)范化后批量導(dǎo)入到ES的各個(gè)Shard呼奢。Spark Streaming 基于以下兩點(diǎn)可以實(shí)現(xiàn)為ES快速導(dǎo)入數(shù)據(jù)宜雀。

  1. Spark RDD 的Partition 能夠良好的契合ES的Shard的概念。能夠?qū)崿F(xiàn)一一對應(yīng)握础。避免經(jīng)過ES的二次分發(fā)
  2. Spark Streaming 批處理的模式 和 Lucene(ES的底層存儲(chǔ)引擎)的Segment對應(yīng)的非常好辐董。一次批處理意味著新生成一個(gè)文件,
    我們可以有效的控制生成文件的大小禀综,頻度等简烘。

架構(gòu)設(shè)計(jì)

下面是架構(gòu)設(shè)計(jì)圖:

spark-es-4.png

整個(gè)系統(tǒng)大概分成四個(gè)部分。分別是:

  1. API層
  2. Spark 計(jì)算引擎層
  3. ES 存儲(chǔ)層
  4. ES 索引構(gòu)建層

API 層

API 層主要是做多查詢協(xié)議的支持定枷,比如可以支持SQL,JSON等形態(tài)的查詢語句孤澎。并且可是做一些啟發(fā)式查詢優(yōu)化。從而決定將查詢請求是直接轉(zhuǎn)發(fā)給后端的ES來完成欠窒,還是走Spark 計(jì)算引擎覆旭。也就是上圖提到的 Query Optimize,根據(jù)條件決定是否需要短路掉 Spark Compute。

Spark 計(jì)算引擎層

前面我們提到了ES的三個(gè)缺陷岖妄,而Spark 可以有效的解決這個(gè)問題型将。對于一個(gè)普通的SQL語句,我們可以把 where 條件的語句荐虐,部分group 等相關(guān)的語句下沉到ES引擎進(jìn)行執(zhí)行茶敏,之后可能匯總了較多的數(shù)據(jù),然后放到Spark中進(jìn)行合并和加工缚俏,最后轉(zhuǎn)發(fā)給用戶惊搏。相對應(yīng)的,Spark 的初始的RDD 類似和Kafka的對接忧换,每個(gè)Kafka 的partition對應(yīng)RDD的一個(gè)partiton,每個(gè)ES的Shard 也對應(yīng)RDD的一個(gè)partition恬惯。

ES 存儲(chǔ)層

ES的Shard 數(shù)量在索引構(gòu)建時(shí)就需要確定,確定后無法進(jìn)行更改亚茬。這樣單個(gè)索引里的Shard 會(huì)越來越大從而影響單Shard的查詢速度酪耳。但因?yàn)樯蠈佑辛?Spark Compute層,所以我們可以通過添加Index的方式來擴(kuò)大Shard的數(shù)目,然后查詢時(shí)查詢所有分片數(shù)據(jù)碗暗,由Spark完成數(shù)據(jù)的合并工作颈将。

ES 索引構(gòu)建層

數(shù)據(jù)的結(jié)構(gòu)化必然帶來了構(gòu)建的困難。所以有了Spark Streaming層作為數(shù)據(jù)的構(gòu)建層言疗。這里你有兩種選擇:

  1. 通過ES原生的bulk API 完成索引的構(gòu)建
  2. 然Spark 直接對接到 ES的每個(gè)Shard,直接針對該Shard 進(jìn)行索引晴圾,可有效替身索引的吞吐量。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末噪奄,一起剝皮案震驚了整個(gè)濱河市死姚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌勤篮,老刑警劉巖都毒,帶你破解...
    沈念sama閱讀 206,311評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異碰缔,居然都是意外死亡账劲,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評論 2 382
  • 文/潘曉璐 我一進(jìn)店門金抡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來涤垫,“玉大人,你說我怎么就攤上這事竟终。” “怎么了切蟋?”我有些...
    開封第一講書人閱讀 152,671評論 0 342
  • 文/不壞的土叔 我叫張陵统捶,是天一觀的道長。 經(jīng)常有香客問我柄粹,道長喘鸟,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,252評論 1 279
  • 正文 為了忘掉前任驻右,我火速辦了婚禮什黑,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘堪夭。我一直安慰自己愕把,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,253評論 5 371
  • 文/花漫 我一把揭開白布森爽。 她就那樣靜靜地躺著恨豁,像睡著了一般。 火紅的嫁衣襯著肌膚如雪爬迟。 梳的紋絲不亂的頭發(fā)上橘蜜,一...
    開封第一講書人閱讀 49,031評論 1 285
  • 那天,我揣著相機(jī)與錄音付呕,去河邊找鬼计福。 笑死跌捆,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的象颖。 我是一名探鬼主播佩厚,決...
    沈念sama閱讀 38,340評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼力麸!你這毒婦竟也來了可款?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,973評論 0 259
  • 序言:老撾萬榮一對情侶失蹤克蚂,失蹤者是張志新(化名)和其女友劉穎闺鲸,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體埃叭,經(jīng)...
    沈念sama閱讀 43,466評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡摸恍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,937評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了赤屋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片立镶。...
    茶點(diǎn)故事閱讀 38,039評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖类早,靈堂內(nèi)的尸體忽然破棺而出媚媒,到底是詐尸還是另有隱情,我是刑警寧澤涩僻,帶...
    沈念sama閱讀 33,701評論 4 323
  • 正文 年R本政府宣布缭召,位于F島的核電站,受9級特大地震影響逆日,放射性物質(zhì)發(fā)生泄漏嵌巷。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,254評論 3 307
  • 文/蒙蒙 一室抽、第九天 我趴在偏房一處隱蔽的房頂上張望搪哪。 院中可真熱鬧,春花似錦坪圾、人聲如沸晓折。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽已维。三九已至,卻和暖如春已日,著一層夾襖步出監(jiān)牢的瞬間垛耳,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留堂鲜,地道東北人栈雳。 一個(gè)月前我還...
    沈念sama閱讀 45,497評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像缔莲,于是被迫代替她去往敵國和親哥纫。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,786評論 2 345

推薦閱讀更多精彩內(nèi)容