elasticsearch-hadoop學(xué)習(xí)筆記(一)

elasticsearch-hadoop可以看作是一個connector,使得數(shù)據(jù)可以在hadoop和elasticsearch之間雙向流動圈匆。從架構(gòu)上看,elasticsearch-hadoop集成了兩個分布式系統(tǒng):hadoop和elasticsearch餐弱。Hadoop及其相關(guān)庫具有分布式計算分析能力,elasticsearch具有搜索和聚合能力。elasticsearch-hadoop的目標(biāo)就是透明地連接這兩種組件膏蚓,并使這兩個組件彼此獲益瓢谢。

Map/Reduce and shards
可擴展性(scalability)的關(guān)鍵組件是并行性和能夠?qū)⑷蝿?wù)分成多個小的任務(wù)在不同的節(jié)點上執(zhí)行。Hadoop通過splits,elasticsearch通過shard來支持任務(wù)的分割驮瞧,以達(dá)到并行性的目的氓扛。通俗地講,分割更多的任務(wù)意味著可同時讀取數(shù)據(jù)源不同的部分论笔,更多的shard意味著有更多的桶用于讀取索引的數(shù)據(jù)采郎。因此,elasticsearch-hadoop使用splits和shards作為hadoop和elasticsearch集群上執(zhí)行任務(wù)的主要驅(qū)動。

從elasticsearch中讀取數(shù)據(jù)
從elasticsearch中讀取數(shù)據(jù)時狂魔,shards扮演著重要角色蒜埋。由于elasticsearch作為數(shù)據(jù)源,elasticsearch-hadoop會每個查詢的shard創(chuàng)建一個split,也就是說給定一個針對Index I的查詢毅臊,elasticsearch-hadoop會自動探測elasticsearch中的shard數(shù)理茎,對于每個shard,與hadoop的一個input split對應(yīng)黑界,與spark的一個partition對應(yīng)管嬉。
(實驗驗證)
讀取性能地優(yōu)化可通過增加elasticsearch的shard數(shù)量,因此增加了hadoop/spark的任務(wù)數(shù)朗鸠,提高并行度蚯撩。

向elasticsearch中寫數(shù)據(jù)
向elasticsearch中寫數(shù)據(jù),是由hadoop中的split任務(wù)數(shù)或spark中的partitions數(shù)所決定的烛占。elasticsearch-hadoop會探測寫操作涉及的主(primary)shard數(shù)量胎挎,以將這些寫操作分布在這些shard中,越多split任務(wù)數(shù)或spark partition數(shù)量忆家,越高的并行度犹菇。
疑問:spark partitions數(shù)量,如何和主shard數(shù)對應(yīng)的芽卿?
例如:partitions = 2, primary shard = 3, index = 1; partitions = 2, primary shard = 7, index = 2, index1 = 3, index2 = 4;

Data co-location
無論何時揭芍,只要有可能elasticsearch-hadoop都會在hadoop/spark集群和elasticsearh集群之間共享彼此集群的信息,以優(yōu)化數(shù)據(jù)的co-location卸例。這意味著每次從elasticsearch中讀取數(shù)據(jù)時称杨,就會將elasticsearch的Ips傳送給hadoop/spark以優(yōu)化任務(wù)的執(zhí)行。如果希望數(shù)據(jù)co-location或者數(shù)據(jù)有可能co-location以達(dá)到節(jié)省網(wǎng)絡(luò)傳輸?shù)哪康目曜M可能的將elasticsearch集群和hadoop/spark集群安排在
同一個rack上(需要更進(jìn)一步了解rack的概念及作用)

參考:https://www.elastic.co/guide/en/elasticsearch/hadoop/2.3/arch.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末姑原,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子呜舒,更是在濱河造成了極大的恐慌锭汛,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異店乐,居然都是意外死亡艰躺,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進(jìn)店門眨八,熙熙樓的掌柜王于貴愁眉苦臉地迎上來腺兴,“玉大人,你說我怎么就攤上這事廉侧∫诚欤” “怎么了?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵段誊,是天一觀的道長闰蚕。 經(jīng)常有香客問我,道長连舍,這世上最難降的妖魔是什么没陡? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮索赏,結(jié)果婚禮上盼玄,老公的妹妹穿的比我還像新娘。我一直安慰自己潜腻,他們只是感情好埃儿,可當(dāng)我...
    茶點故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著融涣,像睡著了一般童番。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上威鹿,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天剃斧,我揣著相機與錄音,去河邊找鬼忽你。 笑死幼东,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的檀夹。 我是一名探鬼主播筋粗,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼炸渡!你這毒婦竟也來了娜亿?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蚌堵,失蹤者是張志新(化名)和其女友劉穎买决,沒想到半個月后沛婴,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡督赤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年嘁灯,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片躲舌。...
    茶點故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡丑婿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出没卸,到底是詐尸還是另有隱情羹奉,我是刑警寧澤,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布约计,位于F島的核電站诀拭,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏煤蚌。R本人自食惡果不足惜耕挨,卻給世界環(huán)境...
    茶點故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望尉桩。 院中可真熱鬧筒占,春花似錦、人聲如沸魄健。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽沽瘦。三九已至,卻和暖如春农尖,著一層夾襖步出監(jiān)牢的瞬間析恋,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工盛卡, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留助隧,地道東北人。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓滑沧,卻偏偏與公主長得像并村,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子滓技,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內(nèi)容