elasticsearch-hadoop學(xué)習(xí)筆記（一）

elasticsearch-hadoop可以看作是一個connector,使得數(shù)據(jù)可以在hadoop和elasticsearch之間雙向流動圈匆。從架構(gòu)上看，elasticsearch-hadoop集成了兩個分布式系統(tǒng)：hadoop和elasticsearch餐弱。Hadoop及其相關(guān)庫具有分布式計算分析能力，elasticsearch具有搜索和聚合能力。elasticsearch-hadoop的目標(biāo)就是透明地連接這兩種組件膏蚓，并使這兩個組件彼此獲益瓢谢。

Map/Reduce and shards
可擴展性（scalability）的關(guān)鍵組件是并行性和能夠?qū)⑷蝿?wù)分成多個小的任務(wù)在不同的節(jié)點上執(zhí)行。Hadoop通過splits,elasticsearch通過shard來支持任務(wù)的分割驮瞧，以達(dá)到并行性的目的氓扛。通俗地講，分割更多的任務(wù)意味著可同時讀取數(shù)據(jù)源不同的部分论笔，更多的shard意味著有更多的桶用于讀取索引的數(shù)據(jù)采郎。因此,elasticsearch-hadoop使用splits和shards作為hadoop和elasticsearch集群上執(zhí)行任務(wù)的主要驅(qū)動。

從elasticsearch中讀取數(shù)據(jù)
從elasticsearch中讀取數(shù)據(jù)時狂魔，shards扮演著重要角色蒜埋。由于elasticsearch作為數(shù)據(jù)源，elasticsearch-hadoop會每個查詢的shard創(chuàng)建一個split,也就是說給定一個針對Index I的查詢毅臊，elasticsearch-hadoop會自動探測elasticsearch中的shard數(shù)理茎，對于每個shard,與hadoop的一個input split對應(yīng)黑界，與spark的一個partition對應(yīng)管嬉。
（實驗驗證）
讀取性能地優(yōu)化可通過增加elasticsearch的shard數(shù)量，因此增加了hadoop/spark的任務(wù)數(shù)朗鸠，提高并行度蚯撩。

向elasticsearch中寫數(shù)據(jù)
向elasticsearch中寫數(shù)據(jù)，是由hadoop中的split任務(wù)數(shù)或spark中的partitions數(shù)所決定的烛占。elasticsearch-hadoop會探測寫操作涉及的主（primary）shard數(shù)量胎挎，以將這些寫操作分布在這些shard中，越多split任務(wù)數(shù)或spark partition數(shù)量忆家，越高的并行度犹菇。
疑問：spark partitions數(shù)量，如何和主shard數(shù)對應(yīng)的芽卿？
例如:partitions = 2, primary shard = 3, index = 1; partitions = 2, primary shard = 7, index = 2, index1 = 3, index2 = 4;

Data co-location
無論何時揭芍，只要有可能elasticsearch-hadoop都會在hadoop/spark集群和elasticsearh集群之間共享彼此集群的信息，以優(yōu)化數(shù)據(jù)的co-location卸例。這意味著每次從elasticsearch中讀取數(shù)據(jù)時称杨，就會將elasticsearch的Ips傳送給hadoop/spark以優(yōu)化任務(wù)的執(zhí)行。如果希望數(shù)據(jù)co-location或者數(shù)據(jù)有可能co-location以達(dá)到節(jié)省網(wǎng)絡(luò)傳輸?shù)哪康目曜M可能的將elasticsearch集群和hadoop/spark集群安排在
同一個rack上（需要更進(jìn)一步了解rack的概念及作用）

參考：https://www.elastic.co/guide/en/elasticsearch/hadoop/2.3/arch.html

最后編輯于：2017.12.04 02:38:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末姑原，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子呜舒，更是在濱河造成了極大的恐慌锭汛，老刑警劉巖，帶你破解...
沈念sama閱讀 218,546評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異店乐，居然都是意外死亡艰躺，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,224評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門眨八，熙熙樓的掌柜王于貴愁眉苦臉地迎上來腺兴，“玉大人，你說我怎么就攤上這事廉侧∫诚欤” “怎么了？”我有些...
開封第一講書人閱讀 164,911評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵段誊，是天一觀的道長闰蚕。經(jīng)常有香客問我，道長连舍，這世上最難降的妖魔是什么没陡？我笑而不...
開封第一講書人閱讀 58,737評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮索赏，結(jié)果婚禮上盼玄，老公的妹妹穿的比我還像新娘。我一直安慰自己潜腻，他們只是感情好埃儿，可當(dāng)我...
茶點故事閱讀 67,753評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著融涣，像睡著了一般童番。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上威鹿，一...
開封第一講書人閱讀 51,598評論 1贊 305
城市分裂傳說
那天剃斧，我揣著相機與錄音，去河邊找鬼忽你。笑死幼东，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的檀夹。我是一名探鬼主播筋粗，決...
沈念sama閱讀 40,338評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼炸渡！你這毒婦竟也來了娜亿？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,249評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤蚌堵，失蹤者是張志新（化名）和其女友劉穎买决，沒想到半個月后沛婴，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,696評論 1贊 314
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡督赤，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,888評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年嘁灯，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片躲舌。...
茶點故事閱讀 40,013評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡丑婿，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出没卸，到底是詐尸還是另有隱情羹奉，我是刑警寧澤，帶...
沈念sama閱讀 35,731評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布约计，位于F島的核電站诀拭，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏煤蚌。R本人自食惡果不足惜耕挨，卻給世界環(huán)境...
茶點故事閱讀 41,348評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望尉桩。院中可真熱鬧筒占，春花似錦、人聲如沸魄健。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,929評論 0贊 22
一樁弒父案插勤，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽沽瘦。三九已至，卻和暖如春农尖，著一層夾襖步出監(jiān)牢的瞬間析恋，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,048評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工盛卡，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留助隧，地道東北人。一個月前我還...
沈念sama閱讀 48,203評論 3贊 370
代替公主和親
正文我出身青樓滑沧，卻偏偏與公主長得像并村，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子滓技，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,960評論 2贊 355

elasticsearch-hadoop學(xué)習(xí)筆記（一）

推薦閱讀更多精彩內(nèi)容