關(guān)于ElasticSearch Bulk的用法

Background

剛接觸ElasticSearch不久妖爷，公司讓我?guī)兔θ?dǎo)一下數(shù)據(jù)，剛開始數(shù)量并不是很大理朋，我都是用Elasticsearch python的api接口絮识，一條一條數(shù)據(jù)去往新的index里插. 但是馬上又有了千萬(wàn)級(jí)別的數(shù)據(jù)需要操作，如果還是老辦法嗽上，會(huì)特別慢次舌，而且不夠穩(wěn)定。于是去查了一下資料兽愤。關(guān)于Elasticsearch的python api文檔很少彼念，中文的就更少了，官方穩(wěn)定又不是很詳細(xì)烹看，只是大概得到一個(gè)信息国拇，可以用bulk() api去操作大量的數(shù)據(jù)。

Solution：

我需要解決的問題有兩個(gè)：

查詢多個(gè)Index中的內(nèi)容惯殊，然后將滿足條件的數(shù)據(jù)寫到新的一個(gè)Index中：
這個(gè)問題比較簡(jiǎn)單酱吝，elasticsearch 的helpers module提供了一個(gè)完美的方法來(lái)做這件事：reindex()
elasticsearch.helpers.reindex(client, source_index, target_index, query=None,target_client=None, chunk_size=500, scroll=u'5m', scan_kwargs={}, bulk_kwargs={})

這個(gè)方法的參數(shù)，提供了source_index(可以是List), target_index, query以及 scroll_size 和 scroll的保存時(shí)間,所以直接跑就可以了土思。

批量更新現(xiàn)有Index中的所有數(shù)據(jù)务热，給每個(gè)document增加一個(gè)field并賦值：
官方文檔中的api 簽名是這樣的：
elasticsearch.helpers.bulk(client, actions, stats_only=False, **kwargs)
我一直沒搞明白actions是什么類型的參數(shù)忆嗜，以為是個(gè)函數(shù)類行的參數(shù)，后來(lái)看了一下源碼崎岂，發(fā)現(xiàn)其實(shí)是一個(gè)List, 而且是要被操作的document的集合,官方文檔上顯示是要滿足這個(gè)樣子捆毫，跟search()返回的結(jié)果格式一樣：

{ '_index': 'index-name', '_type': 'document', '_id': 42, '_parent': 5, '_ttl': '1d', '_source': { "title": "Hello World!", "body": "..." }}

但是又說：The bulk()
api accepts index, create, delete, and update actions. Use the _op_type field to specify an action (_op_type defaults to index):

{ '_op_type': 'delete', '_index': 'index-name', '_type': 'document', '_id': 42,}{ '_op_type': 'update', '_index': 'index-name', '_type': 'document', '_id': 42, 'doc': {'question': 'The life, universe and everything.'}}

我在自己的數(shù)據(jù)上加了"_op_type":"update", 然后運(yùn)行一直出錯(cuò)：

TransportError(400, u'action_request_validation_exception',u'Validation Failed: 1: script or doc is missing

直到我嘗試著刪掉"_op_type"這個(gè)字段，終于運(yùn)行成功了冲甘。以下是我的代碼:

def queryInES( esinstance):
    search_body={"query":{"match_all":{}}}
    page = esinstance.search(index='my_index', body=search_body, search_type='scan', doc_type='Tweet', scroll='5s', size=1000)
    sid=page['_scroll_id']
    scroll_size = page['hits']['hits']

    while(scroll_size>0):
        pg = es.scroll(scroll_id=sid, scroll='30s')
        scroll_size = len(pg['hits']['hits'])
        print "scroll size: " + str(scroll_size)
        sid = pg['_scroll_id']
        data=pg['hits']['hits']
        ... ...

        for i in range(0, scroll_size):
            data[i]['_source']['attributes']['senti']={"label":label, "score": score, "confidence": confidence}

    helpers.bulk(client=esinstance, actions=data)

最后編輯于：2017.12.04 02:25:58

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末绩卤，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子江醇，更是在濱河造成了極大的恐慌濒憋，老刑警劉巖，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件陶夜，死亡現(xiàn)場(chǎng)離奇詭異凛驮，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)条辟，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門黔夭，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人羽嫡，你說我怎么就攤上這事本姥。” “怎么了厂僧？”我有些...
開封第一講書人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵扣草，是天一觀的道長(zhǎng)了牛。經(jīng)常有香客問我颜屠，道長(zhǎng)，這世上最難降的妖魔是什么鹰祸？我笑而不...
開封第一講書人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任甫窟，我火速辦了婚禮，結(jié)果婚禮上蛙婴，老公的妹妹穿的比我還像新娘粗井。我一直安慰自己，他們只是感情好街图，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布浇衬。她就那樣靜靜地躺著，像睡著了一般餐济。火紅的嫁衣襯著肌膚如雪耘擂。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說
那天絮姆，我揣著相機(jī)與錄音醉冤，去河邊找鬼秩霍。笑死，一個(gè)胖子當(dāng)著我的面吹牛蚁阳，可吹牛的內(nèi)容都是我干的铃绒。我是一名探鬼主播，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼螺捐，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼颠悬！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起定血，我...
開封第一講書人閱讀 38,887評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤椿疗，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后糠悼，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體届榄，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年倔喂，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了铝条。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡席噩，死狀恐怖班缰，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情悼枢，我是刑警寧澤埠忘，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站馒索，受9級(jí)特大地震影響莹妒，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜绰上，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一旨怠、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧蜈块，春花似錦鉴腻、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評(píng)論 0贊 22
一樁弒父案爽哎，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至器一，卻和暖如春课锌，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背盹舞。一陣腳步聲響...
開封第一講書人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工产镐，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留隘庄，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓癣亚，卻偏偏與公主長(zhǎng)得像丑掺，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子述雾，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353

關(guān)于ElasticSearch Bulk的用法

Background

Solution：

推薦閱讀更多精彩內(nèi)容