關(guān)于ElasticSearch Bulk的用法

Background

剛接觸ElasticSearch不久妖爷,公司讓我?guī)兔θ?dǎo)一下數(shù)據(jù),剛開始數(shù)量并不是很大理朋,我都是用Elasticsearch python的api接口絮识,一條一條數(shù)據(jù)去往新的index里插. 但是馬上又有了千萬(wàn)級(jí)別的數(shù)據(jù)需要操作,如果還是老辦法嗽上,會(huì)特別慢次舌,而且不夠穩(wěn)定。于是去查了一下資料兽愤。關(guān)于Elasticsearch的python api文檔很少彼念,中文的就更少了,官方穩(wěn)定又不是很詳細(xì)烹看,只是大概得到一個(gè)信息国拇,可以用bulk() api去操作大量的數(shù)據(jù)。

Solution:

我需要解決的問題有兩個(gè):

  1. 查詢多個(gè)Index中的內(nèi)容惯殊,然后將滿足條件的數(shù)據(jù)寫到新的一個(gè)Index中:
    這個(gè)問題比較簡(jiǎn)單酱吝,elasticsearch 的helpers module提供了一個(gè)完美的方法來(lái)做這件事:reindex()
    elasticsearch.helpers.reindex(client, source_index, target_index, query=None,target_client=None, chunk_size=500, scroll=u'5m', scan_kwargs={}, bulk_kwargs={})

這個(gè)方法的參數(shù),提供了source_index(可以是List), target_index, query以及 scroll_size 和 scroll的保存時(shí)間,所以直接跑就可以了土思。

  1. 批量更新現(xiàn)有Index中的所有數(shù)據(jù)务热,給每個(gè)document增加一個(gè)field并賦值:
    官方文檔中的api 簽名是這樣的:
    elasticsearch.helpers.bulk(client, actions, stats_only=False, **kwargs)
    我一直沒搞明白actions是什么類型的參數(shù)忆嗜,以為是個(gè)函數(shù)類行的參數(shù),后來(lái)看了一下源碼崎岂,發(fā)現(xiàn)其實(shí)是一個(gè)List, 而且是要被操作的document的集合,官方文檔上顯示是要滿足這個(gè)樣子捆毫,跟search()返回的結(jié)果格式一樣:

{ '_index': 'index-name', '_type': 'document', '_id': 42, '_parent': 5, '_ttl': '1d', '_source': { "title": "Hello World!", "body": "..." }}

但是又說:The bulk()
api accepts index, create, delete, and update actions. Use the _op_type field to specify an action (_op_type defaults to index):

{ '_op_type': 'delete', '_index': 'index-name', '_type': 'document', '_id': 42,}{ '_op_type': 'update', '_index': 'index-name', '_type': 'document', '_id': 42, 'doc': {'question': 'The life, universe and everything.'}}

我在自己的數(shù)據(jù)上加了"_op_type":"update", 然后運(yùn)行一直出錯(cuò):

TransportError(400, u'action_request_validation_exception',u'Validation Failed: 1: script or doc is missing

直到我嘗試著刪掉"_op_type"這個(gè)字段,終于運(yùn)行成功了冲甘。以下是我的代碼:

def queryInES( esinstance):
    search_body={"query":{"match_all":{}}}
    page = esinstance.search(index='my_index', body=search_body, search_type='scan', doc_type='Tweet', scroll='5s', size=1000)
    sid=page['_scroll_id']
    scroll_size = page['hits']['hits']

    while(scroll_size>0):
        pg = es.scroll(scroll_id=sid, scroll='30s')
        scroll_size = len(pg['hits']['hits'])
        print "scroll size: " + str(scroll_size)
        sid = pg['_scroll_id']
        data=pg['hits']['hits']
        ... ...

        for i in range(0, scroll_size):
            data[i]['_source']['attributes']['senti']={"label":label, "score": score, "confidence": confidence}

    helpers.bulk(client=esinstance, actions=data)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末绩卤,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子江醇,更是在濱河造成了極大的恐慌濒憋,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件陶夜,死亡現(xiàn)場(chǎng)離奇詭異凛驮,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)条辟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門黔夭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人羽嫡,你說我怎么就攤上這事本姥。” “怎么了厂僧?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵扣草,是天一觀的道長(zhǎng)了牛。 經(jīng)常有香客問我颜屠,道長(zhǎng),這世上最難降的妖魔是什么鹰祸? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任甫窟,我火速辦了婚禮,結(jié)果婚禮上蛙婴,老公的妹妹穿的比我還像新娘粗井。我一直安慰自己,他們只是感情好街图,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布浇衬。 她就那樣靜靜地躺著,像睡著了一般餐济。 火紅的嫁衣襯著肌膚如雪耘擂。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天絮姆,我揣著相機(jī)與錄音醉冤,去河邊找鬼秩霍。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蚁阳,可吹牛的內(nèi)容都是我干的铃绒。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼螺捐,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼颠悬!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起定血,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤椿疗,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后糠悼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體届榄,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年倔喂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了铝条。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡席噩,死狀恐怖班缰,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情悼枢,我是刑警寧澤埠忘,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站馒索,受9級(jí)特大地震影響莹妒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜绰上,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一旨怠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蜈块,春花似錦鉴腻、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至器一,卻和暖如春课锌,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背盹舞。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工产镐, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留隘庄,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓癣亚,卻偏偏與公主長(zhǎng)得像丑掺,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子述雾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容