Elasticsearch 入門: _bulk 批量導(dǎo)入數(shù)據(jù)

批量導(dǎo)入數(shù)據(jù)

使用 Elasticsearch Bulk API /_bulk批量 update

步驟:
  1. 需求:我希望批量導(dǎo)入一個(gè) movie type 的名詞列表到 wordbank index 索引熙侍。

  2. 準(zhǔn)備數(shù)據(jù):

    根據(jù)官方文檔闸拿,Json 數(shù)據(jù)要準(zhǔn)備成這個(gè)格式的:

    action_and_meta_data\n
    optional_source\n
    action_and_meta_data\n
    optional_source\n
    ....
    action_and_meta_data\n
    optional_source\n
    

    其中 action 需要是 index, create, delete and update 中的一個(gè)。

    接下來準(zhǔn)備這樣的數(shù)據(jù):

    {"index": {"_index": "wordbank", "_type": "movie", "_id": 1}}
    {"doc": {"name": "權(quán)力的游戲"}}
    {"index": {"_index": "wordbank", "_type": "movie", "_id": 2}}
    {"doc": {"name": "熊出沒"}}
    
  3. POST bulk

    curl -X POST "localhost:9200/_bulk" -H 'Content-Type: application/json' --data-binary @movie_names
    
  4. 批量 update 成功

    {"took":50,"errors":false,"items":[{"index":{"_index":"wordbank","_type":"movie","_id":"1","_version":1,"result":"created","_shards":{"total":2,"successful":1,"failed":0},"_seq_no":0,"_primary_term":1,"status":201}},{"index":{"_index":"wordbank","_type":"movie","_id":"2","_version":1,"result":"created","_shards":{"total":2,"successful":1,"failed":0},"_seq_no":0,"_primary_term":1,"status":201}}]}
    
遇到過的坑:
  1. illegal_argument_exception:

    {"error":{"root_cause":[{"type":"illegal_argument_exception","reason":"The bulk request must be terminated by a newline [\n]"}],"type":"illegal_argument_exception","reason":"The bulk request must be terminated by a newline [\n]"},"status":400}
    
    • 原因:批量導(dǎo)入的 json 文件最后必須要以\n結(jié)尾茶鉴,也就是需要一個(gè)空行。
    • 解決:在 json 文件末尾加多一個(gè)回車岗宣。
  2. header 問題:

    {"error":"Content-Type header [application/x-www-form-urlencoded] is not supported","status":406}
    
    • 原因:Elasticsearch 6.x 之后 curl 的 content-type 更嚴(yán)格了热某。
    • 解決:在 curl 命令后多加一條 -H 'Content-Type: application/json'
  3. action_request_validation_exception:

    {"error":{"root_cause":[{"type":"action_request_validation_exception","reason":"Validation Failed: 1: script or doc is missing;2: script or doc is missing;"}],"type":"action_request_validation_exception","reason":"Validation Failed: 1: script or doc is missing;2: script or doc is missing;"},"status":400}
    
    • 原因:bulk update 時(shí)劫侧,更新的文本需要放到 "doc" 字典下刽宪,另外 update 在這里就只是 update,如果文檔不存在會(huì)報(bào)錯(cuò)芜繁。
    • 解決:
    { "field1" : "value1", "field2" : "value2" }
    --> { "doc" : { "field1" : "value1", "field2" : "value2" } }
    
  4. 不要直接在 terminal 把 curl 的結(jié)果顯示出來

    • 原因:因?yàn)?curl 返回的結(jié)果是個(gè)單行 json 當(dāng)批量處理?xiàng)l目多的時(shí)候珊肃,這個(gè)單行的 json 很長(zhǎng)荣刑。而且-s 也silent 模式是不會(huì)把這個(gè)結(jié)果去掉的,因?yàn)?-s 是 curl 的參數(shù)伦乔,會(huì)屏蔽掉 curl 的 log厉亏,但 Elasticsearch 的返回 json 是不會(huì)被屏蔽掉的。

    • 解決:把輸出結(jié)果導(dǎo)到文件

      curl -s 'http://example.com' > /dev/null
      
  5. 據(jù)說不要重復(fù)指定 index 和 type:來源烈和,可能是我數(shù)據(jù)量比較小爱只,2w條,差距不大招刹。不過前者確實(shí)省文檔空間恬试。

    推薦使用這種:

    POST /website/log/_bulk
    { "index": {}}
    { "event": "User logged in" }
    

    而不是這種:

    POST /_bulk
    { "index": { "_index": "website" , "_type": "blog" , }}
    { "title": "Overriding the default type" }
    
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市疯暑,隨后出現(xiàn)的幾起案子训柴,更是在濱河造成了極大的恐慌,老刑警劉巖妇拯,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件幻馁,死亡現(xiàn)場(chǎng)離奇詭異洗鸵,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)仗嗦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門膘滨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人稀拐,你說我怎么就攤上這事火邓。” “怎么了钩蚊?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵贡翘,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我砰逻,道長(zhǎng)鸣驱,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任蝠咆,我火速辦了婚禮踊东,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘刚操。我一直安慰自己闸翅,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布菊霜。 她就那樣靜靜地躺著坚冀,像睡著了一般。 火紅的嫁衣襯著肌膚如雪鉴逞。 梳的紋絲不亂的頭發(fā)上记某,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音构捡,去河邊找鬼液南。 笑死,一個(gè)胖子當(dāng)著我的面吹牛勾徽,可吹牛的內(nèi)容都是我干的滑凉。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼喘帚,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼畅姊!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起吹由,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤涡匀,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后溉知,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年级乍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了舌劳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡玫荣,死狀恐怖甚淡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情捅厂,我是刑警寧澤贯卦,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站焙贷,受9級(jí)特大地震影響撵割,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜辙芍,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一啡彬、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧故硅,春花似錦庶灿、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至徘层,卻和暖如春峻呕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背惑灵。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工山上, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人英支。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓佩憾,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親干花。 傳聞我的和親對(duì)象是個(gè)殘疾皇子妄帘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)池凄,斷路器抡驼,智...
    卡卡羅2017閱讀 134,599評(píng)論 18 139
  • 基礎(chǔ)概念 Elasticsearch有幾個(gè)核心概念,從一開始理解這些概念會(huì)對(duì)整個(gè)學(xué)習(xí)過程有莫大的幫助肿仑。 接近實(shí)時(shí)(...
    山天大畜閱讀 2,104評(píng)論 0 4
  • 文檔元數(shù)據(jù) 一個(gè)文檔不僅僅包含它的數(shù)據(jù) 致盟,也包含 元數(shù)據(jù) —— 有關(guān) 文檔的信息碎税。 三個(gè)必須的元數(shù)據(jù)元素如下: _...
    techhow閱讀 600評(píng)論 0 0
  • 創(chuàng)建索引的語(yǔ)法 示例: 添加索引(索引一旦建立雷蹂,不能修改) 刪除索引 分詞器的修改與定制 修改分詞器設(shè)置 默認(rèn)分詞...
    緩慢移動(dòng)的蝸牛閱讀 2,444評(píng)論 0 0
  • 人是視覺動(dòng)物,一個(gè)事物的外觀直接決定了我們是否對(duì)它感興趣杯道,而排版匪煌,就是文案的外觀。 也許有各種原因讓你并不想用排版...
    大千世界無奇閱讀 849評(píng)論 0 0