pyes問題記錄(bulk操作)

背景:主機(jī)統(tǒng)計按每5分鐘create一個進(jìn)程進(jìn)行統(tǒng)計最近24小時的日志,統(tǒng)計host數(shù)據(jù)衣形,然后存在到host_all里面驼侠,在host_all里面主要記錄host, create_time(首次發(fā)現(xiàn)host的時間), lastupdate_time(最后一次發(fā)現(xiàn)host的時間)

經(jīng)過調(diào)試發(fā)現(xiàn)在主機(jī)統(tǒng)計中index或者update 文檔時速度比較慢(每次提交差不多1-2秒才結(jié)束)谆吴,導(dǎo)致統(tǒng)計在5分鐘內(nèi)未完成倒源,導(dǎo)致多個進(jìn)程同時進(jìn)行主機(jī)統(tǒng)計,由于多個進(jìn)程導(dǎo)致host_all中的host不唯一

目前主要修改
1.將統(tǒng)計結(jié)果在存儲es時使用的index和update修改為bulk
2.在pyes進(jìn)行matchall時句狼,每次查詢size為10笋熬,將其設(shè)置為1000

目前統(tǒng)計基本在20s左右完成

需要注意的是:
1.在使用bulk時,如果有update的內(nèi)容腻菇,需要注意在調(diào)用flush_bulk(forced=True)方法時如果提交數(shù)據(jù)會發(fā)生異常胳螟,原因時,pyes會對提交返回的數(shù)據(jù)進(jìn)行檢查筹吐,而在檢查結(jié)果中不支持update方法(見pyes.models 212行函數(shù))
可以通過設(shè)置bulk對象的raise_on_bulk_item_failure為False糖耸,不進(jìn)行結(jié)果檢查
2.注意在創(chuàng)建pyes.ES也有raise_on_bulk_item_failure參數(shù),在調(diào)用create_bulker是也使用該屬性初始化bulk對象骏令,但是有bug(見pyes.es 395行函數(shù))蔬捷,返回值錯誤
3.設(shè)置pyes進(jìn)行matchall的時使用pyes.search(pyes.Search(filter=pyes.MatchAllFilter(), bulk_read=1000), indices=index_name, doc_type=doc_type_name)

4.在index后可以返回document id,若需要時用該id做去重之類的工作,可以使用flush_bluk后返回的結(jié)果周拐,注意flush_bluk可能返回None铡俐,如果提交數(shù)據(jù)行數(shù)未達(dá)到400行(可設(shè)置),也可以使用flush_bluk(True)強(qiáng)制提交數(shù)據(jù)到es妥粟,根據(jù)返回結(jié)果中的id审丘,可通過mget獲取提交的文檔內(nèi)容(注意需要在下次使用該數(shù)據(jù)之前強(qiáng)制更新數(shù)據(jù)到es)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市勾给,隨后出現(xiàn)的幾起案子滩报,更是在濱河造成了極大的恐慌,老刑警劉巖播急,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件脓钾,死亡現(xiàn)場離奇詭異,居然都是意外死亡桩警,警方通過查閱死者的電腦和手機(jī)可训,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捶枢,“玉大人握截,你說我怎么就攤上這事±檬澹” “怎么了谨胞?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蒜鸡。 經(jīng)常有香客問我胯努,道長,這世上最難降的妖魔是什么术瓮? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任康聂,我火速辦了婚禮,結(jié)果婚禮上胞四,老公的妹妹穿的比我還像新娘。我一直安慰自己伶椿,他們只是感情好辜伟,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著脊另,像睡著了一般导狡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上偎痛,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天旱捧,我揣著相機(jī)與錄音,去河邊找鬼。 笑死枚赡,一個胖子當(dāng)著我的面吹牛氓癌,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播贫橙,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼贪婉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了卢肃?” 一聲冷哼從身側(cè)響起疲迂,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎莫湘,沒想到半個月后尤蒿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡幅垮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年优质,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片军洼。...
    茶點(diǎn)故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡巩螃,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出匕争,到底是詐尸還是另有隱情避乏,我是刑警寧澤,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布甘桑,位于F島的核電站拍皮,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏跑杭。R本人自食惡果不足惜铆帽,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望德谅。 院中可真熱鬧爹橱,春花似錦、人聲如沸窄做。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽椭盏。三九已至组砚,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間掏颊,已是汗流浹背糟红。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人盆偿。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓柒爸,卻偏偏與公主長得像,于是被迫代替她去往敵國和親陈肛。 傳聞我的和親對象是個殘疾皇子揍鸟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)句旱,斷路器阳藻,智...
    卡卡羅2017閱讀 134,638評論 18 139
  • 歡迎訪問我的博客查看原文:http://wangnan.tech 注:文本整理自《ELKstack權(quán)威指南》 目錄...
    GhostStories閱讀 10,387評論 0 7
  • 很少寫技術(shù)博客啃匿,一是覺得自己技術(shù)有限蛔外,怕誤人子弟;二是文筆較差溯乒,比較排斥寫作之類的工作夹厌。話說不鍛煉,哪會有進(jìn)步呢裆悄,...
    奔跑的番茄醬閱讀 42,294評論 7 132
  • 歡迎訪問我的博客查看原文:http://wangnan.tech 注:文本整理自《ELKstack權(quán)威指南》 架構(gòu)...
    GhostStories閱讀 19,808評論 0 31
  • 夕陽還未看夠矛纹, 月亮已上柳梢頭, 看你還未看夠光稼, 夜色不覺早成暗流或南。 沒人能夠猝不及防的白首, 但可以在黑夜更換白...
    半閣公子閱讀 395評論 9 7