使用skywalking對dubbo鏈路監(jiān)控的一次問題排查

昨天上午蝴簇,運維支持組的小伙伴向我反饋說他們的es集群出了故障世曾,bulk寫性能突然下降了,平均1s中只有幾百條數(shù)據(jù)寫入

1霹抛、背景

SkyWalking作為公司鏈路采集系統(tǒng)搓逾,實時采集線上各個服務的鏈路數(shù)據(jù)。采樣率為全量杯拐,理論上TPS是監(jiān)控接入工程所有的TPS總和霞篡。目前后端使用ES作為數(shù)據(jù)存儲,鏈路數(shù)據(jù)保留7天端逼。生產(chǎn)環(huán)境目前接入的工程有83個朗兵,ES的數(shù)據(jù)寫入,和查詢出現(xiàn)了明顯的瓶頸顶滩。需要對ES做性能調(diào)優(yōu)余掖。

2、現(xiàn)狀

  • ES集群
    2臺 2核 16g

  • 索引
    1礁鲁、每個索引2分片盐欺、0副本赁豆,主要用到的是3個索引,分別是:global_trace找田、segment歌憨、segment_duration
    2、索引數(shù)據(jù)在ES端保存7天墩衙,SkyWalking每5分鐘定時刪除7日前的數(shù)據(jù)
    3务嫡、索引大小:
    global_trace: 150G
    segment: 222G
    segment_duration: 150G

  • 單索引查詢分析
    global_trace:查詢 2 個分片中用的 2 個. 724450976 命中. 耗時 6.499 秒
    segment_duration:查詢 2 個分片中用的 2 個. 788681707 命中. 耗時 7.662 秒
    segment:查詢 2 個分片中用的 2 個. 1304838269 命中. 耗時 11.767 秒

3漆改、主要問題

  • SkyWalking 定時刪除堆積

Skywalking的數(shù)據(jù)TTL策略是通過線程定時調(diào)用ES API條件刪除歷史數(shù)據(jù)心铃。目前配置是:鏈路數(shù)據(jù)存放7天,每5分鐘刪除7天前的數(shù)據(jù)挫剑。由于ES刪除緩慢去扣,導致數(shù)據(jù)堆積。惡性循環(huán)下導致本來設置的TTL時間為90分鐘樊破,結(jié)果卻堆積了近5天數(shù)據(jù)愉棱。目前直接把TTL時間改為了7天,數(shù)據(jù)刪除依然緩慢哲戚,幾乎沒有刪除掉奔滑,導致數(shù)據(jù)堆積越來越多。

Skywalking的TTl操作是通過 delete_by_query的方式實現(xiàn)的顺少,這種操作通過全表掃描的方式尋找滿足條件的數(shù)據(jù)朋其,數(shù)據(jù)體量大了之后非常消耗性能,通過觀察監(jiān)控發(fā)現(xiàn)CPU利用率一直處于100%狀態(tài)脆炎,基本沒有空閑資源處理其它請求梅猿。
做法時禁掉TTL操作,改為凌晨低峰時期刪除秒裕,優(yōu)化后的cpu利用率維持在80%-90%袱蚓。

  • bulk寫性能低

TPS吞吐量估算為:800-1800,針對每分鐘5w次的寫入完全hold不住

bulk寫入性能低的一個原因是受delete_by_query的方式影響几蜻,解決了上面那個問題后癞松,bulk性能明顯提升不少,但依然無法滿足大量數(shù)據(jù)實時寫入的需求入蛆,那么還有哪些操作可以優(yōu)化呢响蓉?
1、增大索引buffer哨毁;indices.memory.index_buffer_size: 20%
2枫甲、增大刷新間隔;index.refresh_interval:120s
3、異步寫translog想幻; index.translog.durability:async
4粱栖、增大CPU核數(shù),提升并發(fā)處理能力
5脏毯、使用SSD硬盤或者將單塊機械硬盤改為多塊使用

  • Skywalking整體性能緩慢

Skywalking底層邏輯復雜闹究,會涉及到大量索引關聯(lián)與聚合操作,每次看板加載都在5秒以上食店。

官方建議單分片大小合理的區(qū)間值是20g~50G渣淤,上面3個索引的大小明顯超出了這個范圍,優(yōu)化建議:
1吉嫩、擴大索引分片數(shù)量
2价认、實現(xiàn)按天拆分索引
3、刪除7天之前的索引而不是使用delete_by_query
4自娩、增加服務器數(shù)量用踩,對索引進行冷熱數(shù)據(jù)分離,不經(jīng)常使用的索引可以降低分片數(shù)量
5忙迁、非當日索引強制合并segment段為1

3脐彩、4、5基于條件2

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末姊扔,一起剝皮案震驚了整個濱河市惠奸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌旱眯,老刑警劉巖晨川,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件证九,死亡現(xiàn)場離奇詭異删豺,居然都是意外死亡,警方通過查閱死者的電腦和手機愧怜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進店門呀页,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人拥坛,你說我怎么就攤上這事蓬蝶。” “怎么了猜惋?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵丸氛,是天一觀的道長。 經(jīng)常有香客問我著摔,道長缓窜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮禾锤,結(jié)果婚禮上私股,老公的妹妹穿的比我還像新娘。我一直安慰自己恩掷,他們只是感情好倡鲸,可當我...
    茶點故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著黄娘,像睡著了一般峭状。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上寸宏,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天宁炫,我揣著相機與錄音,去河邊找鬼氮凝。 笑死羔巢,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的罩阵。 我是一名探鬼主播竿秆,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼稿壁!你這毒婦竟也來了幽钢?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤傅是,失蹤者是張志新(化名)和其女友劉穎匪燕,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體喧笔,經(jīng)...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡帽驯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了书闸。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尼变。...
    茶點故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖浆劲,靈堂內(nèi)的尸體忽然破棺而出嫌术,到底是詐尸還是另有隱情,我是刑警寧澤牌借,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布度气,位于F島的核電站,受9級特大地震影響膨报,放射性物質(zhì)發(fā)生泄漏磷籍。R本人自食惡果不足惜哲虾,卻給世界環(huán)境...
    茶點故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望择示。 院中可真熱鬧束凑,春花似錦、人聲如沸栅盲。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽谈秫。三九已至扒寄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間拟烫,已是汗流浹背该编。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留硕淑,地道東北人课竣。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像置媳,于是被迫代替她去往敵國和親于樟。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內(nèi)容