使用skywalking對dubbo鏈路監(jiān)控的一次問題排查

昨天上午蝴簇，運維支持組的小伙伴向我反饋說他們的es集群出了故障世曾，bulk寫性能突然下降了，平均1s中只有幾百條數(shù)據(jù)寫入

1霹抛、背景

SkyWalking作為公司鏈路采集系統(tǒng)搓逾，實時采集線上各個服務的鏈路數(shù)據(jù)。采樣率為全量杯拐，理論上TPS是監(jiān)控接入工程所有的TPS總和霞篡。目前后端使用ES作為數(shù)據(jù)存儲，鏈路數(shù)據(jù)保留7天端逼。生產(chǎn)環(huán)境目前接入的工程有83個朗兵，ES的數(shù)據(jù)寫入，和查詢出現(xiàn)了明顯的瓶頸顶滩。需要對ES做性能調(diào)優(yōu)余掖。

2、現(xiàn)狀

ES集群
2臺 2核 16g
索引
1礁鲁、每個索引2分片盐欺、0副本赁豆，主要用到的是3個索引，分別是：global_trace找田、segment歌憨、segment_duration
2、索引數(shù)據(jù)在ES端保存7天墩衙，SkyWalking每5分鐘定時刪除7日前的數(shù)據(jù)
3务嫡、索引大小：
global_trace: 150G
segment: 222G
segment_duration: 150G
單索引查詢分析
global_trace：查詢 2 個分片中用的 2 個. 724450976 命中. 耗時 6.499 秒
segment_duration：查詢 2 個分片中用的 2 個. 788681707 命中. 耗時 7.662 秒
segment：查詢 2 個分片中用的 2 個. 1304838269 命中. 耗時 11.767 秒

3漆改、主要問題

SkyWalking 定時刪除堆積

Skywalking的數(shù)據(jù)TTL策略是通過線程定時調(diào)用ES API條件刪除歷史數(shù)據(jù)心铃。目前配置是：鏈路數(shù)據(jù)存放7天，每5分鐘刪除7天前的數(shù)據(jù)挫剑。由于ES刪除緩慢去扣，導致數(shù)據(jù)堆積。惡性循環(huán)下導致本來設置的TTL時間為90分鐘樊破，結(jié)果卻堆積了近5天數(shù)據(jù)愉棱。目前直接把TTL時間改為了7天，數(shù)據(jù)刪除依然緩慢哲戚，幾乎沒有刪除掉奔滑，導致數(shù)據(jù)堆積越來越多。

Skywalking的TTl操作是通過 delete_by_query的方式實現(xiàn)的顺少，這種操作通過全表掃描的方式尋找滿足條件的數(shù)據(jù)朋其，數(shù)據(jù)體量大了之后非常消耗性能，通過觀察監(jiān)控發(fā)現(xiàn)CPU利用率一直處于100%狀態(tài)脆炎，基本沒有空閑資源處理其它請求梅猿。
做法時禁掉TTL操作，改為凌晨低峰時期刪除秒裕，優(yōu)化后的cpu利用率維持在80%-90%袱蚓。

bulk寫性能低

TPS吞吐量估算為：800-1800，針對每分鐘5w次的寫入完全hold不住

bulk寫入性能低的一個原因是受delete_by_query的方式影響几蜻，解決了上面那個問題后癞松，bulk性能明顯提升不少，但依然無法滿足大量數(shù)據(jù)實時寫入的需求入蛆，那么還有哪些操作可以優(yōu)化呢响蓉？
1、增大索引buffer哨毁；indices.memory.index_buffer_size: 20%
2枫甲、增大刷新間隔；index.refresh_interval：120s
3、異步寫translog想幻； index.translog.durability：async
4粱栖、增大CPU核數(shù)，提升并發(fā)處理能力
5脏毯、使用SSD硬盤或者將單塊機械硬盤改為多塊使用

Skywalking整體性能緩慢

Skywalking底層邏輯復雜闹究，會涉及到大量索引關聯(lián)與聚合操作，每次看板加載都在5秒以上食店。

官方建議單分片大小合理的區(qū)間值是20g~50G渣淤，上面3個索引的大小明顯超出了這個范圍，優(yōu)化建議：
1吉嫩、擴大索引分片數(shù)量
2价认、實現(xiàn)按天拆分索引
3、刪除7天之前的索引而不是使用delete_by_query
4自娩、增加服務器數(shù)量用踩，對索引進行冷熱數(shù)據(jù)分離，不經(jīng)常使用的索引可以降低分片數(shù)量
5忙迁、非當日索引強制合并segment段為1

3脐彩、4、5基于條件2

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末姊扔，一起剝皮案震驚了整個濱河市惠奸，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌旱眯，老刑警劉巖晨川，帶你破解...
沈念sama閱讀 221,888評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件证九，死亡現(xiàn)場離奇詭異删豺，居然都是意外死亡，警方通過查閱死者的電腦和手機愧怜，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,677評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門呀页，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人拥坛，你說我怎么就攤上這事蓬蝶。” “怎么了猜惋？”我有些...
開封第一講書人閱讀 168,386評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵丸氛，是天一觀的道長。經(jīng)常有香客問我著摔，道長缓窜，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,726評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮禾锤，結(jié)果婚禮上私股，老公的妹妹穿的比我還像新娘。我一直安慰自己恩掷，他們只是感情好倡鲸，可當我...
茶點故事閱讀 68,729評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著黄娘，像睡著了一般峭状。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上寸宏，一...
開封第一講書人閱讀 52,337評論 1贊 310
城市分裂傳說
那天宁炫，我揣著相機與錄音，去河邊找鬼氮凝。笑死羔巢，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的罩阵。我是一名探鬼主播竿秆，決...
沈念sama閱讀 40,902評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼稿壁！你這毒婦竟也來了幽钢？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,807評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤傅是，失蹤者是張志新（化名）和其女友劉穎匪燕，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體喧笔，經(jīng)...
沈念sama閱讀 46,349評論 1贊 318
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡帽驯，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,439評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了书闸。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尼变。...
茶點故事閱讀 40,567評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖浆劲，靈堂內(nèi)的尸體忽然破棺而出嫌术，到底是詐尸還是另有隱情，我是刑警寧澤牌借，帶...
沈念sama閱讀 36,242評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布度气，位于F島的核電站，受9級特大地震影響膨报，放射性物質(zhì)發(fā)生泄漏磷籍。R本人自食惡果不足惜哲虾，卻給世界環(huán)境...
茶點故事閱讀 41,933評論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望择示。院中可真熱鬧束凑，春花似錦、人聲如沸栅盲。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,420評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽谈秫。三九已至扒寄，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間拟烫，已是汗流浹背该编。一陣腳步聲響...
開封第一講書人閱讀 33,531評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留硕淑，地道東北人课竣。一個月前我還...
沈念sama閱讀 48,995評論 3贊 377
代替公主和親
正文我出身青樓，卻偏偏與公主長得像置媳，于是被迫代替她去往敵國和親于樟。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,585評論 2贊 359

使用skywalking對dubbo鏈路監(jiān)控的一次問題排查

1霹抛、背景

2、現(xiàn)狀

3漆改、主要問題

推薦閱讀更多精彩內(nèi)容