Java服務(wù)剛啟動(dòng)時(shí)剂陡,一小波接口超時(shí)排查全過(guò)程

簡(jiǎn)介

我們組有一個(gè)流量較大的Java服務(wù),每次發(fā)代碼時(shí)狐胎,服務(wù)都會(huì)有一小波接口超時(shí)鸭栖,之前簡(jiǎn)單分析過(guò),發(fā)現(xiàn)這些超時(shí)的case僅發(fā)生在服務(wù)剛啟動(dòng)時(shí)握巢,少量請(qǐng)求會(huì)耗時(shí)好幾秒晕鹊,但之后又馬上恢復(fù)正常。

問(wèn)題發(fā)生

如下镜粤,是我們服務(wù)的一次上線捏题,可以看到,上線期間(21:10左右)會(huì)有一小波499超時(shí)肉渴。

而從我們?nèi)溌啡罩酒脚_(tái)查看這些超時(shí)的調(diào)用公荧,會(huì)發(fā)現(xiàn)外部網(wǎng)絡(luò)操作(如:rpc調(diào)用、查詢數(shù)據(jù)庫(kù)等)耗時(shí)不高同规,所以耗時(shí)來(lái)源于執(zhí)行java代碼而非外部調(diào)用循狰。

但為啥就剛啟動(dòng)完成那會(huì)比較耗時(shí),之后又正常了呢券勺,有點(diǎn)經(jīng)驗(yàn)的話绪钥,肯定會(huì)想到這里面估計(jì)發(fā)生了什么隱式操作,那Java代碼執(zhí)行時(shí)會(huì)有哪些隱式操作可能導(dǎo)致耗時(shí)高呢关炼?
我想到了如下幾種情況:

  1. 懶加載操作程腹,如連接池初始化、緩存加載儒拂?

經(jīng)過(guò)檢查寸潦,發(fā)現(xiàn)這些都已在啟動(dòng)時(shí)加載,不會(huì)延遲到請(qǐng)求時(shí)社痛。

  1. 發(fā)生了GC见转?

經(jīng)過(guò)檢查,啟動(dòng)時(shí)GC正常蒜哀,耗時(shí)不高斩箫。

  1. JIT即時(shí)編譯功能導(dǎo)致?

java代碼默認(rèn)是解釋執(zhí)行的撵儿,當(dāng)某些代碼被多次執(zhí)行后乘客,會(huì)被JIT編譯成原生指令執(zhí)行,執(zhí)行性能相應(yīng)提升淀歇,但我通過(guò)JVM參數(shù)-Xint關(guān)閉了JIT后寨典,發(fā)現(xiàn)問(wèn)題依然存在,故排除了此原因房匆。

  1. 執(zhí)行過(guò)程中有鎖?

經(jīng)過(guò)檢查代碼,未發(fā)現(xiàn)鎖的存在浴鸿。

  1. 操作系統(tǒng)相關(guān)隱式操作井氢,上下文切換、缺頁(yè)中斷岳链、文件io慢花竞?

經(jīng)初步檢查,CPU掸哑、內(nèi)存约急、磁盤使用率都正常,這部分深入排查比較費(fèi)力苗分,且有權(quán)限限制厌蔽,暫先跳過(guò)。

那會(huì)是什么原因?qū)е碌模?/p>

問(wèn)題排查

暫時(shí)沒啥頭緒摔癣,我打算先用arthas的profile命令奴饮,收集一些CPU火焰圖看看。

由于超時(shí)僅發(fā)生在剛啟動(dòng)完成后的部分請(qǐng)求择浊,之后又恢復(fù)正常戴卜,故我計(jì)劃在啟動(dòng)完成后開始收集火焰圖,每次收集10s的火焰圖琢岩,收集3次投剥,然后對(duì)比前后的火焰圖,看看它們有什么不同担孔,收集腳本如下:

function flamegraph_sample(){
    # 不斷檢測(cè)服務(wù)直到它啟動(dòng)完成
    while sleep 1; do curl -sS --connect-timeout 3 -m3 http://127.0.0.1:8080/health | grep ok && break; done
    pid=`pgrep -n java`
    for i in {1..3}; do
        java -jar arthas-boot.jar -c "profiler start --alluser" "$pid";
        sleep 10s;
        java -jar arthas-boot.jar -c "profiler stop --file /tmp/flamegraph_cpu_%t.html " "$pid";
    done
    java -jar arthas-boot.jar -c "stop" "$pid";
}

生成的前2個(gè)火焰圖如下:



乍一看江锨,火焰圖中沒有明顯的瓶頸點(diǎn),但經(jīng)過(guò)仔細(xì)查看攒磨,在第一張火焰圖中搜索ClassLoader泳桦,可以搜到不少類加載操作(紅色部分),而第二張則基本沒有娩缰!

難道是類加載導(dǎo)致的灸撰?目前我有80%信心懷疑就是它導(dǎo)致的,但類加載有那么慢拼坎?

為此浮毯,我計(jì)劃使用profile命令的-e wall模式收集剛啟動(dòng)完成時(shí)的調(diào)用棧,并使用jfr格式保存數(shù)據(jù)泰鸡,其中wall模式適合診斷高耗時(shí)問(wèn)題债蓝,而jfr格式數(shù)據(jù)會(huì)保存時(shí)間戳與線程名稱,適合case by case分析盛龄,命令如下:

profiler start -e wall --file /tmp/result.jfr

收集到j(luò)fr文件后饰迹,使用jmc工具打開芳誓,然后我在日志平臺(tái)上找到一個(gè)慢調(diào)用日志,它顯示http-nio-8080-exec-28線程在21:14:1021:14:18時(shí)間段是一次耗時(shí)近8s的慢調(diào)用啊鸭,所以我用此條件在jmc里過(guò)濾出此case的調(diào)用棧數(shù)據(jù)锹淌,如下:


可以發(fā)現(xiàn),確實(shí)絕大多數(shù)耗時(shí)發(fā)生在類加載上赠制,類加載之所以慢是因?yàn)榧虞d類有鎖競(jìng)爭(zhēng)赂摆,而我們接口由于查表較多,確實(shí)會(huì)觸發(fā)非常多類的加載钟些,所以問(wèn)題比較明顯烟号。

問(wèn)題解決

知道原因后,解決起來(lái)就簡(jiǎn)單了政恍,把類提前加載到JVM即可汪拥,為了簡(jiǎn)單,我直接使用了spring中的工具方法抚垃,如下:

private static final String[] CLASS_PREFIX_ARR = new String[] {
                "org.apache", "com.thoughtworks", "io.netty", "com.google", "io.grpc",
                "com.alibaba", "org.springframework", "cn.hutool", "com.fasterxml", "org.hibernate", 
                "io.opencensus", "org.redisson", "io.micrometer", "io.prometheus",
        };

PathMatchingResourcePatternResolver resolver = new PathMatchingResourcePatternResolver();
for (String classPrefix : CLASS_PREFIX_ARR) {
    Resource[] resources;
    try {
        resources = resolver.getResources(
                "classpath*:" + StringUtils.replaceChars(classPrefix, '.', '/') + "/**/*.class");
    } catch (IOException e) {
        ExceptionUtils.rethrow(e);
        return;
    }
    for (Resource resource : resources) {
        String className = null;
        try (InputStream is = resource.getInputStream()) {
            ClassReader cr = new ClassReader(is);
            className = StringUtils.replaceChars(cr.getClassName(), '/', '.');
            Class<?> clz = Class.forName(className);
            log.info("preLoadClass success: " + className + ", classLoader: " + clz.getClassLoader());
        } catch (Throwable e) { 
            log.warn("preLoadClass failed: " + className);
        }
    }
}

類預(yù)加載上線后喷楣,后面又進(jìn)行過(guò)多次代碼發(fā)布,發(fā)布過(guò)程中幾乎不會(huì)再產(chǎn)生超時(shí)情況鹤树,問(wèn)題確認(rèn)已解決铣焊。

總結(jié)

此次問(wèn)題的排查過(guò)程,還是用到了不少排查技巧的罕伯,總結(jié)一下:

  1. 當(dāng)看起來(lái)不應(yīng)該慢的代碼執(zhí)行慢時(shí)曲伊,可以想想有哪些可能的隱式操作存在,此次case的隱式操作就是類加載追他。
  2. 當(dāng)診斷問(wèn)題沒有頭緒時(shí)坟募,可考慮使用arthas的profile命令來(lái)繪制火焰圖,看從火焰圖中能不能找到線索邑狸,盡管不會(huì)總是有效懈糯。
  3. 當(dāng)從CPU火焰圖中看不出明顯問(wèn)題時(shí),可通過(guò)對(duì)比問(wèn)題前后的火焰圖來(lái)找不同點(diǎn)单雾。
  4. 理解profile的-e cpu(默認(rèn))與-e wall選項(xiàng)的差異赚哗,一般-e cpu診斷高cpu問(wèn)題,而-e wall診斷高耗時(shí)問(wèn)題硅堆,但如果是偶爾慢一下屿储,需要case by case分析,可考慮使用jfr格式保存診斷數(shù)據(jù)渐逃。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末够掠,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子茄菊,更是在濱河造成了極大的恐慌疯潭,老刑警劉巖赊堪,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異竖哩,居然都是意外死亡雹食,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門期丰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人吃挑,你說(shuō)我怎么就攤上這事钝荡。” “怎么了舶衬?”我有些...
    開封第一講書人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵埠通,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我逛犹,道長(zhǎng)端辱,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任虽画,我火速辦了婚禮舞蔽,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘码撰。我一直安慰自己渗柿,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開白布脖岛。 她就那樣靜靜地躺著朵栖,像睡著了一般。 火紅的嫁衣襯著肌膚如雪柴梆。 梳的紋絲不亂的頭發(fā)上陨溅,一...
    開封第一講書人閱讀 49,166評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音绍在,去河邊找鬼门扇。 笑死,一個(gè)胖子當(dāng)著我的面吹牛揣苏,可吹牛的內(nèi)容都是我干的悯嗓。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼卸察,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼脯厨!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起坑质,我...
    開封第一講書人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤合武,失蹤者是張志新(化名)和其女友劉穎临梗,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體稼跳,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡盟庞,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了汤善。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片什猖。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖红淡,靈堂內(nèi)的尸體忽然破棺而出不狮,到底是詐尸還是另有隱情,我是刑警寧澤在旱,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布摇零,位于F島的核電站,受9級(jí)特大地震影響桶蝎,放射性物質(zhì)發(fā)生泄漏驻仅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一登渣、第九天 我趴在偏房一處隱蔽的房頂上張望噪服。 院中可真熱鬧,春花似錦绍豁、人聲如沸芯咧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)敬飒。三九已至,卻和暖如春芬位,著一層夾襖步出監(jiān)牢的瞬間无拗,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工昧碉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留英染,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓被饿,卻偏偏與公主長(zhǎng)得像四康,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子狭握,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容