不管哪個語言寫的程序朴乖,上線之后總是有可能碰到一些奇怪的bug糠涛, 在測試環(huán)境下很難出現(xiàn)(或者說不知道到用什么方式會出現(xiàn))贺拣,但生產(chǎn)環(huán)境就是有鸦难。這里就記錄一下關(guān)于Go程序解決bug的幾點簡單技巧欧聘,包教包會片林,走過路過千萬不要錯過。
技巧1,發(fā)現(xiàn)問題费封。我這里碰到的一個問題是goroutine泄露焕妙。程序上線后,每天會發(fā)現(xiàn)goroutine會增多一些弓摘,并且不會降回來焚鹊。
怎么發(fā)現(xiàn)呢?要么用戶反饋韧献,要么就是監(jiān)控了末患。監(jiān)控的話influxdb和prometheus都可以收集監(jiān)控數(shù)據(jù),對go程序也有直接提供一系列metrics锤窑,比如goroutine璧针, cpu占用,memory占用等渊啰。
我是看監(jiān)控的時候陈莽,發(fā)現(xiàn)了問題。
技巧2虽抄,定位問題走搁。發(fā)現(xiàn)goroutine泄露之后,很長一段時間我都沒搞清楚到底是哪里出問題了迈窟。怎么辦呢私植?好在go自帶神器pprof。我寫的是一個web程序车酣,直接接入pprof就行曲稼。根據(jù)各個不同的web框架,接入方式各不相同湖员,但是最終都是訪問一個形如”/debug/pprof/goroutine"這樣的地址贫悄。
好了,接下來娘摔,劃重點窄坦。有的時候,”/debug/pprof/goroutine"并不能解決問題凳寺,你可能需要看到更詳細(xì)的debug信息鸭津,比如調(diào)用棧等。這個時候需要提高debug等級肠缨,方法非常簡單逆趋,url變成如下形式即可:
/debug/pprof/goroutine?debug=2
目前,我知道debug可以有0晒奕,1闻书,2名斟, 數(shù)字越大內(nèi)容越詳細(xì)(但是相信我,有的時候看不那么詳細(xì)的才容易發(fā)現(xiàn)問題)魄眉。數(shù)字含義請參考源碼的注釋(主要看WriteTo方法那里)砰盐。
通過這個方法,我獲取了一些信息:
發(fā)現(xiàn)是sql transaction導(dǎo)致goroutine泄露了(截圖顯示73個goroutine卡在那里)杆融,真是嗶了狗了楞卡。
技巧3,嘗試解決問題脾歇。沒有什么好的辦法蒋腮, 一般經(jīng)過前面兩個步驟之后,問題都可以定位出來了藕各,改代碼就行了池摧。我遇到的這個問題特別難纏,正好是一個新的goroutine啟動之后直接卡住激况∽魍看堆棧信息是缺失的,因為是一個新的goroutine乌逐,堆棧只顯示到調(diào)用的那個地方竭讳,再之前的堆棧,屬于“父”goroutine的內(nèi)容了浙踢。绢慢。。
這叫我怎么辦洛波,我也沒有辦法胰舆。硬著頭皮,就打印log唄蹬挤。但是我這個問題又比較尷尬缚窿,堆棧只顯示到go的源碼部分,所以呢焰扳,我只能修改了go的源代碼倦零,然后上線看情況。
這是很容易搞出問題的蓝翰,如果你也遇到同樣的處境光绕,上線測試版本前請先準(zhǔn)備好辭職報告。
上線之前畜份,我一直以為一定是我代碼什么地方transaction忘記rollback或者commit導(dǎo)致了泄露。上線之后欣尼,發(fā)現(xiàn)居然不泄露了爆雹。嗶了狗了+1停蕉。這說明什么,說明打印信息之后導(dǎo)致執(zhí)行正常了钙态。那是啥意思慧起,就是多線程的問題!這下册倒,徹底尷尬了蚓挤。。驻子。灿意。
雖然還是沒能完全解決問題,但是過程中學(xué)到了很多技巧崇呵。接下來缤剧,我只能繼續(xù)觀察了。域慷。荒辕。