背景
豐巢作為一家快速發(fā)展的科技公司钝凶,在我們平時(shí)的工作中,有很多的數(shù)據(jù)庫(kù)遷移唁影、改造耕陷、測(cè)試等工作掂名。在我們之前做的一次異構(gòu)數(shù)據(jù)庫(kù)遷移過(guò)程中,我們投入了相對(duì)較多的人力哟沫。我本人一直在思考如何投入最少的人力饺蔑,并且能使這個(gè)過(guò)程更加安全穩(wěn)定,其中一個(gè)技術(shù)難點(diǎn)便是對(duì)于生產(chǎn)環(huán)境的流量在測(cè)試環(huán)境進(jìn)行持續(xù)的回放嗜诀,并在這個(gè)過(guò)程中發(fā)現(xiàn)問(wèn)題所在猾警。
技術(shù)選型
一開(kāi)始本著不重復(fù)造輪子的原則,想在開(kāi)源領(lǐng)域找到一款合適我們的產(chǎn)品裹虫。主要調(diào)研了tcpcopy框架肿嘲,但是它不能滿足我司的實(shí)際情況:
- 我們后臺(tái)服務(wù)使用的都是長(zhǎng)連接技術(shù),tcpcopy只有等到下一次連接登錄時(shí)才能完成實(shí)際的鏈路創(chuàng)建筑公,這個(gè)在我們的環(huán)境中完全行不通,我們需要所有錄制的信息都可以100%被回放尊浪;
- 我們有很多的場(chǎng)景匣屡,庫(kù)名和表名的映射都發(fā)生了變化,tcpcopy等現(xiàn)有技術(shù)無(wú)法解決我們的這個(gè)問(wèn)題拇涤;
- 我們希望在錄制和回放的過(guò)程中捣作,不但能夠校驗(yàn)是否發(fā)生錯(cuò)誤、響應(yīng)延遲等鹅士,還能對(duì)response做校驗(yàn)券躁,甚至是對(duì)兩個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)一致性做校驗(yàn);
為了滿足上面3個(gè)要求掉盅,我們開(kāi)始了自研之路也拜。在開(kāi)始之前,我們需要一款能從數(shù)據(jù)鏈路層抓包的框架趾痘,我們選擇了google開(kāi)源的gopacket慢哈,因?yàn)槲覀冎笆褂胓opacket實(shí)現(xiàn)過(guò)redis的實(shí)時(shí)命令分析工具,因此對(duì)它非常有信心永票。
功能分解
我對(duì)這款工具的定位是可以持續(xù)的輸出業(yè)務(wù)價(jià)值卵贱,因此我希望它能最短的時(shí)間里便能產(chǎn)生作用,在制定第一期的功能列表時(shí)侣集,本著不求大而全键俱,只求有用的原則:
- mysql協(xié)議理解:目前版本中只需理解登錄、命令執(zhí)行和連接關(guān)閉即可世分,非常簡(jiǎn)單编振;
- 命令解析及輸出:直接輸出實(shí)際的sql文本命令,命令會(huì)標(biāo)識(shí)出具體是哪個(gè)連接的命令及發(fā)送的時(shí)間罚攀;
- 回放功能:支持原速回放和倍速回放党觅;
- 延遲和錯(cuò)誤檢測(cè)雌澄;
技術(shù)實(shí)現(xiàn)
gopacket使用
gopacket的使用非常簡(jiǎn)單,只需要在go.mod中引用gopacket的最新版本即可:
require github.com/google/gopacket v1.1.17
代碼示例:
devices, err := pcap.FindAllDevs()
if err != nil {
log.Fatal(err)
}
for _, deviceGet := range devices {
for _, address := range deviceGet.Addresses {
if address.IP.String() == *ip {
device = deviceGet.Name
break
}
}
}
if device == "" {
fmt.Println("the ip don't match the network device. maybe you don't have the sudo authority.")
return
}
handle, err = pcap.OpenLive(device, snapshot_len, true, timeout)
if err != nil {
log.Fatal(err)
}
defer handle.Close()
var filter string = "tcp and dst host "
filter = filter + *ip + " and dst port " + strconv.Itoa(*port)
err = handle.SetBPFFilter(filter)
if err != nil {
log.Fatal(err)
}
packetSource := gopacket.NewPacketSource(handle, handle.LinkType())
var origin []byte
for packet := range packetSource.Packets() {
//do something
}
倍速實(shí)現(xiàn)
關(guān)于回放邏輯中的倍速實(shí)現(xiàn)杯瞻,我們需要知道幾個(gè)參數(shù):流量錄制時(shí)的開(kāi)始時(shí)間recordB镐牺、結(jié)束時(shí)間recordE、命令的執(zhí)行時(shí)間recordC魁莉、流量回放時(shí)的開(kāi)始時(shí)間replayB睬涧,通過(guò)這些參數(shù)我們就可以推斷出命令在命令在回放時(shí)的實(shí)際執(zhí)行時(shí)間replayC,公式如下旗唁,speed為放大的倍數(shù)畦浓,默認(rèn)為1:
replayC = (recordC+(replayB-recordB)-replayB) /speed + replayB
效果
大家也可以看出,我們?cè)诘谝黄?實(shí)現(xiàn)中检疫,邏輯都比較簡(jiǎn)單讶请,開(kāi)發(fā)時(shí)間也就只花了5天左右的時(shí)間,我們使用此工具對(duì)我司支付平臺(tái)的生產(chǎn)環(huán)境mysql流量進(jìn)行了錄制屎媳,并在測(cè)試環(huán)境中的TiDB上進(jìn)行了回放夺溢,共發(fā)現(xiàn)了兩個(gè)問(wèn)題:
- TiKV的一個(gè)已經(jīng)解決的bug,我司目前tidb的版本是2.1.9烛谊,當(dāng)transfer leader時(shí)遇到了conf change時(shí)风响,會(huì)出現(xiàn)短暫的慢查詢現(xiàn)象(連接會(huì)被TiDB占住一段時(shí)間)PR詳見(jiàn);
- nginx在做tcp proxy時(shí)丹禀,會(huì)偶爾出現(xiàn)連接卡死的現(xiàn)象状勤,只有到達(dá)超時(shí)時(shí)間,連接被kill后双泪,此連接的業(yè)務(wù)才會(huì)恢復(fù)持搜。我司之前使用的是第三方的nginx_tcp_proxy_module的模塊。后來(lái)把nginx的版本升級(jí)為1.17.1并使用nginx官方的stream模塊攒读,此問(wèn)題也解決了朵诫;
未來(lái)
我對(duì)這個(gè)工具還是很期待的,我希望它能夠在資源可控的條件下薄扁,實(shí)時(shí)跑在生產(chǎn)環(huán)境mysql的實(shí)例服務(wù)器上剪返,總結(jié)一下后續(xù)的計(jì)劃:
- 可以邊錄制、邊回放邓梅;
- 可以對(duì)CRUD語(yǔ)句進(jìn)行校驗(yàn)檢測(cè)脱盲;
- 可以定期的對(duì)于目標(biāo)表數(shù)據(jù)進(jìn)行一致性的校驗(yàn);
- 可以不僅僅支持mysql的協(xié)議日缨;
- 可以開(kāi)源出來(lái)钱反;
- ...