一、場(chǎng)景
下班的路上辩涝,一直在考慮如何處理大批量的文件解析葱峡。場(chǎng)景如下:
系統(tǒng)A中記錄了客戶(hù)的賬戶(hù)余額,系統(tǒng)B每天會(huì)定時(shí)將客戶(hù)的交易流水放入文件服務(wù)器饰及。然后系統(tǒng)A通過(guò)Job解析交易文件蔗坯,更新賬戶(hù)余額。
場(chǎng)景很簡(jiǎn)單燎含,但當(dāng)數(shù)據(jù)量比較大的時(shí)候宾濒,比如客戶(hù)數(shù)量達(dá)到5000萬(wàn)至1億左右,如何優(yōu)化業(yè)務(wù)邏輯瘫镇,保證數(shù)據(jù)的正確性鼎兽?
二、問(wèn)題與解決方案
對(duì)于上述場(chǎng)景铣除,我的第一個(gè)想法就是采取“生產(chǎn)者-消費(fèi)者”的模式,保證程序能夠橫向擴(kuò)展鹦付。最常用的就是采用MQ尚粘。
當(dāng)業(yè)務(wù)復(fù)雜的時(shí)候,可以建立多個(gè)通道敲长,不同的業(yè)務(wù)用不同的通道來(lái)負(fù)責(zé)郎嫁。
接下來(lái),就是具體業(yè)務(wù)邏輯中需要考慮到的一些問(wèn)題祈噪。
1.要不要采用線(xiàn)程池泽铛?
采用多線(xiàn)程是一定的,但為什么還會(huì)有這樣的問(wèn)題呢辑鲤?因?yàn)槲疫€有另外一個(gè)比較好的想法盔腔,可以采用直接初始化幾(30)個(gè)線(xiàn)程待命的方式來(lái)取代線(xiàn)程池,個(gè)人覺(jué)得這樣會(huì)比傳統(tǒng)的線(xiàn)程池效率高一點(diǎn)。如果有人覺(jué)得這樣的想法不是很好弛随,可以忽略這一點(diǎn)瓢喉,直接用線(xiàn)程池。
2.如何保證數(shù)據(jù)的一致性舀透?
從任務(wù)表中撈出需要解析的文件栓票,需要考慮多任務(wù)并發(fā)的情形。這時(shí)愕够,需要對(duì)每一個(gè)正在處理的文件加分布式鎖走贪,保證當(dāng)前文件只有一個(gè)線(xiàn)程在處理。
3.當(dāng)一個(gè)文件處理中遇到了錯(cuò)誤惑芭,應(yīng)該采用什么機(jī)制進(jìn)行容錯(cuò)坠狡?
如果是整個(gè)文件都無(wú)法解析,那么直接反饋到任務(wù)執(zhí)行報(bào)告中去强衡。同時(shí)生成一個(gè)新的調(diào)度擦秽,等下一個(gè)日切時(shí)間。
如果是文件中某一條記錄無(wú)法解析漩勤,那么需要對(duì)該行記錄標(biāo)記一下感挥,反饋到任務(wù)執(zhí)行報(bào)告。同時(shí)繼續(xù)執(zhí)行下一條越败。
4.文件解析的效率問(wèn)題
同一個(gè)賬戶(hù)的流水触幼,可能分散于多個(gè)不同的文件中,為了提高效率究飞,我們考慮需要建立一張臨時(shí)表置谦,對(duì)賬戶(hù)流水記錄進(jìn)行軋差,最后再更新賬戶(hù)余額亿傅。
初步想法是媒峡,將解析記錄都插入臨時(shí)表中,當(dāng)解析任務(wù)全部完成后葵擎,統(tǒng)一觸發(fā)軋差更新的調(diào)度(按照賬戶(hù)進(jìn)行軋差)谅阿。
所以這里需要2個(gè)子調(diào)度 :
? ? a.解析文件,批量入庫(kù)
? ? b.軋差計(jì)算酬滤,更新賬戶(hù)余額
關(guān)于軋差計(jì)算签餐,由于記錄比較多(2千萬(wàn)用戶(hù),每人5條流水盯串,就有1億條記錄了)氯檐,這樣查詢(xún)效率會(huì)比較低,如果有必要体捏,可以考慮分表冠摄。
5.如果說(shuō)文件中并不是交易流水糯崎,而是賬戶(hù)余額,這時(shí)改如何處理耗拓?
同一個(gè)賬戶(hù)的余額可能存在于多個(gè)文件拇颅,如果沒(méi)有按照時(shí)間排序,會(huì)導(dǎo)致更新余額時(shí)的數(shù)據(jù)錯(cuò)誤乔询。這樣的處理不需要考慮軋差的問(wèn)題樟插,只需要將所有的記錄進(jìn)行排序,更新最后一個(gè)余額就可以了竿刁。
三黄锤、結(jié)論
最終的流程圖如下: