在接手該項(xiàng)目時(shí),服務(wù)器架構(gòu)特點(diǎn)是每個(gè)游戲邏輯相關(guān)的服務(wù)器LoginServer稳吮、WorldServer吉挣、GameServer 直接連接數(shù)據(jù)庫,這產(chǎn)生兩個(gè)問題:
1隧熙、作為游戲主要邏輯的GameServer片挂,也是直接連接數(shù)據(jù)庫,在外網(wǎng)線上出現(xiàn)了性能問題,人數(shù)達(dá)到200人時(shí)音念,出現(xiàn)了卡頓沪饺,原因是GameServer 進(jìn)行存檔是同步阻塞式操作數(shù)據(jù)庫,例如一個(gè)查詢操作如果還沒有查詢出結(jié)果時(shí)闷愤,線程會(huì)一直阻塞于此整葡,玩家人數(shù)一多(本項(xiàng)目為200人),就會(huì)造成數(shù)據(jù)庫訪問而阻塞線程讥脐,造成卡頓遭居。這就是數(shù)據(jù)庫同步式編程的弊端,對于多玩家的大量數(shù)據(jù)庫操作旬渠,會(huì)產(chǎn)生這種性能問題俱萍;
2、在WorldServer告丢、每個(gè)GameServer(分線)內(nèi)部都維護(hù)一個(gè)數(shù)據(jù)庫連接模塊(不管是否同步異步)枪蘑,原本代碼設(shè)計(jì)的不太妥當(dāng),造成數(shù)據(jù)一致性問題芋齿,例如玩家在GameServer_1玩了一段時(shí)間腥寇,產(chǎn)生了臟數(shù)據(jù),在離線時(shí)自動(dòng)會(huì)將臟數(shù)據(jù)回寫到數(shù)據(jù)庫觅捆,但這一步什么時(shí)候完成還不知道赦役,因?yàn)榇藭r(shí)GameServer_1可能在處理大量的數(shù)據(jù)庫操作,未必能確保什么時(shí)候完成實(shí)際數(shù)據(jù)庫操作栅炒,如果此時(shí)玩家在其他分線GameServer_2 登陸掂摔,就可能從數(shù)據(jù)庫加載到舊數(shù)據(jù),進(jìn)而導(dǎo)致更多的錯(cuò)誤赢赊!
(一開始接觸這個(gè)問題乙漓,我首先想到的是《**屠龍》的做法,在每個(gè)GameServer释移、GateServer叭披、WorldServer維護(hù)玩家的狀態(tài):登陸中、游戲中玩讳、登出中涩蜘、已登出,對于正在【登出中】的玩家熏纯,是不允許進(jìn)行data-load等進(jìn)行重新登錄操作的同诫,因?yàn)榕K數(shù)據(jù)還沒有進(jìn)行落地。但今天看來樟澜,這種做法在PT項(xiàng)目是行不通的误窖,一是僅僅PT::GameServer 進(jìn)行玩家狀態(tài)維護(hù)叮盘;二是,在GateServer和WorldServer維護(hù)玩家狀態(tài)其實(shí)就是讓具有單點(diǎn)性質(zhì)的服務(wù)器應(yīng)該盡量少的參與游戲邏輯霹俺、盡量少做面向玩家狀態(tài)設(shè)計(jì)柔吼;三是,《**屠龍》是不分線的丙唧,而是分場景嚷堡,也就是一個(gè)角色只能在某個(gè)GameServer上,所以僅僅在GameServer上維護(hù)狀態(tài)就足夠了艇棕,但是PT::GameServer就是分線的,分線之間不知道相互的存在串塑,是并行的沼琉,《**屠龍》是互斥的)
針對以上兩點(diǎn)涉及性能和異步造成的數(shù)據(jù)一致性問題,后來采用了數(shù)據(jù)庫異步編程架構(gòu)桩匪,主要特點(diǎn)為提供DbManager(數(shù)據(jù)庫服務(wù)器)用以做低速IO的隔離的代理服務(wù)打瘪,GameServer想要進(jìn)行數(shù)據(jù)庫操作(無論讀寫)時(shí),通過網(wǎng)絡(luò)消息協(xié)議告知Db-Manager傻昙,由其代理地進(jìn)行實(shí)際操作闺骚,等有結(jié)果出來時(shí),由DbManager回發(fā)消息給對應(yīng)的GameServer:
以上妆档,是從服務(wù)器架構(gòu)上解決數(shù)據(jù)庫相關(guān)【性能】與【數(shù)據(jù)一致性問題】僻爽,下面說說在模塊邏輯上的異步編程的【弊端、或者潛在性的問題贾惦、或陷阱】:
1胸梆、最基本地,因?yàn)槭钱惒骄幊绦氚澹捅仨氂虚_發(fā)人員確保能夠確保異步回調(diào)的正確處理:如是否能夠在回調(diào)時(shí)獲取到發(fā)起異步時(shí)的上下文碰镜,是否在有了這個(gè)異步結(jié)果后能夠做后續(xù)還沒有完成的事情;
2习瑰、如果一個(gè)功能會(huì)造成多次異步調(diào)用绪颖,需要考慮數(shù)據(jù)的【先后問題】與【數(shù)據(jù)完整性】問題(舉個(gè)栗子:以前項(xiàng)目也使用了DbManager,并且DbManager 使用多線程機(jī)制以利用多核資源甜奄,登陸時(shí)需要獲取玩家信息柠横、技能列表、郵件列表贺嫂,由于沒有設(shè)計(jì)好這些部件之間的想關(guān)系滓鸠,在接收到郵件列表的異步回調(diào)后,就直接發(fā)送消息給客戶端第喳,但是此時(shí)玩家信息都還沒有糜俗,到時(shí)發(fā)送失敗。)
3、邏輯先后問題(也就是此次2017-12-05 15:21:46的回檔問題之一)玩家進(jìn)行重新二次登陸時(shí)悠抹,會(huì)將上次登陸的游戲?qū)ο箜數(shù)糁樵拢蠢響?yīng)該對舊對象進(jìn)行資源釋放(數(shù)據(jù)存檔、解鎖楔敌、斷開數(shù)據(jù)庫連接)啤挎、對象回收,然后再進(jìn)行第二次登陸的正常流程卵凑。但是庆聘,進(jìn)行頂玩家操作時(shí),沒有進(jìn)行實(shí)際的資源釋放勺卢,也被告知可以進(jìn)行二次登陸伙判,結(jié)果導(dǎo)致二次登陸時(shí)加載到舊數(shù)據(jù),進(jìn)而造成回檔黑忱。
4宴抚、(2017-12-12前)進(jìn)行了一輪的調(diào)整:
①、客戶端client連接到登陸服務(wù)器LS甫煞,發(fā)起賬號登陸菇曲;
②、LS訪問中心服務(wù)器MS抚吠,獲取該帳號的登陸流程常潮;
③、MS向具體的WS發(fā)起賬號登陸楷力;
④蕊玷、WS獲取分線GameServer列表和被分配用以登陸游戲的 網(wǎng)關(guān)Proxy,并告知對應(yīng)的網(wǎng)關(guān)Proxy進(jìn)行登陸準(zhǔn)備弥雹;
⑤⑥⑦垃帅、返回Client連接被分配的 proxy、登陸key剪勿,分線列表贸诚;
⑧、客戶端連接指定的網(wǎng)關(guān)服務(wù)器厕吉,并用剛獲得的登陸key酱固,請求分線進(jìn)入游戲;
⑨头朱、網(wǎng)關(guān)服務(wù)器廣播給所有已連接的分線進(jìn)行該帳號的存檔下線操作运悲;
⑩、該帳號的角色所在游戲服務(wù)器GS網(wǎng)db-manager發(fā)送存檔請求项钮;
?班眯、獨(dú)立db-manager進(jìn)程進(jìn)行實(shí)際入庫希停。
有一些步驟是存在潛在性問題的:
⑨、假如GateServer是單點(diǎn)署隘,沒有做負(fù)載均衡宠能,而此時(shí)GateServer掛了,GameServer就得不到通知讓玩家進(jìn)行存檔磁餐,不過還好违崇,玩家也自然斷線了,系統(tǒng)自動(dòng)進(jìn)行存儲诊霹;假如GateServer由于某種原因正在重啟羞延、并且GS只完成了對GS1、GS2的socket連接脾还,而此前該帳號的玩家可能在GS3肴楷,也會(huì)導(dǎo)致玩家數(shù)據(jù)不會(huì)立馬存檔;所以一種解決方案是否可以是:在④的基礎(chǔ)上荠呐,增加一個(gè)(4.5),WS也告知隸屬下的各個(gè) GS進(jìn)行馬上的玩家數(shù)據(jù)存檔砂客;并且考慮到 GateServer泥张、GameServer都會(huì)觸發(fā)玩家存檔操作,那么就需要GameServer內(nèi)不維護(hù)一個(gè)玩家狀態(tài)管理鞠值,只在玩家數(shù)據(jù)臟并且還沒有入檔時(shí)才進(jìn)行實(shí)際入檔操作媚创,如果已經(jīng)有g(shù)ate或gameserver 觸發(fā)了入檔操作,則不在重復(fù)操作彤恶〕疲可以刪除⑨中關(guān)于告知各GameServer進(jìn)行存儲操作而只使用(4.5)呢?好像可以耶声离。
⑨芒炼、目前是GateServer ?告知各GameServer進(jìn)行(A)頂玩家、進(jìn)行數(shù)據(jù)落地操作术徊,然后發(fā)起(B)登陸數(shù)據(jù)加載請求本刽;如果解決了上一小節(jié)【邏輯先后問題】,那就應(yīng)該是GameServer在(A)網(wǎng)DB-manager發(fā)送存檔赠涮,接著在(B)發(fā)起玩家數(shù)據(jù)請求子寓,原因是,我們默認(rèn)了“只要按順序地往db-manager發(fā)送了請求笋除,也應(yīng)該是按順序地接收到返回結(jié)果”斜友,即使(A)只是進(jìn)行了操作的請求,而非實(shí)際真的同步完成數(shù)據(jù)落地垃它;如果代碼沒有問題鲜屏,沒有各種異常安全烹看、邏輯安全問題,確實(shí)能保證數(shù)據(jù)的一致性墙歪,但實(shí)際很難的保證听系,萬一在(A)中有大量的數(shù)據(jù)要存檔,而且可能會(huì)跨越不同的模塊虹菲,就不能保證(A)里同一幀內(nèi)進(jìn)行了“入檔請求”靠胜,而且萬一某一步驟出現(xiàn)了異常安全、邏輯安全問題毕源,而又靜悄悄地返回了浪漠,(B)這一步還是會(huì)被執(zhí)行到:
上一小結(jié)的【邏輯先后問題】,會(huì)出現(xiàn) a* 與 b* 交叉的情況霎褐,解決后 a* < b* 得到了解決址愿;但是GameServer中 a* 個(gè)小步驟間先沒有操作結(jié)果判斷的話(即及時(shí)a3失敗了,a4還是會(huì)被執(zhí)行)冻璃。
解決方案是响谓,在玩家【登錄加載】和【下線存檔】各維護(hù)一個(gè)【操作列表】,如果列表內(nèi)的某個(gè)元素的操作結(jié)果失敗省艳,則不應(yīng)該進(jìn)行后續(xù)的操作娘纷,并且應(yīng)該以“強(qiáng)勢的方式表現(xiàn)出該錯(cuò)誤”(1、PT項(xiàng)目中有些功能邏輯是:
if(成功){xxx}就完了跋炕,沒有寫出現(xiàn)else時(shí)應(yīng)該如何處理赖晶,這往往容易丟失正確的狀態(tài)判斷跟進(jìn);2辐烂、使用面向接口編程時(shí)遏插,子類會(huì)覆蓋基類的某些函數(shù),最好地是用先顯示調(diào)用一下基類的該函數(shù)纠修,如果返回失敗則應(yīng)該直接返回胳嘲,但是PT是直接在子類寫“自以為是”的邏輯;這兩個(gè)都可能存在潛藏的灰色邏輯bug)扣草;如果存儲裝備失敗了胎围,就不應(yīng)該進(jìn)行后續(xù)的任務(wù)存儲操作(或者至少有某種方式通知開發(fā)人員此次存儲失敗了),更重要的是德召,(B)在(A)的存檔結(jié)果出來后白魂,才進(jìn)行實(shí)際的操作請求,如果成功則才開始請求登陸數(shù)據(jù)加載上岗,否則就不讓登陸:因?yàn)閿?shù)據(jù)臟了福荸。