??近日在進(jìn)行mongo的數(shù)據(jù)遷移,使用mongodump及mongorestore工具,遇到了導(dǎo)出正常導(dǎo)入失敗秫逝,無報錯日志暑脆,容器退出碼是137海雪,直接容器自行重啟了。現(xiàn)簡要說說是可能是什么原因。
環(huán)境信息
??源環(huán)境:mongo v3.4.10,數(shù)據(jù)量磁盤存儲是3-4GB隔节,使用mongodump不加--gzip參數(shù)時有19GB,加--gzip參數(shù)后是2GB寂呛。以單pod形式運行在A網(wǎng)絡(luò)區(qū)的k8s集群中怎诫。
??目標(biāo)環(huán)境:mongo v3.4.24,以單pod形式運行在B網(wǎng)絡(luò)區(qū)的k8s集群中贷痪。
??操作:將數(shù)據(jù)從源環(huán)境遷移到目標(biāo)環(huán)境幻妓。
操作過程及遇見問題
- 使用mongodump -o XXX導(dǎo)出數(shù)據(jù),未發(fā)現(xiàn)異常劫拢;
- 使用mongorestore XXX時涌哲,運行到80%左右胖缤,程序直接退出,且會使pod自動重啟阀圾,提示:
Failed: XXXX: error restoring from XXX/XXX/xxx.bson: insertion error: EOF
command terminated with exit code 137
排查過程:
- 網(wǎng)上搜上面異常,大多都是說mongo v3.0.7有這個缺陷狗唉,可是我們當(dāng)前版本比它高初烘,應(yīng)無此bug。
- 排除mongo版本不一致:再去測試環(huán)境重新導(dǎo)入導(dǎo)出一次分俯,難道是mongo不支持在線的導(dǎo)入和導(dǎo)出肾筐?在測試環(huán)境試后,測試環(huán)境可以正常導(dǎo)入導(dǎo)出缸剪,mongo版本也是一樣的吗铐,因此跟版本應(yīng)無關(guān)。
- 排除數(shù)據(jù)異常:網(wǎng)上查了下杏节,mongodump是在線備份的唬渗,那么使用--gzip參數(shù),將導(dǎo)出文件壓縮下奋渔,然后再恢復(fù)镊逝,發(fā)現(xiàn)還是一樣的錯誤,說明數(shù)據(jù)在導(dǎo)出嫉鲸、傳輸時沒有問題撑蒜。在不同小版本間mongodump和mongorestore工具的文件大小有大差異,未深入研究其原因玄渗。
- 排除空間不足:檢查新環(huán)境文件系統(tǒng)座菠,發(fā)現(xiàn)文件系統(tǒng)是完全足夠的。
- 逐個數(shù)據(jù)庫導(dǎo)出/導(dǎo)入藤树,診斷問題出原因:上面報錯之前顯示了導(dǎo)入的具體庫名及集合名浴滴,那這次單獨導(dǎo)入就拿它試驗;
導(dǎo)出命令:mongodump --gzip -d xxx -o XXX/
異常導(dǎo)入命令:mongorestore -d xxx --stopOnError --drop XXX/
此時導(dǎo)入報錯也榄,說遇到XXX/xxx后不知道該怎么處理巡莹,于是就忽略XXX/xxx文件夾,程序就直接結(jié)束了甜紫〗嫡可是XXX/xxx剛好就是導(dǎo)入的庫的路徑啊。這又是何原因呢囚霸?
對于小白來說腰根,遇到這種不知所云的報錯,真是頭疼拓型,只有不斷嘗試额嘿,把XXX/修改成XXX/xxx瘸恼,然后再跑,此時通了册养。
成功導(dǎo)入命令:mongorestore -d xxx --stopOnError --drop XXX/xxx
不過此時導(dǎo)入依然是導(dǎo)入到80%左右報最開始的錯誤东帅。 - 排除連接數(shù)問題:無意中搜到MongoDump與MongoRestore若干小坑,于是檢查鏈接ulimit球拦,發(fā)現(xiàn)是不受限制靠闭,然后再嘗試導(dǎo)入,同時觀察
db.serverStatus().connections
坎炼,發(fā)現(xiàn)也是足夠的愧膀,離滿還差得遠(yuǎn)。
問題原因
??由上面檢查連接數(shù)谣光,延伸到是否其它資源不足導(dǎo)致pod退出呢檩淋?而pod的資源主要就是CPU和內(nèi)存(文件系統(tǒng)已經(jīng)檢查過了)。
??核查完pod的CPU萄金、內(nèi)存后蟀悦,發(fā)現(xiàn)CPU的最高使用率沒有接近或超過yaml里設(shè)定的limits,而內(nèi)存實際使用有16GB捡絮,yaml里limits限定是18G熬芜,已經(jīng)很接近了。那么是否可能是內(nèi)存不夠了福稳?
??重新擴(kuò)大yaml的內(nèi)存limits為25G涎拉,然后再重新導(dǎo)入,導(dǎo)入成功的圆!
??此時再檢查該pos內(nèi)存使用率鼓拧,發(fā)現(xiàn)最高使用到23GB了。
總結(jié)歸納
??本人不是專業(yè)搞mongo的越妈,本次是初次使用季俩,因此,可能本問題比較簡單梅掠,但還是記錄下來酌住,以備后用。
??初步猜測導(dǎo)入時的內(nèi)存大小與導(dǎo)出時最大的單個bson文件大小有關(guān)阎抒。本次遷移中酪我,單個bson文件最大是18G,而考慮到額外空間且叁,內(nèi)存至少得18G+以上都哭。時間有限,未做進(jìn)一步的測試驗證。