導(dǎo)讀:分片上傳节槐、斷點(diǎn)續(xù)傳搀庶,這兩個(gè)名詞對于做過或者熟悉文件上傳的朋友來說應(yīng)該不會(huì)陌生拐纱,總結(jié)本篇文章希望對從事相關(guān)工作的同學(xué)能夠有所幫助或者啟發(fā)。
當(dāng)我們的文件特別大的時(shí)候哥倔,上傳是不是需要很長的時(shí)間啊秸架,這么長時(shí)間的長連接,如果網(wǎng)絡(luò)波動(dòng)了呢咆蒿?中間網(wǎng)絡(luò)斷開了呢东抹?在這么長時(shí)間的過程中如果出現(xiàn)不穩(wěn)定的情況,本次上傳的所有內(nèi)容就全部失敗了沃测,又要重新上傳缭黔。
分片上傳,就是將所要上傳的文件蒂破,按照一定的大小馏谨,將整個(gè)文件分隔成多個(gè)數(shù)據(jù)塊(我們稱之為 Part)來進(jìn)行分別上傳,上傳完之后再由服務(wù)端對所有上傳的文件進(jìn)行匯總整合成原始的文件附迷。分片上傳不僅可以避免因網(wǎng)絡(luò)環(huán)境不好導(dǎo)致的一直需要從文件起始位置還是上傳的問題惧互,還能使用多線程對不同分塊數(shù)據(jù)進(jìn)行并發(fā)發(fā)送,提高發(fā)送效率喇伯,降低發(fā)送時(shí)間喊儡。
一、背景
在系統(tǒng)用戶量突增以后稻据,為了更好適配各群體的定制化需求艾猜。業(yè)務(wù)上慢慢實(shí)現(xiàn)了支持 C 端用戶自定義布局和配置,導(dǎo)致配置數(shù)據(jù)讀取 IO 激增攀甚。
為了更好優(yōu)化此類場景箩朴,將用戶自定義配置靜態(tài)化管理!也就是將對應(yīng)的配置文件生成靜態(tài)文件秋度,在生成靜態(tài)文件的過程中遇到棘手的問題炸庞,配置文件文件過大導(dǎo)致在文件上傳服務(wù)器等待時(shí)間過長,致使整個(gè)業(yè)務(wù)場景性能整體下滑荚斯。
二埠居、生成配置文件
生成文件三大要素
文件名
文件內(nèi)容
文件存儲(chǔ)格式
文件內(nèi)容、文件存儲(chǔ)格式都好理解和處理事期,當(dāng)然先前整理過微服務(wù)中常用的加密方式
這里做下補(bǔ)充說明滥壕,如果要想對文件內(nèi)容進(jìn)行加密可以考慮。但是本文的案例場景對于配置信息保密程度較低兽泣,這里不做拓展绎橘。
而對于文件名的命名規(guī)范具體結(jié)合業(yè)務(wù)場景來定,通常都是以文件概要+時(shí)間戳格式為主。但是這類命名規(guī)范容易導(dǎo)致文件名沖突称鳞,造成沒有必要的后續(xù)麻煩涮较。
所以我這里對于文件名的命名做了特殊處理,有處理過前端 Route 路由經(jīng)驗(yàn)的應(yīng)該能聯(lián)想到冈止,文件名可以通過基于內(nèi)容生成 Hash 值來代替狂票。
在Spring 3.0
之后提供了計(jì)算摘要的的方法。
DigestUtils#md
復(fù)制代碼
返回給定字節(jié)的 MD5 摘要的十六進(jìn)制字符串表示形式熙暴。
md5DigestAsHex 源碼
/**
復(fù)制代碼
文件名闺属、內(nèi)容、后綴(存儲(chǔ)格式)確定后直接生成文件
/**
復(fù)制代碼
通過內(nèi)容生成文件優(yōu)點(diǎn)不言而喻周霉,可以極大減少我們主動(dòng)基于內(nèi)容比較來生成新的文件掂器、如果文件內(nèi)容較大生成對應(yīng)的文件名相同則表示內(nèi)容未做任何調(diào)整,此時(shí)我們也就不用做后續(xù)的文件更新操作俱箱。
三唉匾、分片上傳附件
所謂的分片上傳,就是將所要上傳的文件匠楚,按照一定的大小,將整個(gè)文件分隔成多個(gè)數(shù)據(jù)塊(我們稱之為 Part)來進(jìn)行分別上傳厂财,上傳完之后再由服務(wù)端對所有上傳的文件進(jìn)行匯總整合成原始的文件芋簿。分片上傳不僅可以避免因網(wǎng)絡(luò)環(huán)境不好導(dǎo)致的一直需要從文件起始位置還是上傳的問題,還能使用多線程對不同分塊數(shù)據(jù)進(jìn)行并發(fā)發(fā)送璃饱,提高發(fā)送效率与斤,降低發(fā)送時(shí)間。
分片上傳主要適用于以下幾種場景:
網(wǎng)絡(luò)環(huán)境不好:當(dāng)出現(xiàn)上傳失敗的時(shí)候荚恶,可以對失敗的 Part 進(jìn)行獨(dú)立的重試撩穿,而不需要重新上傳其他的 Part。
斷點(diǎn)續(xù)傳:中途暫停之后谒撼,可以從上次上傳完成的 Part 的位置繼續(xù)上傳食寡。
加速上傳:要上傳到 OSS 的本地文件很大的時(shí)候,可以并行上傳多個(gè) Part 以加快上傳廓潜。
流式上傳:可以在需要上傳的文件大小還不確定的情況下開始上傳抵皱。這種場景在視頻監(jiān)控等行業(yè)應(yīng)用中比較常見。
文件較大:一般文件比較大時(shí)辩蛋,默認(rèn)情況下一般都會(huì)采用分片上傳呻畸。
分片上傳的整個(gè)流程大致如下:
將需要上傳的文件按照一定的分割規(guī)則,分割成相同大小的數(shù)據(jù)塊悼院;
初始化一個(gè)分片上傳任務(wù)伤为,返回本次分片上傳唯一標(biāo)識(shí);
按照一定的策略(串行或并行)發(fā)送各個(gè)分片數(shù)據(jù)塊据途;
發(fā)送完成后绞愚,服務(wù)端根據(jù)判斷數(shù)據(jù)上傳是否完整叙甸,如果完整,則進(jìn)行數(shù)據(jù)塊合成得到原始文件
? 定義分片規(guī)則大小
默認(rèn)情況都以文件達(dá)到 20MB 進(jìn)行強(qiáng)制分片
/**
復(fù)制代碼
為了方便調(diào)試爽醋,強(qiáng)制分片文件的閾值調(diào)整為 1KB
? 定義分片上傳對象
如上圖紅色序號(hào)的文件碎片蚁署,定義分片上傳對象基礎(chǔ)屬性包含附件文件名、原始文件大小蚂四、原始文件 MD5 值光戈、分片總數(shù)、每個(gè)分片大小遂赠、當(dāng)前分片大小逾苫、當(dāng)前分片序號(hào)等
定義基礎(chǔ)屬于便于后續(xù)對文件合理分割愕把、分片的合并等業(yè)務(wù)拓展,當(dāng)然根據(jù)業(yè)務(wù)場景可以定義拓展屬性。
分片總數(shù)
long totalSlices = fileSize % forceSliceSize == 0 ?
復(fù)制代碼
每個(gè)分片大小
long eachSize = fileSize % totalSlices == 0 ?
復(fù)制代碼
原始文件的 MD5 值
MD5Util.hex(file)
復(fù)制代碼
如:
當(dāng)前附件大小為:3382KB朱庆,強(qiáng)制分片大小限制為 1024KB
通過上述計(jì)算:分片數(shù)量為 4 個(gè),每個(gè)分片大小為 846KB
? 讀取每個(gè)分片的數(shù)據(jù)字節(jié)
標(biāo)記當(dāng)前字節(jié)下標(biāo)吹散,循環(huán)讀取 4 個(gè)分片的數(shù)據(jù)字節(jié)
try (InputStream inputStream = new FileInputStream(uploadVO.getFile())) {
復(fù)制代碼
三滚澜、總結(jié)
所謂的分片上傳,就是將所要上傳的文件蜕乡,按照一定的大小奸绷,將整個(gè)文件分隔成多個(gè)數(shù)據(jù)塊(我們稱之為 Part)來進(jìn)行分別上傳。
處理大文件進(jìn)行分片主要核心確定三大點(diǎn)
文件分片粒度大小
分片如何讀取
分片如何存儲(chǔ)
本篇文章主要分析和處理大文件上傳過程中如何針對大文件文件文件內(nèi)容比較层玲、進(jìn)行分片處理号醉。合理設(shè)置分片閾值以及如何讀取和標(biāo)記分片。希望對從事相關(guān)工作的同學(xué)能夠有所幫助或者啟發(fā)辛块。后續(xù)會(huì)對分片如何存儲(chǔ)畔派、標(biāo)記、合并文件進(jìn)行詳細(xì)解讀润绵。