概述
本文是Spring Cloud Task系列的第五篇文章垒酬,如果你尚未使用過(guò)Spring Cloud Task愈诚,請(qǐng) 移步spring cloud task1 簡(jiǎn)介與示例瘟仿。
本文主要講述的是Spring的另一個(gè)核心子項(xiàng)目 Spring Batch中的數(shù)據(jù)分片的設(shè)計(jì)箩艺,數(shù)據(jù)分片是分而治之的編程思想提現(xiàn)。分片的意義是利用多核cpu并行處理的優(yōu)勢(shì)拌汇,將數(shù)據(jù)量大且執(zhí)行時(shí)間長(zhǎng)的任務(wù),依照一定規(guī)則弊决,拆分成多個(gè)平等的可同時(shí)執(zhí)行的任務(wù)噪舀。通過(guò)分而治之的思想,來(lái)減少批處理程序的整體運(yùn)行時(shí)間飘诗,加快應(yīng)用的執(zhí)行效率与倡。
詳情
數(shù)據(jù)分片具體的表現(xiàn)是將數(shù)據(jù)處理應(yīng)用部署多個(gè)版本并行運(yùn)行。其目標(biāo)是通過(guò)并行運(yùn)行昆稿,減少需要極長(zhǎng)時(shí)間才能完成的批處理任務(wù)的整體執(zhí)行時(shí)間纺座。數(shù)據(jù)分片能夠顯著減少批處理任務(wù)執(zhí)行時(shí)間,但也并非銀彈溉潭。只有在業(yè)務(wù)所用到的資源文件支持拆分净响,或業(yè)務(wù)表支持同時(shí)操作完全不同的數(shù)據(jù)集時(shí),才可以考慮使用數(shù)據(jù)分片喳瓣。
設(shè)計(jì)分片任務(wù)時(shí)應(yīng)該注意馋贤,首先我們應(yīng)該準(zhǔn)守單一智能原則,一個(gè)分片任務(wù)應(yīng)該只處理被分配分配給它的數(shù)據(jù)集畏陕。其次分片任務(wù)應(yīng)用的架構(gòu)最好跟數(shù)據(jù)庫(kù)的分區(qū)設(shè)計(jì)保持一致(這里指的數(shù)據(jù)庫(kù)分區(qū)不只是物理數(shù)據(jù)庫(kù)分區(qū)掸掸,邏輯的垂直分表也應(yīng)該被看做分區(qū))。圖1展示了典型分片處理應(yīng)用的邏輯架構(gòu)蹭秋。
通過(guò)分析這個(gè)架構(gòu)圖扰付,一個(gè)可分片的批處理應(yīng)用應(yīng)滿足可以使用戶自定義配置且可以動(dòng)態(tài)的決定啟用多少個(gè)分片任務(wù)。如何去讓?xiě)?yīng)用自動(dòng)配置呢仁讨?舉個(gè)例子羽莺,我們可以取輸入文件的文件大小或者是數(shù)據(jù)紀(jì)錄條數(shù)作為參數(shù)來(lái)動(dòng)態(tài)控制分片任務(wù)的數(shù)量。
分片方法
分片應(yīng)用的分片方法取決于其面對(duì)的業(yè)務(wù)場(chǎng)景洞豁,下面介紹幾個(gè)常用的分片方法
1. 固定分片法
將數(shù)據(jù)集平均分配給固定數(shù)量的分片任務(wù)中(例如一共有10個(gè)分片任務(wù)盐固,每個(gè)分配任務(wù)將得到1/10的數(shù)據(jù)集),每個(gè)分片任務(wù)都是批處理任務(wù)的一個(gè)部署實(shí)例丈挟。
使用這種分片方式需要設(shè)計(jì)一個(gè)預(yù)處理程序來(lái)切分總數(shù)據(jù)集刁卜。預(yù)處理程序可以計(jì)算出每個(gè)分片任務(wù)要處理的數(shù)據(jù)的上下邊界,并作為輸入?yún)?shù)傳遞給分片任務(wù)曙咽,這樣分片任務(wù)就能做到處理自己的數(shù)據(jù)蛔趴。
不過(guò)預(yù)處理任務(wù)需要計(jì)算和確定每個(gè)批處理任務(wù)需要處理的數(shù)據(jù)集的邊界,所以其本身可能會(huì)有很大的性能開(kāi)銷(xiāo)例朱。
2. 關(guān)鍵列分片法
關(guān)鍵列區(qū)分發(fā)是通過(guò)某個(gè)特殊的列的值來(lái)分割數(shù)據(jù)集孝情,這種分配方式會(huì)為每一個(gè)域值分配一個(gè)批處理應(yīng)用實(shí)例(例如通過(guò)地區(qū)編號(hào)區(qū)分)鱼蝉。一般情況以下兩種方案進(jìn)行關(guān)鍵列區(qū)分:
- 通過(guò)表分區(qū)來(lái)為批處理實(shí)例分配輸入數(shù)據(jù)集
- 通過(guò)區(qū)間數(shù)據(jù)集來(lái)為批處理實(shí)例分配數(shù)據(jù)集(如0000-0999,1000-1999等)
關(guān)于方法一箫荡,該列一般是枚舉值魁亦。注意在添加新枚舉選項(xiàng)時(shí),需要重新配置批處理程序需要處理的關(guān)鍵字羔挡。
關(guān)于方法二洁奈,字段區(qū)間的特性使方法二能夠覆蓋到所有的字段可能值,但正因一個(gè)批處理實(shí)例所分配到的數(shù)據(jù)是完全分散于該列的各個(gè)區(qū)間值上的绞灼,這有可能造成在0000-0999區(qū)間上有大量數(shù)據(jù)睬魂,而1000-1999上僅分布極小的數(shù)據(jù)集。所以在采用方法二時(shí)镀赌,應(yīng)當(dāng)先考慮清楚數(shù)據(jù)的分布區(qū)間問(wèn)題氯哮。
上面兩種方法中批處理應(yīng)用實(shí)例的數(shù)量無(wú)法根據(jù)數(shù)據(jù)分布的特性進(jìn)行動(dòng)態(tài)調(diào)整,我們還需要根據(jù)實(shí)際業(yè)務(wù)需求尋找最佳方案商佛。
3. 視圖分片法
視圖分片法是完全基于數(shù)據(jù)庫(kù)的喉钢,借助關(guān)系型數(shù)據(jù)庫(kù)的視圖的概念,為每個(gè)批處理應(yīng)用實(shí)例分配一個(gè)專(zhuān)有的視圖良姆。原理就是利用數(shù)據(jù)庫(kù)的分組group語(yǔ)句肠虽,來(lái)為批處理應(yīng)用隔離數(shù)據(jù)。
這個(gè)方法需要批處理應(yīng)用實(shí)例自行配置自己所需處理的視圖(而不是直接使用主表)玛追,并且在新增group的值時(shí)税课,還需要配置新的視圖。這種方法完全沒(méi)有動(dòng)態(tài)擴(kuò)展能力痊剖,每新增一個(gè)視圖的同時(shí)就需要新配置一個(gè)批處理應(yīng)用實(shí)例韩玩。
4. 標(biāo)識(shí)分片法
標(biāo)識(shí)分片法是在數(shù)據(jù)庫(kù)表中新增一個(gè)數(shù)據(jù)處理標(biāo)識(shí)的列來(lái)作為指示器。預(yù)處理數(shù)據(jù)階段陆馁,所有指示器的值都是待處理狀態(tài)找颓。數(shù)據(jù)讀取階段,只讀取指示器為未處理的數(shù)據(jù)行叮贩。一旦讀取到數(shù)據(jù)后击狮,立刻將數(shù)據(jù)鎖定。當(dāng)數(shù)據(jù)處理完成后益老,指示器被標(biāo)記為完成或錯(cuò)誤狀態(tài)彪蓬。
標(biāo)識(shí)分片法的指示器也可以防止批處理應(yīng)用多次執(zhí)行時(shí)會(huì)重復(fù)處理數(shù)據(jù)。不過(guò)標(biāo)記分片法I/O占用很多捺萌,所以它更適合用在以寫(xiě)操作為主的應(yīng)用上档冬,這樣對(duì)性能的影響才能降到最低。
5. 臨時(shí)文件法
將表中的數(shù)據(jù)導(dǎo)出到文件,文件可以采用多種標(biāo)記進(jìn)行分割并作為批處理應(yīng)用實(shí)例的輸入數(shù)據(jù)捣郊。
將表提取到文件并分割數(shù)據(jù)在一定程度上能夠降低任務(wù)分片的復(fù)雜度,如此只需要修改文件分割腳本便可以實(shí)現(xiàn)分片的動(dòng)態(tài)配置慈参。
6. 哈希法
哈希法指的是通過(guò)數(shù)據(jù)庫(kù)表中的哈希列來(lái)檢索數(shù)據(jù)呛牲,哈希列作為一個(gè)指示器,來(lái)計(jì)算每個(gè)數(shù)據(jù)行應(yīng)該被哪一個(gè)批處理應(yīng)用實(shí)例來(lái)處理驮配。
這種方法在檢索數(shù)據(jù)時(shí)使用 WHERE
子句來(lái)選取帶有特定指示器的所有行娘扩,且每次插入數(shù)據(jù)時(shí),都應(yīng)該為標(biāo)識(shí)器設(shè)置一個(gè)值來(lái)決定日后分配給哪一個(gè)批處理實(shí)例來(lái)處理壮锻。
隨著業(yè)務(wù)的增長(zhǎng)琐旁,批處理數(shù)據(jù)源的增多,為提高整體效率猜绣,往往需要在多個(gè)批處理實(shí)例間重新分配要處理的數(shù)據(jù)灰殴。哈希法關(guān)注的是哈希列的值與應(yīng)用實(shí)例數(shù)量的求余,在實(shí)現(xiàn)上它需要一個(gè)額外的應(yīng)用來(lái)進(jìn)行批處理用于實(shí)例的注冊(cè)和待處理哈希分配掰邢。
關(guān)于
示例源碼
Spring Cloud Task learning 的 task-demo-with-datasource 子項(xiàng)目
后記
Spring Cloud Task是一個(gè)優(yōu)秀的項(xiàng)目牺陶,但是我找遍網(wǎng)絡(luò),也難以找出系統(tǒng)的辣之、準(zhǔn)確的中文相關(guān)文檔掰伸。本系列文章以保證對(duì)Spring Cloud Task相關(guān)概念和設(shè)計(jì)理解的正確性為標(biāo)準(zhǔn),盡量采用通俗易懂的語(yǔ)言怀估,希望能給各位帶來(lái)一些便捷狮鸭。
本文內(nèi)容主要是對(duì) Spring Cloud Task 1.2.2-RELEASE 官方文檔的翻譯,不過(guò)作者水平有限多搀,有不盡然的地方敬請(qǐng)指出歧蕉。本項(xiàng)目和文檔中所用的內(nèi)容僅供學(xué)習(xí)和研究之用,轉(zhuǎn)載或引用時(shí)請(qǐng)指明出處康铭。如果你對(duì)文檔有疑問(wèn)或問(wèn)題廊谓,請(qǐng)?jiān)陧?xiàng)目中給我留言或發(fā)email到
weiwei02@vip.qq.com 我的github:
https://github.com/weiwei02/ 我相信技術(shù)能夠改變世界 。