[Spring Cloud Task]5 Spring Batch數(shù)據(jù)分片探究

概述

本文是Spring Cloud Task系列的第五篇文章垒酬,如果你尚未使用過(guò)Spring Cloud Task愈诚,請(qǐng) 移步spring cloud task1 簡(jiǎn)介與示例瘟仿。
本文主要講述的是Spring的另一個(gè)核心子項(xiàng)目 Spring Batch中的數(shù)據(jù)分片的設(shè)計(jì)箩艺,數(shù)據(jù)分片是分而治之的編程思想提現(xiàn)。分片的意義是利用多核cpu并行處理的優(yōu)勢(shì)拌汇,將數(shù)據(jù)量大且執(zhí)行時(shí)間長(zhǎng)的任務(wù),依照一定規(guī)則弊决,拆分成多個(gè)平等的可同時(shí)執(zhí)行的任務(wù)噪舀。通過(guò)分而治之的思想,來(lái)減少批處理程序的整體運(yùn)行時(shí)間飘诗,加快應(yīng)用的執(zhí)行效率与倡。

詳情

數(shù)據(jù)分片具體的表現(xiàn)是將數(shù)據(jù)處理應(yīng)用部署多個(gè)版本并行運(yùn)行。其目標(biāo)是通過(guò)并行運(yùn)行昆稿,減少需要極長(zhǎng)時(shí)間才能完成的批處理任務(wù)的整體執(zhí)行時(shí)間纺座。數(shù)據(jù)分片能夠顯著減少批處理任務(wù)執(zhí)行時(shí)間,但也并非銀彈溉潭。只有在業(yè)務(wù)所用到的資源文件支持拆分净响,或業(yè)務(wù)表支持同時(shí)操作完全不同的數(shù)據(jù)集時(shí),才可以考慮使用數(shù)據(jù)分片喳瓣。

設(shè)計(jì)分片任務(wù)時(shí)應(yīng)該注意馋贤,首先我們應(yīng)該準(zhǔn)守單一智能原則,一個(gè)分片任務(wù)應(yīng)該只處理被分配分配給它的數(shù)據(jù)集畏陕。其次分片任務(wù)應(yīng)用的架構(gòu)最好跟數(shù)據(jù)庫(kù)的分區(qū)設(shè)計(jì)保持一致(這里指的數(shù)據(jù)庫(kù)分區(qū)不只是物理數(shù)據(jù)庫(kù)分區(qū)掸掸,邏輯的垂直分表也應(yīng)該被看做分區(qū))。圖1展示了典型分片處理應(yīng)用的邏輯架構(gòu)蹭秋。

分片處理應(yīng)用的邏輯架構(gòu)

通過(guò)分析這個(gè)架構(gòu)圖扰付,一個(gè)可分片的批處理應(yīng)用應(yīng)滿足可以使用戶自定義配置且可以動(dòng)態(tài)的決定啟用多少個(gè)分片任務(wù)。如何去讓?xiě)?yīng)用自動(dòng)配置呢仁讨?舉個(gè)例子羽莺,我們可以取輸入文件的文件大小或者是數(shù)據(jù)紀(jì)錄條數(shù)作為參數(shù)來(lái)動(dòng)態(tài)控制分片任務(wù)的數(shù)量。

分片方法

分片應(yīng)用的分片方法取決于其面對(duì)的業(yè)務(wù)場(chǎng)景洞豁,下面介紹幾個(gè)常用的分片方法

1. 固定分片法

將數(shù)據(jù)集平均分配給固定數(shù)量的分片任務(wù)中(例如一共有10個(gè)分片任務(wù)盐固,每個(gè)分配任務(wù)將得到1/10的數(shù)據(jù)集),每個(gè)分片任務(wù)都是批處理任務(wù)的一個(gè)部署實(shí)例丈挟。

使用這種分片方式需要設(shè)計(jì)一個(gè)預(yù)處理程序來(lái)切分總數(shù)據(jù)集刁卜。預(yù)處理程序可以計(jì)算出每個(gè)分片任務(wù)要處理的數(shù)據(jù)的上下邊界,并作為輸入?yún)?shù)傳遞給分片任務(wù)曙咽,這樣分片任務(wù)就能做到處理自己的數(shù)據(jù)蛔趴。

不過(guò)預(yù)處理任務(wù)需要計(jì)算和確定每個(gè)批處理任務(wù)需要處理的數(shù)據(jù)集的邊界,所以其本身可能會(huì)有很大的性能開(kāi)銷(xiāo)例朱。

2. 關(guān)鍵列分片法

關(guān)鍵列區(qū)分發(fā)是通過(guò)某個(gè)特殊的列的值來(lái)分割數(shù)據(jù)集孝情,這種分配方式會(huì)為每一個(gè)域值分配一個(gè)批處理應(yīng)用實(shí)例(例如通過(guò)地區(qū)編號(hào)區(qū)分)鱼蝉。一般情況以下兩種方案進(jìn)行關(guān)鍵列區(qū)分:

  • 通過(guò)表分區(qū)來(lái)為批處理實(shí)例分配輸入數(shù)據(jù)集
  • 通過(guò)區(qū)間數(shù)據(jù)集來(lái)為批處理實(shí)例分配數(shù)據(jù)集(如0000-0999,1000-1999等)

關(guān)于方法一箫荡,該列一般是枚舉值魁亦。注意在添加新枚舉選項(xiàng)時(shí),需要重新配置批處理程序需要處理的關(guān)鍵字羔挡。

關(guān)于方法二洁奈,字段區(qū)間的特性使方法二能夠覆蓋到所有的字段可能值,但正因一個(gè)批處理實(shí)例所分配到的數(shù)據(jù)是完全分散于該列的各個(gè)區(qū)間值上的绞灼,這有可能造成在0000-0999區(qū)間上有大量數(shù)據(jù)睬魂,而1000-1999上僅分布極小的數(shù)據(jù)集。所以在采用方法二時(shí)镀赌,應(yīng)當(dāng)先考慮清楚數(shù)據(jù)的分布區(qū)間問(wèn)題氯哮。

上面兩種方法中批處理應(yīng)用實(shí)例的數(shù)量無(wú)法根據(jù)數(shù)據(jù)分布的特性進(jìn)行動(dòng)態(tài)調(diào)整,我們還需要根據(jù)實(shí)際業(yè)務(wù)需求尋找最佳方案商佛。

3. 視圖分片法

視圖分片法是完全基于數(shù)據(jù)庫(kù)的喉钢,借助關(guān)系型數(shù)據(jù)庫(kù)的視圖的概念,為每個(gè)批處理應(yīng)用實(shí)例分配一個(gè)專(zhuān)有的視圖良姆。原理就是利用數(shù)據(jù)庫(kù)的分組group語(yǔ)句肠虽,來(lái)為批處理應(yīng)用隔離數(shù)據(jù)。

這個(gè)方法需要批處理應(yīng)用實(shí)例自行配置自己所需處理的視圖(而不是直接使用主表)玛追,并且在新增group的值時(shí)税课,還需要配置新的視圖。這種方法完全沒(méi)有動(dòng)態(tài)擴(kuò)展能力痊剖,每新增一個(gè)視圖的同時(shí)就需要新配置一個(gè)批處理應(yīng)用實(shí)例韩玩。

4. 標(biāo)識(shí)分片法

標(biāo)識(shí)分片法是在數(shù)據(jù)庫(kù)表中新增一個(gè)數(shù)據(jù)處理標(biāo)識(shí)的列來(lái)作為指示器。預(yù)處理數(shù)據(jù)階段陆馁,所有指示器的值都是待處理狀態(tài)找颓。數(shù)據(jù)讀取階段,只讀取指示器為未處理的數(shù)據(jù)行叮贩。一旦讀取到數(shù)據(jù)后击狮,立刻將數(shù)據(jù)鎖定。當(dāng)數(shù)據(jù)處理完成后益老,指示器被標(biāo)記為完成或錯(cuò)誤狀態(tài)彪蓬。

標(biāo)識(shí)分片法的指示器也可以防止批處理應(yīng)用多次執(zhí)行時(shí)會(huì)重復(fù)處理數(shù)據(jù)。不過(guò)標(biāo)記分片法I/O占用很多捺萌,所以它更適合用在以寫(xiě)操作為主的應(yīng)用上档冬,這樣對(duì)性能的影響才能降到最低。

5. 臨時(shí)文件法

將表中的數(shù)據(jù)導(dǎo)出到文件,文件可以采用多種標(biāo)記進(jìn)行分割并作為批處理應(yīng)用實(shí)例的輸入數(shù)據(jù)捣郊。

將表提取到文件并分割數(shù)據(jù)在一定程度上能夠降低任務(wù)分片的復(fù)雜度,如此只需要修改文件分割腳本便可以實(shí)現(xiàn)分片的動(dòng)態(tài)配置慈参。

6. 哈希法

哈希法指的是通過(guò)數(shù)據(jù)庫(kù)表中的哈希列來(lái)檢索數(shù)據(jù)呛牲,哈希列作為一個(gè)指示器,來(lái)計(jì)算每個(gè)數(shù)據(jù)行應(yīng)該被哪一個(gè)批處理應(yīng)用實(shí)例來(lái)處理驮配。

這種方法在檢索數(shù)據(jù)時(shí)使用 WHERE 子句來(lái)選取帶有特定指示器的所有行娘扩,且每次插入數(shù)據(jù)時(shí),都應(yīng)該為標(biāo)識(shí)器設(shè)置一個(gè)值來(lái)決定日后分配給哪一個(gè)批處理實(shí)例來(lái)處理壮锻。

隨著業(yè)務(wù)的增長(zhǎng)琐旁,批處理數(shù)據(jù)源的增多,為提高整體效率猜绣,往往需要在多個(gè)批處理實(shí)例間重新分配要處理的數(shù)據(jù)灰殴。哈希法關(guān)注的是哈希列的值與應(yīng)用實(shí)例數(shù)量的求余,在實(shí)現(xiàn)上它需要一個(gè)額外的應(yīng)用來(lái)進(jìn)行批處理用于實(shí)例的注冊(cè)和待處理哈希分配掰邢。

關(guān)于

示例源碼

Spring Cloud Task learning 的 task-demo-with-datasource 子項(xiàng)目

后記

Spring Cloud Task是一個(gè)優(yōu)秀的項(xiàng)目牺陶,但是我找遍網(wǎng)絡(luò),也難以找出系統(tǒng)的辣之、準(zhǔn)確的中文相關(guān)文檔掰伸。本系列文章以保證對(duì)Spring Cloud Task相關(guān)概念和設(shè)計(jì)理解的正確性為標(biāo)準(zhǔn),盡量采用通俗易懂的語(yǔ)言怀估,希望能給各位帶來(lái)一些便捷狮鸭。

本文內(nèi)容主要是對(duì) Spring Cloud Task 1.2.2-RELEASE 官方文檔的翻譯,不過(guò)作者水平有限多搀,有不盡然的地方敬請(qǐng)指出歧蕉。本項(xiàng)目和文檔中所用的內(nèi)容僅供學(xué)習(xí)和研究之用,轉(zhuǎn)載或引用時(shí)請(qǐng)指明出處康铭。如果你對(duì)文檔有疑問(wèn)或問(wèn)題廊谓,請(qǐng)?jiān)陧?xiàng)目中給我留言或發(fā)email到
weiwei02@vip.qq.com 我的github:
https://github.com/weiwei02/ 我相信技術(shù)能夠改變世界 。

鏈接

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末麻削,一起剝皮案震驚了整個(gè)濱河市蒸痹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌呛哟,老刑警劉巖叠荠,帶你破解...
    沈念sama閱讀 222,252評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異扫责,居然都是意外死亡榛鼎,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)者娱,“玉大人抡笼,你說(shuō)我怎么就攤上這事』器ⅲ” “怎么了推姻?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,814評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)框沟。 經(jīng)常有香客問(wèn)我藏古,道長(zhǎng),這世上最難降的妖魔是什么忍燥? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,869評(píng)論 1 299
  • 正文 為了忘掉前任拧晕,我火速辦了婚禮,結(jié)果婚禮上梅垄,老公的妹妹穿的比我還像新娘厂捞。我一直安慰自己,他們只是感情好队丝,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布蔫敲。 她就那樣靜靜地躺著,像睡著了一般炭玫。 火紅的嫁衣襯著肌膚如雪奈嘿。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,475評(píng)論 1 312
  • 那天吞加,我揣著相機(jī)與錄音裙犹,去河邊找鬼。 笑死衔憨,一個(gè)胖子當(dāng)著我的面吹牛叶圃,可吹牛的內(nèi)容都是我干的历恐。 我是一名探鬼主播建钥,決...
    沈念sama閱讀 41,010評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼冠绢!你這毒婦竟也來(lái)了码党?” 一聲冷哼從身側(cè)響起德崭,我...
    開(kāi)封第一講書(shū)人閱讀 39,924評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎揖盘,沒(méi)想到半個(gè)月后眉厨,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,469評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡兽狭,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評(píng)論 3 342
  • 正文 我和宋清朗相戀三年憾股,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了鹿蜀。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,680評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡服球,死狀恐怖茴恰,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情斩熊,我是刑警寧澤往枣,帶...
    沈念sama閱讀 36,362評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站座享,受9級(jí)特大地震影響婉商,放射性物質(zhì)發(fā)生泄漏似忧。R本人自食惡果不足惜渣叛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望盯捌。 院中可真熱鬧淳衙,春花似錦、人聲如沸饺著。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,519評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)幼衰。三九已至靴跛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間渡嚣,已是汗流浹背梢睛。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,621評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留识椰,地道東北人绝葡。 一個(gè)月前我還...
    沈念sama閱讀 49,099評(píng)論 3 378
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像腹鹉,于是被迫代替她去往敵國(guó)和親藏畅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容