關(guān)于現(xiàn)有分布式計(jì)算框架的一種補(bǔ)充

背景：

???????? 前些天筆者面臨這樣一個(gè)問(wèn)題猾编，在hdfs上有一個(gè)目錄存放著一些文件夷恍，定期要通過(guò)mr的api將這些文件轉(zhuǎn)換為HBase的HFile蚓峦。但是文件中可能會(huì)存在一些可以檢測(cè)出來(lái)的臟數(shù)據(jù)卵迂，現(xiàn)在希望能夠在生成HFile的同時(shí)察蹲，統(tǒng)計(jì)每次任務(wù)臟數(shù)據(jù)的比例铭若，超過(guò)一定閾值的時(shí)候就發(fā)告警。

現(xiàn)有框架的處理方法與問(wèn)題：

MR：

???????? 將生成HFile與統(tǒng)計(jì)臟數(shù)據(jù)視為兩個(gè)MR任務(wù)递览，分別計(jì)算叼屠，兩次提交。

Spark：

???????? 按照如下RDD血緣圖绞铃，cache RDD1镜雨，并進(jìn)行兩次計(jì)算分別得到RDD2與RDD3，然后在將兩個(gè)衍生出來(lái)的子RDD持久化到HDFS之類的存儲(chǔ)系統(tǒng)上儿捧。

使用Spark計(jì)算

通過(guò)MR處理荚坞，HDFS上的文件將被讀取兩次，雖然在Spark的計(jì)算模型中菲盾，可以通過(guò)cache方法颓影，將數(shù)據(jù)盡可能的放在內(nèi)存中，但是在轉(zhuǎn)化為RDD2與RDD3的過(guò)程中仍然會(huì)有兩次內(nèi)存IO（當(dāng)然很有可能因?yàn)閮?nèi)存存不下懒鉴，成為了磁盤(pán)IO）诡挂。哪種IO相對(duì)于CPU而言都慢了不止一個(gè)級(jí)別，因此能不能有一種方法像下面的圖這樣临谱，將兩種運(yùn)算在上游放在一起（在一個(gè)map中同時(shí)統(tǒng)計(jì)臟數(shù)據(jù)與生成HBase的Cell）璃俗，將不同的結(jié)果發(fā)送給不同的下游呢？

將Cell與rowcounter發(fā)給不同的reducer

這樣一來(lái)悉默，兩次不同的下游計(jì)算（往往是Reduce或者子RDD）城豁，可以綁定同一個(gè)上游計(jì)算（往往是Map或者父RDD），而上游計(jì)算又只會(huì)有一次IO抄课。但是現(xiàn)有的計(jì)算框架唱星，好像都不支持一個(gè)上游運(yùn)算與多個(gè)下游運(yùn)算綁定雳旅。

自己想到的解決辦法：

下面以MR運(yùn)算框架為例，談?wù)勛约旱慕鉀Q辦法〖淞模現(xiàn)在的MR框架中岭辣，input dir、output dir與shuffle context是與一個(gè)job綁定的甸饱；我們可以將input dir與map綁定沦童，output dir 和shuffle context與reduce綁定.

???????? 將現(xiàn)有map端的api修改為如下形式：

修改前（對(duì)應(yīng)現(xiàn)在的Mapper類）:

void map(KEYIN key, VALUEIN value, Context context);

void run(Context context);

void cleanup(Context context);

void setup(Context context)

修改后（不妨叫這個(gè)類為NewMapper）:

void map(KEYIN key, VALUEIN value, List reduceContexts);

void run(Context context);

void cleanup(Context context);

void setup(Context context)

像筆者提到的問(wèn)題可以用如下偽代碼解決

public class CombinedMapper extendsNewMapper {

???????? privateint dirtyrows = 0;

???????? privateint totalrows = 0;

???????? privateList reduceContexts = null;

???????? void map(KEYIN key, VALUEIN value, List reduceContexts ) {

?????????????????? totalrows++;

?????????????????? if(dirtyrow(key)) {

??????????????????????????? dirtyrows++;

? ? ? ? ? ? ? ? ? ? ? ? ? ? //臟數(shù)據(jù)就直接過(guò)濾了

??????????????????????????? return;

????????????????????}

?????????????????? contextForHFile.write(*******);

????????}

? ? ? ? ?void setup(Context context) {

?????????????????? reduceContexts= context.getReduceContexts();

?????????????????? contextForHFile? = reduceContexts.getContextForHFile();

?????????????????? contextForCounter= reduceContexts.getContextForCounter();

? ? ? ? ?}

? ? ? ? ?void run(Context context) {

??? ???????? setup(context);

??? ???????? while (context.nextKeyValue()) {

?????????????????? map(context.getCurrentKey(),context.getCurrentValue(), reduceContexts);

??? ???????? }

? ? ? ? ? ? ?contextForCounter.write(****);

??? ???????? cleanup(context);

? ???? }

}

Reducer端的代碼無(wú)需任何改動(dòng)，只是在初始化job的時(shí)候可能需要按照如下方法初始化job

job.addReducer(ReducerClass1.class).addReducer(ReducerClass2.class)叹话；

OutputFormat.setOutputdir(Reducer1.class,outputdir1);

OutputFormat.setOutputdir(Reducer2.class,outputdir2);

表示上游計(jì)算綁定多個(gè)下游計(jì)算偷遗。這樣一來(lái)，可以在一次IO中完成兩種不同的運(yùn)算驼壶。

缺點(diǎn)：

???????? 筆者設(shè)計(jì)的對(duì)現(xiàn)有計(jì)算框架的補(bǔ)充氏豌，雖然可以減少IO，比如現(xiàn)在的場(chǎng)景是要對(duì)一個(gè)很大的數(shù)據(jù)集用兩種完全不同的方法做分析热凹，肯定是大有裨益的泵喘。但是缺點(diǎn)也是很明顯的，那就是耦合度變大般妙，上游的一個(gè)子模塊失敗可能影響整體計(jì)算纪铺，比如上面生成HFile的任務(wù)如果導(dǎo)致Map程序不能跑通就會(huì)導(dǎo)致統(tǒng)計(jì)臟數(shù)據(jù)的任務(wù)也失敗。

可是耦合這種東西可能真的是“過(guò)猶不及”吧碟渺，一個(gè)零耦合的東西既沒(méi)有存在的必要也沒(méi)有存在的可能鲜锚。而且筆者的意思并不是修改現(xiàn)有的計(jì)算框架api，而是增加一種api來(lái)支持想減少IO的場(chǎng)景苫拍，以前的代碼是完全不用修改的芜繁。

后續(xù)：

???????? 從MR的觀點(diǎn)來(lái)看，筆者做的補(bǔ)充可以說(shuō)是讓一個(gè)任務(wù)支持多種Reduce绒极，但是其實(shí)MR計(jì)算框架對(duì)多種Map的支持也不是很好骏令，比如我現(xiàn)在想同時(shí)處理TXT文件與parquet文件再生成HFile。但是spark可以通過(guò)像下圖的做法垄提，對(duì)不同的RDD做不同的transformation然后再將新的RDD做union來(lái)支持“一個(gè)任務(wù)榔袋，多種Map”。也許將來(lái)也可以通過(guò)類似的辦法讓一個(gè)MR任務(wù)支持多個(gè)Map輸入吧塔淤。

一個(gè)任務(wù)摘昌，多種Map

最后編輯于：2019.02.20 00:31:27

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市高蜂，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌罕容，老刑警劉巖备恤，帶你破解...
沈念sama閱讀 217,907評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件稿饰，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡露泊，警方通過(guò)查閱死者的電腦和手機(jī)喉镰，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)惭笑，“玉大人侣姆，你說(shuō)我怎么就攤上這事〕霖” “怎么了捺宗？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,298評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)川蒙。經(jīng)常有香客問(wèn)我蚜厉，道長(zhǎng)，這世上最難降的妖魔是什么畜眨？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,586評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任昼牛，我火速辦了婚禮，結(jié)果婚禮上康聂，老公的妹妹穿的比我還像新娘贰健。我一直安慰自己，他們只是感情好恬汁，可當(dāng)我...
茶點(diǎn)故事閱讀 67,633評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布霎烙。她就那樣靜靜地躺著，像睡著了一般蕊连。火紅的嫁衣襯著肌膚如雪悬垃。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,488評(píng)論 1贊 302
城市分裂傳說(shuō)
那天甘苍，我揣著相機(jī)與錄音尝蠕，去河邊找鬼。笑死载庭，一個(gè)胖子當(dāng)著我的面吹牛看彼，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播囚聚，決...
沈念sama閱讀 40,275評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼靖榕，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了顽铸？” 一聲冷哼從身側(cè)響起茁计，我...
開(kāi)封第一講書(shū)人閱讀 39,176評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎谓松，沒(méi)想到半個(gè)月后星压，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體践剂，經(jīng)...
沈念sama閱讀 45,619評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,819評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年娜膘，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了逊脯。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,932評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡竣贪，死狀恐怖军洼，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情演怎，我是刑警寧澤匕争，帶...
沈念sama閱讀 35,655評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站颤枪，受9級(jí)特大地震影響汗捡，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜畏纲，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,265評(píng)論 3贊 329
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一扇住、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧盗胀，春花似錦艘蹋、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,871評(píng)論 0贊 22
一樁弒父案女阀，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至屑迂，卻和暖如春浸策，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背惹盼。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,994評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工庸汗，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人手报。一個(gè)月前我還...
沈念sama閱讀 48,095評(píng)論 3贊 370
代替公主和親
正文我出身青樓蚯舱，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親掩蛤。傳聞我的和親對(duì)象是個(gè)殘疾皇子枉昏，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,884評(píng)論 2贊 354

關(guān)于現(xiàn)有分布式計(jì)算框架的一種補(bǔ)充

背景：

現(xiàn)有框架的處理方法與問(wèn)題：

自己想到的解決辦法：

缺點(diǎn)：

后續(xù)：

推薦閱讀更多精彩內(nèi)容