MapReduce對大數(shù)據(jù)進行排序的實踐

從一個小的例子開始:


詳細的MapReduce的工作模式我這里不細講了,可以參考我前面的一篇博客:(http://www.reibang.com/p/ed8141511b8b)這里提下shuffle和sort.
Map和reduce之間的shuffle(洗牌)是將key值相同的放在一塊,sort(排序)是按照key值進行排序.例如like出現(xiàn)了兩次,就會把like放在一起.you也是.然后根據(jù)key值進行按照字典的順序進行排序.下面我想將下面的數(shù)據(jù)按照時間進行排序,并且ID相同的在一塊.具體的數(shù)據(jù)格式:(數(shù)據(jù)簡化成如下,其實還包含其他的一些數(shù)據(jù))

6395        1473840570  
6393        1473840390  
6393        1473840150
6393        1473840450
6395        1473840030  
6395        1473840991  
6394        1473839970  
6394        1473840811  
6394        1473840090
......................

第一列是ID號,第二列是Linux時間戳.想輸出的結(jié)果是:ID號相同的放在一塊,對應(yīng)的Linux時間戳從小到大進行排序.在編寫代碼之前可以想到,底層的MapReduce已經(jīng)幫我們做了一些工作:對key值相同進行聚集(shuffle洗牌).這里是看主要是reduce部分,map部分工作已經(jīng)簡化了.
剛開始的時候,我是這么想的:
map(k0,v0)-->list(k1,v1)
key: k1 是ID號, Value: v1 是時間戳
reduce(k1,list(v1)) -->list(k2,v2)
在reduce中對list(v1),也就是時間戳列表,先添加到list中,然后用Collections的sort方法對list進行排序,最后將結(jié)果進行輸出.程序如下:

public class SortReducer extends Reducer<Text,LongWritable,Text,LongWritable>{
     @Override
     protected void reduce(Text key, Iterable<LongWritable> values,
              Context context) throws IOException, InterruptedException {
         // TODO Auto-generated method stub
         List<LongWritable> queue = new ArrayList<LongWritable>();
         for(LongWritable num: values) {
              queue.add(num);
         }
         Collections.sort(queue);//排序
//將排序結(jié)果輸出
         for(LongWritable num:queue) {
              context.write(key, num);
         }
     }
}

貌似邏輯沒有一點問題,可是結(jié)果卻是:



所有的時間都是一樣的.這是為什么呢?于是網(wǎng)上百度一番,終于找到原因了:

reduce方法會反復(fù)執(zhí)行多次嚼松,但key和value相關(guān)的對象只有兩個,reduce會反復(fù)重用這兩個對象屿愚。所以如果要保存key或者value的結(jié)果对妄,只能將其中的值取出另存或者重新clone一個對象(例如Text store = new Text(value) 或者 String a = value.toString())画切,而不能直接賦引用东涡。因為引用從始至終都是指向同一個對象隆嗅,你如果直接保存它們错忱,那最后它們都指向最后一個輸入記錄儡率。會影響最終計算結(jié)果而出錯。

解決方案:
String str = num.toString();
LongWritable num1 = new LongWritable(Long.parseLong(str));

參考資料:http://zhangqibuptse.iteye.com/blog/2071143
修改后的源代碼如下:

public class SortReducer extends Reducer<Text,LongWritable,Text,LongWritable>{
     @Override
     protected void reduce(Text key, Iterable<LongWritable> values,
              Context context) throws IOException, InterruptedException {
         // TODO Auto-generated method stub
         List<LongWritable> queue = new ArrayList<LongWritable>();
         
         for(LongWritable num: values) { 
              String str = num.toString();
              LongWritable num1 = new LongWritable(Long.parseLong(str));
              queue.add(num1);
         }
         Collections.sort(queue);
         for(LongWritable num:queue) {
              String str = num.toString();
              LongWritable num1 = new LongWritable(Long.parseLong(str));
              context.write(key, num1);
         }
     }
}

最終結(jié)果:


后文

這是我在大數(shù)據(jù)學(xué)習(xí)的個人總結(jié),如果有錯誤的地方或者還有改進的地方希望大家不吝賜教.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末以清,一起剝皮案震驚了整個濱河市儿普,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌掷倔,老刑警劉巖眉孩,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異勒葱,居然都是意外死亡勺像,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進店門错森,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吟宦,“玉大人,你說我怎么就攤上這事涩维⊙晷眨” “怎么了袁波?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蜗侈。 經(jīng)常有香客問我篷牌,道長,這世上最難降的妖魔是什么踏幻? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任枷颊,我火速辦了婚禮,結(jié)果婚禮上该面,老公的妹妹穿的比我還像新娘夭苗。我一直安慰自己,他們只是感情好隔缀,可當(dāng)我...
    茶點故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布题造。 她就那樣靜靜地躺著,像睡著了一般猾瘸。 火紅的嫁衣襯著肌膚如雪界赔。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天牵触,我揣著相機與錄音淮悼,去河邊找鬼。 笑死揽思,一個胖子當(dāng)著我的面吹牛敛惊,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播绰更,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼瞧挤,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了儡湾?” 一聲冷哼從身側(cè)響起特恬,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎徐钠,沒想到半個月后癌刽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡尝丐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年显拜,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片爹袁。...
    茶點故事閱讀 38,814評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡远荠,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出失息,到底是詐尸還是另有隱情譬淳,我是刑警寧澤档址,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布,位于F島的核電站邻梆,受9級特大地震影響守伸,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜浦妄,卻給世界環(huán)境...
    茶點故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一尼摹、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧剂娄,春花似錦蠢涝、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽把鉴。三九已至故黑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間庭砍,已是汗流浹背场晶。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留怠缸,地道東北人诗轻。 一個月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像揭北,于是被迫代替她去往敵國和親扳炬。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,728評論 2 351

推薦閱讀更多精彩內(nèi)容