mapreduce實現(xiàn)流量匯總排序程序

流量匯總程序開發(fā),利用生成好的匯總過的文件接著來進行按照總流量由高到低排序。

因為maptask的最終生成文件中的數(shù)據(jù)是已經(jīng)排序過的,默認就是按照key 歸并排序,所以在傳給reduce task的時候也就是排序過的褐奴。所以我們可以將輸出bean作為key,電話號碼作為value來輸出于毙。既然需要對bean根據(jù)總流量來進行排序敦冬,那么可以讓FlowBean來實現(xiàn)WritableComparable接口而不是Writable接口,重寫compareTo方法唯沮。

public class FlowBean implements WritableComparable<FlowBean>{

    private long upFlow;//上行流量

    private long downFlow;//下行流量

    private long totalFlow;//總流量

    //按照總流量倒序排
    public int compareTo(FlowBean bean) {
        return bean.totalFlow>this.totalFlow?1:-1;
    }

    //序列化時需要無參構(gòu)造方法
    public FlowBean() {
    }

    public FlowBean(long upFlow, long downFlow) {
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.totalFlow = upFlow + downFlow;
    }
    public void setFlowBean(long upFlow, long downFlow) {
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.totalFlow = upFlow + downFlow;
    }
    //序列化方法 hadoop的序列化很簡單脖旱,要傳遞的數(shù)據(jù)寫出去即可
    public void write(DataOutput out) throws IOException {
        out.writeLong(upFlow);
        out.writeLong(downFlow);
        out.writeLong(totalFlow);
    }
    //反序列化方法 注意:反序列化的順序跟序列化的順序完全一致
    public void readFields(DataInput in) throws IOException {
        this.upFlow = in.readLong();
        this.downFlow = in.readLong();
        this.totalFlow = in.readLong();
    }
    //重寫toString以便展示
    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + totalFlow;
    }
    get,set方法
}
public class FlowCountSort {
    /**
     * KEYIN:默認情況下介蛉,是mr框架所讀到的一行文本的起始偏移量萌庆,Long,但是在hadoop中有自己的
     * 更精簡的序列化接口(Seria會將類結(jié)構(gòu)都序列化币旧,而實際我們只需要序列化數(shù)據(jù))践险,所以不直接用Long,而用LongWritable
     * VALUEIN:默認情況下吹菱,是mr框架所讀到的一行文本的內(nèi)容巍虫,String,同上,用Text
     * KEYOUT:是用戶自定義邏輯處理完成之后輸出數(shù)據(jù)中的key
     * VALUEOUT:是用戶自定義邏輯處理完成之后輸出數(shù)據(jù)中的value
     * @author 12706
     *
     */
    static class FlowCountSortMapper extends Mapper<LongWritable, Text, FlowBean, Text>{
        FlowBean flowBean = new FlowBean();
        Text text = new Text();
        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            String line = value.toString();
            String[] infos = line.split("\t");
            //獲取手機號
            String phoneNum = infos[0];
            //獲取上行流量鳍刷,下行流量
            String upFlow = infos[1];
            String downFlow = infos[2];
            //設置總流量
            text.set(phoneNum);
            flowBean.setFlowBean(new Long(upFlow), new Long(downFlow));
            //根據(jù)key進行了排序占遥,所以需要FlowBean實現(xiàn)WritableComparable接口
            context.write(flowBean, text);
        }
    }
    /**
     * KEYIN VALUEIN對應mapper輸出的KEYOUT KEYOUT類型對應
     * KEYOUT,VALUEOUT:是自定義reduce邏輯處理結(jié)果的輸出數(shù)據(jù)類型
     * KEYOUT
     * VALUEOUT
     * @author 12706
     *
     */
    static class FlowCountSortReducer extends Reducer<FlowBean, Text, Text, FlowBean>{
        @Override
        protected void reduce(FlowBean key, Iterable<Text> values, Context context)
                throws IOException, InterruptedException {
            //直接寫出去
            context.write(values.iterator().next(), key);
        }
    }
    /**
     * 相當于一個yarn集群的客戶端
     * 需要在此封裝mr程序的相關(guān)運行參數(shù),指定jar包
     * 最后提交給yarn
     * @author 12706
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(FlowCountSort.class);
        //指定本業(yè)務job要使用的mapper,reducer業(yè)務類
        job.setMapperClass(FlowCountSortMapper.class);
        job.setReducerClass(FlowCountSortReducer.class);
        //雖然指定了泛型输瓜,以防框架使用第三方的類型
        //指定mapper輸出數(shù)據(jù)的kv類型
        job.setMapOutputKeyClass(FlowBean.class);
        job.setMapOutputValueClass(Text.class);

        //指定最終輸出的數(shù)據(jù)的kv類型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);

        //指定job輸入原始文件所在位置
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //指定job輸入原始文件所在位置
        FileOutputFormat.setOutputPath(job,new Path(args[1]));
        //將job中配置的相關(guān)參數(shù)以及job所用的java類所在的jar包瓦胎,提交給yarn去運行
        boolean b = job.waitForCompletion(true);
        System.exit(b?0:1);
    }
}

測試:
將工程打成jar包(flowcount.jar)上傳到linux,啟動hadoop集群芬萍。

在/flowcount/output下有匯總過的文件

[root@mini2 ~]# hadoop fs -cat /flowcount/output/part-r-00000
13480253104     180     180     360
13502468823     7335    110349  117684
13560436666     1116    954     2070
13560439658     2034    5892    7926
13602846565     1938    2910    4848
13660577991     6960    690     7650
13719199419     240     0       240
13726230503     2481    24681   27162
13726238888     2481    24681   27162
13760778710     120     120     240
13826544101     264     0       264
13922314466     3008    3720    6728
13925057413     11058   48243   59301
13926251106     240     0       240
13926435656     132     1512    1644
15013685858     3659    3538    7197
15920133257     3156    2936    6092
15989002119     1938    180     2118
18211575961     1527    2106    3633
18320173382     9531    2412    11943
84138413        4116    1432    5548
[root@mini2 ~]# hadoop jar flowcount.jar com.scu.hadoop.mr.FlowCountSort /flowcount/output /flowcount/sortoutput
...
[root@mini2 ~]# hadoop fs -ls /flowcount/sortoutput
Found 2 items
-rw-r--r--   2 root supergroup          0 2017-10-13 04:45 /flowcount/sortoutput/_SUCCESS
-rw-r--r--   2 root supergroup        551 2017-10-13 04:45 /flowcount/sortoutput/part-r-00000
[root@mini2 ~]# hadoop fs -cat /flowcount/sortoutput/part-r-00000
13502468823     7335    110349  117684
13925057413     11058   48243   59301
13726230503     2481    24681   27162
13726238888     2481    24681   27162
18320173382     9531    2412    11943
13560439658     2034    5892    7926
13660577991     6960    690     7650
15013685858     3659    3538    7197
13922314466     3008    3720    6728
15920133257     3156    2936    6092
84138413        4116    1432    5548
13602846565     1938    2910    4848
18211575961     1527    2106    3633
15989002119     1938    180     2118
13560436666     1116    954     2070
13926435656     132     1512    1644
13480253104     180     180     360
13826544101     264     0       264
13719199419     240     0       240
13760778710     120     120     240
13926251106     240     0       240

輸出文件/flowcount/sortoutput/part-r-00000中看到了記錄就是按照總流量由高到低排序。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末凛捏,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子芹缔,更是在濱河造成了極大的恐慌坯癣,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件最欠,死亡現(xiàn)場離奇詭異示罗,居然都是意外死亡,警方通過查閱死者的電腦和手機芝硬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門蚜点,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人拌阴,你說我怎么就攤上這事绍绘。” “怎么了迟赃?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵陪拘,是天一觀的道長。 經(jīng)常有香客問我纤壁,道長左刽,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任酌媒,我火速辦了婚禮欠痴,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘秒咨。我一直安慰自己喇辽,他們只是感情好,可當我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布雨席。 她就那樣靜靜地躺著茵臭,像睡著了一般。 火紅的嫁衣襯著肌膚如雪舅世。 梳的紋絲不亂的頭發(fā)上旦委,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天,我揣著相機與錄音雏亚,去河邊找鬼缨硝。 笑死,一個胖子當著我的面吹牛罢低,可吹牛的內(nèi)容都是我干的查辩。 我是一名探鬼主播胖笛,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼宜岛!你這毒婦竟也來了长踊?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤萍倡,失蹤者是張志新(化名)和其女友劉穎身弊,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體列敲,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡阱佛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了戴而。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片凑术。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖所意,靈堂內(nèi)的尸體忽然破棺而出淮逊,到底是詐尸還是另有隱情,我是刑警寧澤扶踊,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布壮莹,位于F島的核電站,受9級特大地震影響姻檀,放射性物質(zhì)發(fā)生泄漏命满。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一绣版、第九天 我趴在偏房一處隱蔽的房頂上張望胶台。 院中可真熱鬧,春花似錦杂抽、人聲如沸诈唬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽铸磅。三九已至,卻和暖如春杭朱,著一層夾襖步出監(jiān)牢的瞬間阅仔,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工弧械, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留八酒,地道東北人。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓刃唐,卻偏偏與公主長得像羞迷,于是被迫代替她去往敵國和親界轩。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 流量匯總程序開發(fā)衔瓮,利用生成好的匯總過的文件接著來進行按照總流量由高到低排序浊猾。 因為maptask的最終生成文件中的...
    __豆約翰__閱讀 229評論 0 0
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn)热鞍,斷路器葫慎,智...
    卡卡羅2017閱讀 134,672評論 18 139
  • 家長在得知孩子得自閉癥時幅疼,往往傾盡全力試盡各種方法進行早期干預訓練米奸,殊不知有些方法根本是沒用的昼接。自閉癥干預道路上會...
    你好嗎Pro閱讀 2,797評論 0 0
  • 今天總算休班在家陪孩子,準備改善伙食悴晰,女兒自主學習慢睡,不過今天有聽寫,需要我的幫助铡溪,我問她都掌握了沒有她口頭...
    兆木兆木閱讀 139評論 0 0
  • 回頭看看繁華的世界漂辐,也是愛你的每個瞬間都是在刷新我的誓言。 1.之前在快手看了一個視頻“什么愛情棕硫、什么狗屁愛妻髓涯、去...
    R家的海帶閱讀 366評論 0 1