Hadoop入門hello world


Hadoop是個高效的工具


介紹了Hadoop的由來和組成锄禽,當然提供給你用來分析的數(shù)據(jù),以及最快的方式靴姿。更重要的是描述第一個Hadoop工程的詳細編寫過程沃但。

1.認識Hadoop

1.1解決高速增長的存儲空間和讀取速度不匹配的問題

引入了多個磁盤同時讀取數(shù)據(jù)的技術。但為實現(xiàn)這個技術佛吓,又有兩個問題需要解決:

  • 硬盤故障問題
  • 各種分布式系統(tǒng)允許結合不同來源的數(shù)據(jù)進行分析宵晚,很難保證其正確性。

而在Hadoop中對這兩個問題都做到處理和解決维雇。對于第一個問題淤刃,常用的做法是保存數(shù)據(jù)副本(replica),Hadoop文件系統(tǒng)(HDFS吱型, Hadoop Distributed FileSystem)的使用原理類似逸贾,略有不同。第二個問題Hadoop中引入了MapReduce模型津滞,模型抽象出了硬盤讀寫問題并將其轉換為對一個數(shù)據(jù)集的計算铝侵,同時也具備較高的可靠性。

MapReduce 是一種線性的可伸縮編程模型触徐。使用者要寫兩個函數(shù)咪鲜,分別是Map函數(shù)和Reduce函數(shù),每個函數(shù)定義從一個鍵值對集合到另一個鍵值對集合到映射撞鹉。性能方面疟丙,MapReduce盡量在計算節(jié)點上存儲數(shù)據(jù)颖侄,以實現(xiàn)數(shù)據(jù)的本地快速訪問,數(shù)據(jù)本地化是MapReduce的核心特征享郊,從而獲得更好的性能览祖。另外有多種基于MapReduce的高級查詢語言(Pig和Hive)供使用。穩(wěn)定性上炊琉,MapReduce采用無共享(shared-nothing)框架展蒂,實現(xiàn)了失敗檢測,所有使用者無需擔心系統(tǒng)的部分失效問題温自。

1.2.氣象數(shù)據(jù)下載

書中的數(shù)據(jù)分析實例使用的是ncdc的氣象數(shù)據(jù)玄货,在手動編寫程序之前皇钞,首先要準備好這些數(shù)據(jù)悼泌。最開始找到了ncdc的ftp站點ftp://ftp.ncdc.noaa.gov/pub/data/,下載經(jīng)常性的出現(xiàn)斷線夹界,下載速度異常緩慢馆里。所以不得不重新搜索新的源,最終找到了https://www1.ncdc.noaa.gov/pub/data/noaa這個地址可柿,但是在下載時卻不像ftp可以批量下載鸠踪。

而只能通過腳本去抓去數(shù)據(jù)。這個腳本實現(xiàn)的功能是复斥,按年份批量下載對應地址的壓縮包营密,并將這些數(shù)據(jù)按年份保存。值得一說的是這個shell腳本使用了并行下載方式目锭,節(jié)省了大量的時間评汰。

#! /bin/bash
for i in {1901..2019}  
do { 
    mkdir -p /Users/macos/noaaData/$i
    wget --execute robots=off -r -np -nH --cut-dirs=4 -R index.html* https://www1.ncdc.noaa.gov/pub/data/noaa/$i/ -P /Users/macos/noaaData/$i
}&
done 

2.第一個Hadoop工程

2.1 安裝并運行Hadoop

啟動成功驗證:

打開瀏覽器:
http://192.168.8.88:50070 (hdfs管理界面)顯示active活躍狀態(tài)
http://192.168.8.88:8088 (yarn管理界面)
以上兩個地址正常顯示,則說明啟動成功痢虹。

2.2 Hadoop程序編寫

MapReduce任務過程分為兩個處理階段:

  • map階段
  • reduce階段

每個階段都以鍵值對作為輸入和輸出被去,類型可供選擇。兩個處理階段需要分別編寫相應的函數(shù)方法奖唯,并加上運行作業(yè)的代碼惨缆。

新建Maven項目

  1. 在pom.xml文件中增加以下依賴關系

<dependencies> 
  <dependency> 
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-common</artifactId>  
    <version>2.8.1</version> 
  </dependency>  
  
  <dependency> 
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-hdfs</artifactId>  
    <version>2.8.1</version> 
  </dependency> 
   
  <dependency> 
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-mapreduce-client-core</artifactId>  
    <version>2.8.1</version> 
  </dependency>  
  
  <dependency> 
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-mapreduce-client-jobclient</artifactId>  
    <version>2.8.1</version> 
  </dependency>  
  
  <dependency> 
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-mapreduce-client-common</artifactId>  
    <version>2.8.1</version> 
  </dependency> 
</dependencies>

  1. 編寫Map函數(shù)、Reduce函數(shù)和調用執(zhí)行代碼

Map函數(shù)
完成功能:在天氣數(shù)據(jù)中截取溫度數(shù)據(jù)丰捷。并寫入到contex中為Reduce方法準備好數(shù)據(jù)坯墨。


// cc MaxTemperatureMapper Mapper for maximum temperature example
// vv MaxTemperatureMapper
import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MaxTemperatureMapper
  extends Mapper<LongWritable, Text, Text, IntWritable> {

  private static final int MISSING = 9999;
  
  @Override
  public void map(LongWritable key, Text value, Context context)
      throws IOException, InterruptedException {
    
    String line = value.toString();
    String year = line.substring(15, 19);
    int airTemperature;
    if (line.charAt(87) == '+') { // parseInt doesn't like leading plus signs
      airTemperature = Integer.parseInt(line.substring(88, 92));
    } else {
      airTemperature = Integer.parseInt(line.substring(87, 92));
    }
    String quality = line.substring(92, 93);
    if (airTemperature != MISSING && quality.matches("[01459]")) {
      context.write(new Text(year), new IntWritable(airTemperature));
    }
  }
}
// ^^ MaxTemperatureMapper

Reduce函數(shù)
完成功能:根據(jù)Map函數(shù)傳遞來的數(shù)據(jù)計算最大值,并輸出年份和最高溫度的鍵值對病往。

// cc MaxTemperatureReducer Reducer for maximum temperature example
// vv MaxTemperatureReducer
import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class MaxTemperatureReducer
  extends Reducer<Text, IntWritable, Text, IntWritable> {
  
  @Override
  public void reduce(Text key, Iterable<IntWritable> values,
      Context context)
      throws IOException, InterruptedException {
    
    int maxValue = Integer.MIN_VALUE;
    for (IntWritable value : values) {
      maxValue = Math.max(maxValue, value.get());
    }
    context.write(key, new IntWritable(maxValue));
  }
}
// ^^ MaxTemperatureReducer

main方法:
完成功能:創(chuàng)建運行Job畅蹂,傳遞數(shù)據(jù)目錄并設置Map和Reduce對應class;同時設置輸出鍵值對格式荣恐。


// cc MaxTemperature Application to find the maximum temperature in the weather dataset
// vv MaxTemperature
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MaxTemperature {

  public static void main(String[] args) throws Exception {
    if (args.length != 2) {
      System.err.println("Usage: MaxTemperature <input path> <output path>");
      System.exit(-1);
    }
    
    Job job = new Job();
    job.setJarByClass(MaxTemperature.class);
    job.setJobName("Max temperature");

    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    
    job.setMapperClass(MaxTemperatureMapper.class);
    job.setReducerClass(MaxTemperatureReducer.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}
// ^^ MaxTemperature

  1. 設置數(shù)據(jù)輸入輸出目錄

在Run configurations中Program arguments輸入框中液斜,設置數(shù)據(jù)目錄和輸出目錄的絕對路徑累贤。

運行會在輸出目錄下生成兩個文件:

_SUCCESS
part-r-00000

第二個文件為我們需要的運行結果如下:

1948 342
1949 311
...

到此我們對Hadoop工程有了一個初步認識,并成功運行了我們的第一個項目少漆。好了臼膏,這篇分享就到這了,感興趣可以持續(xù)關注博客更新哦??

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末示损,一起剝皮案震驚了整個濱河市渗磅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌检访,老刑警劉巖始鱼,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異脆贵,居然都是意外死亡医清,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進店門卖氨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來会烙,“玉大人,你說我怎么就攤上這事筒捺“啬澹” “怎么了?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵系吭,是天一觀的道長五嫂。 經(jīng)常有香客問我,道長肯尺,這世上最難降的妖魔是什么沃缘? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮蟆盹,結果婚禮上孩灯,老公的妹妹穿的比我還像新娘。我一直安慰自己逾滥,他們只是感情好峰档,可當我...
    茶點故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著寨昙,像睡著了一般讥巡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上舔哪,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天欢顷,我揣著相機與錄音,去河邊找鬼捉蚤。 笑死抬驴,一個胖子當著我的面吹牛炼七,可吹牛的內容都是我干的。 我是一名探鬼主播布持,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼豌拙,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了题暖?” 一聲冷哼從身側響起按傅,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎胧卤,沒想到半個月后唯绍,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡枝誊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年况芒,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片侧啼。...
    茶點故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡牛柒,死狀恐怖堪簿,靈堂內的尸體忽然破棺而出痊乾,到底是詐尸還是另有隱情,我是刑警寧澤椭更,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布哪审,位于F島的核電站,受9級特大地震影響虑瀑,放射性物質發(fā)生泄漏湿滓。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一舌狗、第九天 我趴在偏房一處隱蔽的房頂上張望叽奥。 院中可真熱鬧,春花似錦痛侍、人聲如沸朝氓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赵哲。三九已至,卻和暖如春君丁,著一層夾襖步出監(jiān)牢的瞬間枫夺,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工绘闷, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留橡庞,地道東北人较坛。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像扒最,于是被迫代替她去往敵國和親燎潮。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內容

  • 一個Map/Reduce 作業(yè)(job) 通常會把輸入的數(shù)據(jù)(input file)切分為若干獨立的數(shù)據(jù)塊(spl...
    Alukar閱讀 6,708評論 0 15
  • 關于Mongodb的全面總結 MongoDB的內部構造《MongoDB The Definitive Guide》...
    中v中閱讀 31,947評論 2 89
  • 目的這篇教程從用戶的角度出發(fā)扼倘,全面地介紹了Hadoop Map/Reduce框架的各個方面确封。先決條件請先確認Had...
    SeanC52111閱讀 1,734評論 0 1
  • 文字丨九萬 出品丨九萬說 原創(chuàng)作品爪喘,轉載請告知, 2012年10月我認識了一個善良的男孩纠拔,他就像一道好看的彩虹可遇...
    九萬說閱讀 354評論 0 0
  • 前兩天秉剑,一個朋友發(fā)微信向我訴說她最近遇到的問題,大意是稠诲,公司制度調整侦鹏,在工資不變的情況下,休息時間從每周兩天減少到...
    職場成長菌閱讀 209評論 0 1