注:本文涉及書中5.1~5.7小結(jié) MapReduce編程流程 step1. 首先寫map函數(shù)和reduce函數(shù)倦蚪,并使用單元測試來確保函數(shù)的運行...
注:本文涉及書中4.5小結(jié) 基于文件的數(shù)據(jù)結(jié)構(gòu) 有兩種文件格式: 1. SequenceFile 2. MapFile · SequenceFi...
注:本文涉及書中4.4小結(jié) 數(shù)據(jù)序列化系統(tǒng)Avro Apache Avro是一個獨立于編程語言的數(shù)據(jù)序列化系統(tǒng)档礁,旨在解決Hadoop中Writa...
注:本文涉及書中4.3小結(jié) 序列化與反序列化 1. 定義 序列化(serialization):將結(jié)構(gòu)化對象轉(zhuǎn)化為字節(jié)流审胸。 反序列化(deser...
注:本文涉及書中4.2小結(jié) 文件壓縮 好處:減少存儲文件的磁盤空間,加速網(wǎng)絡(luò)和磁盤的數(shù)據(jù)傳輸。 所有的壓縮方法都要權(quán)衡空間/時間,也就是說,壓縮...
注:本文涉及書中4.1小結(jié) 數(shù)據(jù)完整性 1. HDFS的完整性檢測 檢測數(shù)據(jù)損壞的方法:計算校驗和从橘。 以下情況HDFS會檢測數(shù)據(jù)的完整性: (1...
注:本文涉及書中3.9小結(jié) Hadoop存檔 1. 綜述 Hadoop存檔文件或HAR文件,是一個高效的文件存檔工具础钠,它將文件存入HDFS塊恰力,在...
注:本文涉及書中3.7~3.8小結(jié) 使用現(xiàn)成的工具將數(shù)據(jù)導(dǎo)入HDFS中 可以使用現(xiàn)成的工具,如Flume和Sqoop旗吁,而非寫程序來將數(shù)據(jù)導(dǎo)入HD...
注:本文涉及書中3.6小結(jié) 數(shù)據(jù)流 1. 文件讀取 結(jié)合上圖牺勾,客戶端通過調(diào)用FileSystem對象的open()方法來打開希望讀取的文件 st...