Hadoop 3.0新特性

Erasure coding in HDFS

????EC可以通俗的這樣理解（并不準確，只是方便理解）：傳統(tǒng)的 HDFS Replication像RAID 0，數(shù)據(jù)被簡單的復(fù)制多份途乃；而EC像RAID5，采用數(shù)據(jù)+校驗碼的方式來確倍视可靠性盼铁。

EC的優(yōu)點

1.更節(jié)省存儲空間：RS(6+3)只需要1.5倍的磁盤空間就可以獲得相同的可靠性悄晃，相比傳統(tǒng)的Replication 3節(jié)省50%存儲空間凤价，刽虹；

2.并發(fā)讀寫多個DataNode酗捌，尤其對小文件的訪問更快；

3.數(shù)據(jù)直接一次性寫入（Replication是先寫入一個DataNode涌哲，再異步復(fù)制到其它DataNode中）胖缤；

EC缺點

1.數(shù)據(jù)恢復(fù)需要耗費更多的CPU、內(nèi)存和IO阀圾，也更耗時（想象一下RAID5磁盤壞掉后的恢復(fù)過程……）哪廓；

2.不(Wu)再(Fa)支持就近讀取的策略了（Hadoop：現(xiàn)在動不動就萬兆網(wǎng)，就近沒那么重要了吧初烘？）

總結(jié)

????小于1 block（默認128M）的小文件多涡真，磁盤空間緊張，適合用EC肾筐；大文件多適合用Replication哆料。由于EC和Replication都是基于HDFS block的，所以它們并不沖突吗铐。Hadoop支持在同一個HDFS Cluster中對不同的文件或目錄指定不同的存儲策略东亦。

EC是如何解決數(shù)據(jù)可靠性的問題呢？

????EC本身就是糾偏碼的縮寫唬渗，糾刪碼技術(shù)主要將原始的數(shù)據(jù)進行編碼得到校驗典阵，并將數(shù)據(jù)和校驗一并存儲起來奋渔，以達到容錯的目的。其基本思想是將ｋ塊原始的數(shù)據(jù)元素通過一定的編碼計算壮啊，得到ｍ塊校驗元素嫉鲸。對于這ｋ+ｍ塊元素，當其中任意的ｍ塊元素出錯（包括數(shù)據(jù)和校驗出錯）歹啼，均可以通過對應(yīng)的重構(gòu)算法恢復(fù)出原來的ｋ塊數(shù)據(jù)充坑。Hadoop EC采用一種叫做RS(Reed-Solomon encoding)的糾偏碼，這種編碼方式之前廣泛用于通信數(shù)據(jù)傳輸中染突。一般采用6個數(shù)據(jù)單元+3個校驗單元捻爷，記為RS(6,3)。

EC數(shù)據(jù)存儲方式：

????HDFS存儲數(shù)據(jù)的最小物理單元是block份企，默認的block size是128M也榄。傳統(tǒng)的順序存儲方式是：將文件順序?qū)懭攵鄠€block中。

????例如司志，一個768M的文件甜紫，將被順序?qū)懭?個128M的block中，然后每個block再被異步復(fù)制2個副本到其它DataNode中：

順序存儲

????EC采用叫做文件存儲的最小物理單元依然是block骂远，但是在block基礎(chǔ)上增加了strip和cell的邏輯單元囚霸，其中cell就是RS碼中的"單元"。6個數(shù)據(jù)單元(也就是6個cell）+3個校驗單元構(gòu)成一個條(strip)激才。

????例如拓型，同樣一個768M的文件將被分為768個1M大小的邏輯單元cell，每6個cell做RS encoding瘸恼，生成3個校驗cell劣挫，這樣9個cell構(gòu)成一個邏輯條(strip)，然后依次循環(huán)將這些條寫入到block中东帅。

EC存儲

需要注意的是

1.client會直接并發(fā)讀寫這9個block所在的DataNode压固；

2.每個條(strip)中的cell必須分配到不同的block中。也就意味著靠闭，在RS(6,3)中即使文件再小帐我，也至少占用9個block；

參考

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSErasureCoding.html

https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/

最低支持Java8愧膀，不再支持Java7

YARN Timeline Service v.2（early preview,并不能用）

????相比v.1改進：

1.擴展性增強：讀寫存儲從單實例變?yōu)榉植际讲⑶覍⒆x寫分開拦键；

2.增加Flow的概念：我理解類似DAG（有向無環(huán)圖）；

其他改進

重寫shell script扇调；

Shaded client jars：屏蔽client jar包矿咕，避免client jar與Application classpath中的jar沖突(怎么做到的？);

增加Opportunistic Containers：低優(yōu)先的container狼钮，即使沒有資源也可以提交碳柱，等待資源空閑下來執(zhí)行，主要目的是提高yarn集群利用率熬芜。

mapreduce性能優(yōu)化：增加了一個map output collector的本地實現(xiàn)莲镣，對于shuffle-intensive jobs可以提升30%以上的性能；

默認端口變更：為了避免和linux臨時端口范圍 (32768-61000)沖突涎拉，修改了部分默認端口號瑞侮；

增加Microsoft Azure Data Lake和阿里云OSS支持；

Intra-datanode balancer：解決DataNode內(nèi)部增減磁盤導(dǎo)致的數(shù)據(jù)傾斜問題鼓拧，我理解DataNode內(nèi)部rebalance不用整個集群rebalance了半火。

YARN 支持自定義擴展Resource Types，比如你可以定義GPU季俩、軟件licenses等資源钮糖；

HDFS Router-Based Federation增加了a RPC routing layer，多個子集群的超大型集群才用得上酌住，有時間再研究店归。

Capacity Scheduler queue增加讀寫Configuration的API；

S3Guard：用不到酪我，懶得看了消痛。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市都哭，隨后出現(xiàn)的幾起案子秩伞，更是在濱河造成了極大的恐慌，老刑警劉巖欺矫，帶你破解...
沈念sama閱讀 222,729評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件稠歉，死亡現(xiàn)場離奇詭異，居然都是意外死亡汇陆，警方通過查閱死者的電腦和手機怒炸，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,226評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來毡代，“玉大人阅羹，你說我怎么就攤上這事〗碳牛” “怎么了捏鱼？”我有些...
開封第一講書人閱讀 169,461評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長酪耕。經(jīng)常有香客問我导梆，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 60,135評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任看尼，我火速辦了婚禮递鹉，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘藏斩。我一直安慰自己躏结，他們只是感情好，可當我...
茶點故事閱讀 69,130評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布狰域。她就那樣靜靜地躺著媳拴，像睡著了一般。火紅的嫁衣襯著肌膚如雪兆览。梳的紋絲不亂的頭發(fā)上屈溉，一...
開封第一講書人閱讀 52,736評論 1贊 312
城市分裂傳說
那天，我揣著相機與錄音抬探，去河邊找鬼子巾。笑死，一個胖子當著我的面吹牛驶睦，可吹牛的內(nèi)容都是我干的砰左。我是一名探鬼主播，決...
沈念sama閱讀 41,179評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼场航，長吁一口氣：“原來是場噩夢啊……” “哼缠导！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起溉痢，我...
開封第一講書人閱讀 40,124評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤僻造，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后孩饼，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體髓削，經(jīng)...
沈念sama閱讀 46,657評論 1贊 320
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,723評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年镀娶，在試婚紗的時候發(fā)現(xiàn)自己被綠了立膛。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,872評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡梯码，死狀恐怖宝泵，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情轩娶，我是刑警寧澤儿奶，帶...
沈念sama閱讀 36,533評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站鳄抒，受9級特大地震影響闯捎，放射性物質(zhì)發(fā)生泄漏椰弊。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 42,213評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一瓤鼻、第九天我趴在偏房一處隱蔽的房頂上張望秉版。院中可真熱鬧，春花似錦娱仔、人聲如沸沐飘。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,700評論 0贊 25
一樁弒父案牲迫，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至借卧，卻和暖如春盹憎，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背铐刘。一陣腳步聲響...
開封第一講書人閱讀 33,819評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工陪每，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人镰吵。一個月前我還...
沈念sama閱讀 49,304評論 3贊 379
代替公主和親
正文我出身青樓檩禾，卻偏偏與公主長得像，于是被迫代替她去往敵國和親疤祭。傳聞我的和親對象是個殘疾皇子盼产，可洞房花燭夜當晚...
茶點故事閱讀 45,876評論 2贊 361