Hadoop 3.0新特性

Erasure coding in HDFS

????EC可以通俗的這樣理解(并不準確,只是方便理解):傳統(tǒng)的 HDFS Replication像RAID 0,數(shù)據(jù)被簡單的復(fù)制多份途乃;而EC像RAID5,采用數(shù)據(jù)+校驗碼的方式來確倍视可靠性盼铁。

EC的優(yōu)點

1.更節(jié)省存儲空間:RS(6+3)只需要1.5倍的磁盤空間就可以獲得相同的可靠性悄晃,相比傳統(tǒng)的Replication 3節(jié)省50%存儲空間凤价,刽虹;

2.并發(fā)讀寫多個DataNode酗捌,尤其對小文件的訪問更快;

3.數(shù)據(jù)直接一次性寫入(Replication是先寫入一個DataNode涌哲,再異步復(fù)制到其它DataNode中)胖缤;

EC缺點

1.數(shù)據(jù)恢復(fù)需要耗費更多的CPU、內(nèi)存和IO阀圾,也更耗時(想象一下RAID5磁盤壞掉后的恢復(fù)過程……)哪廓;

2.不(Wu)再(Fa)支持就近讀取的策略了(Hadoop:現(xiàn)在動不動就萬兆網(wǎng),就近沒那么重要了吧初烘?)

總結(jié)

????小于1 block(默認128M)的小文件多涡真,磁盤空間緊張,適合用EC肾筐;大文件多適合用Replication哆料。由于EC和Replication都是基于HDFS block的,所以它們并不沖突吗铐。Hadoop支持在同一個HDFS Cluster中對不同的文件或目錄指定不同的存儲策略东亦。

EC是如何解決數(shù)據(jù)可靠性的問題呢?

????EC本身就是糾偏碼的縮寫唬渗,糾刪碼技術(shù)主要將原始的數(shù)據(jù)進行編碼得到校驗典阵,并將數(shù)據(jù)和校驗一并存儲起來奋渔,以達到容錯的目的。其基本思想是將k塊原始的數(shù)據(jù)元素通過一定的編碼計算壮啊,得到m塊校驗元素嫉鲸。對于這k+m塊元素,當其中任意的m塊元素出錯(包括數(shù)據(jù)和校驗出錯)歹啼,均可以通過對應(yīng)的重構(gòu)算法恢復(fù)出原來的k塊數(shù)據(jù)充坑。Hadoop EC采用一種叫做RS(Reed-Solomon encoding)的糾偏碼,這種編碼方式之前廣泛用于通信數(shù)據(jù)傳輸中染突。一般采用6個數(shù)據(jù)單元+3個校驗單元捻爷,記為RS(6,3)。

EC數(shù)據(jù)存儲方式:

????HDFS存儲數(shù)據(jù)的最小物理單元是block份企,默認的block size是128M也榄。傳統(tǒng)的順序存儲方式是:將文件順序?qū)懭攵鄠€block中。

????例如司志,一個768M的文件甜紫,將被順序?qū)懭?個128M的block中,然后每個block再被異步復(fù)制2個副本到其它DataNode中:


順序存儲

????EC采用叫做文件存儲的最小物理單元依然是block骂远,但是在block基礎(chǔ)上增加了strip和cell的邏輯單元囚霸,其中cell就是RS碼中的"單元"。6個數(shù)據(jù)單元(也就是6個cell)+3個校驗單元構(gòu)成一個條(strip)激才。

????例如拓型,同樣一個768M的文件將被分為768個1M大小的邏輯單元cell,每6個cell做RS encoding瘸恼,生成3個校驗cell劣挫,這樣9個cell構(gòu)成一個邏輯條(strip),然后依次循環(huán)將這些條寫入到block中东帅。

EC存儲

需要注意的是

1.client會直接并發(fā)讀寫這9個block所在的DataNode压固;

2.每個條(strip)中的cell必須分配到不同的block中。也就意味著靠闭,在RS(6,3)中即使文件再小帐我,也至少占用9個block;

參考

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSErasureCoding.html

https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/


最低支持Java8愧膀,不再支持Java7

YARN Timeline Service v.2(early preview,并不能用)

????相比v.1改進:

1.擴展性增強:讀寫存儲從單實例變?yōu)榉植际讲⑶覍⒆x寫分開拦键;

2.增加Flow的概念:我理解類似DAG(有向無環(huán)圖);

其他改進

重寫shell script扇调;

Shaded client jars:屏蔽client jar包矿咕,避免client jar與Application classpath中的jar沖突(怎么做到的?);

增加Opportunistic Containers:低優(yōu)先的container狼钮,即使沒有資源也可以提交碳柱,等待資源空閑下來執(zhí)行,主要目的是提高yarn集群利用率熬芜。

mapreduce性能優(yōu)化:增加了一個map output collector的本地實現(xiàn)莲镣,對于shuffle-intensive jobs可以提升30%以上的性能;

默認端口變更:為了避免和linux臨時端口范圍 (32768-61000)沖突涎拉,修改了部分默認端口號瑞侮;

增加Microsoft Azure Data Lake和阿里云OSS支持;

Intra-datanode balancer:解決DataNode內(nèi)部增減磁盤導(dǎo)致的數(shù)據(jù)傾斜問題鼓拧,我理解DataNode內(nèi)部rebalance不用整個集群rebalance了半火。

YARN 支持自定義擴展Resource Types,比如你可以定義GPU季俩、軟件licenses等資源钮糖;

HDFS Router-Based Federation增加了a RPC routing layer,多個子集群的超大型集群才用得上酌住,有時間再研究店归。

Capacity Scheduler queue增加讀寫Configuration的API;

S3Guard:用不到酪我,懶得看了消痛。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市都哭,隨后出現(xiàn)的幾起案子秩伞,更是在濱河造成了極大的恐慌,老刑警劉巖欺矫,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件稠歉,死亡現(xiàn)場離奇詭異,居然都是意外死亡汇陆,警方通過查閱死者的電腦和手機怒炸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來毡代,“玉大人阅羹,你說我怎么就攤上這事〗碳牛” “怎么了捏鱼?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長酪耕。 經(jīng)常有香客問我导梆,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任看尼,我火速辦了婚禮递鹉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘藏斩。我一直安慰自己躏结,他們只是感情好,可當我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布狰域。 她就那樣靜靜地躺著媳拴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪兆览。 梳的紋絲不亂的頭發(fā)上屈溉,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天,我揣著相機與錄音抬探,去河邊找鬼子巾。 笑死,一個胖子當著我的面吹牛驶睦,可吹牛的內(nèi)容都是我干的砰左。 我是一名探鬼主播,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼场航,長吁一口氣:“原來是場噩夢啊……” “哼缠导!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起溉痢,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤僻造,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后孩饼,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體髓削,經(jīng)...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年镀娶,在試婚紗的時候發(fā)現(xiàn)自己被綠了立膛。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡梯码,死狀恐怖宝泵,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情轩娶,我是刑警寧澤儿奶,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站鳄抒,受9級特大地震影響闯捎,放射性物質(zhì)發(fā)生泄漏椰弊。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一瓤鼻、第九天 我趴在偏房一處隱蔽的房頂上張望秉版。 院中可真熱鬧,春花似錦娱仔、人聲如沸沐飘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至借卧,卻和暖如春盹憎,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背铐刘。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工陪每, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人镰吵。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓檩禾,卻偏偏與公主長得像,于是被迫代替她去往敵國和親疤祭。 傳聞我的和親對象是個殘疾皇子盼产,可洞房花燭夜當晚...
    茶點故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內(nèi)容