在這篇文章中建丧,我們將討論Hadoop 2.x與Hadoop 3.x之間的比較。 Hadoop3版本中添加了哪些新功能波势,Hadoop3中兼容的Hadoop 2程序翎朱,Hadoop 2和Hadoop 3有什么區(qū)別? 我們希望Hadoop 2和Hadoop 3之間的這個功能的區(qū)別將幫助回答上述問題尺铣。
Hadoop 2.x與Hadoop 3.x之間的功能比較
本節(jié)將講述Hadoop 2.x與Hadoop 3.x之間的22個差異拴曲。 現(xiàn)在讓我們逐一討論
1.License
adoop 2.x - Apache 2.0,開源
Hadoop 3.x - Apache 2.0凛忿,開源
2.支持的最低Java版本
Hadoop 2.x - java的最低支持版本是java 7
Hadoop 3.x - java的最低支持版本是java 8
3.容錯
Hadoop 2.x - 可以通過復(fù)制(浪費(fèi)空間)來處理容錯澈灼。
Hadoop 3.x - 可以通過Erasure編碼處理容錯。
4.數(shù)據(jù)平衡
Hadoop 2.x - 對于數(shù)據(jù)店溢,平衡使用HDFS平衡器叁熔。
Hadoop 3.x - 對于數(shù)據(jù),平衡使用Intra-data節(jié)點(diǎn)平衡器床牧,該平衡器通過HDFS磁盤平衡器CLI調(diào)用荣回。
5.存儲Scheme
Hadoop 2.x - 使用3X副本Scheme
Hadoop 3.x - 支持HDFS中的擦除編碼。
6.存儲開銷
Hadoop 2.x - HDFS在存儲空間中有200%的開銷戈咳。
Hadoop 3.x - 存儲開銷僅為50%心软。
7.存儲開銷示例
Hadoop 2.x - 如果有6個塊,那么由于副本方案(Scheme)著蛙,將有18個塊占用空間删铃。
Hadoop 3.x - 如果有6個塊,那么將有9個塊空間踏堡,6塊block猎唁,3塊用于奇偶校驗(yàn)。
8.YARN時間線服務(wù)
Hadoop 2.x - 使用具有可伸縮性問題的舊時間軸服務(wù)暂吉。
Hadoop 3.x - 改進(jìn)時間線服務(wù)v2并提高時間線服務(wù)的可擴(kuò)展性和可靠性胖秒。
9.默認(rèn)端口范圍
Hadoop 2.x - 在Hadoop 2.0中,一些默認(rèn)端口是Linux臨時端口范圍慕的。所以在啟動時,他們將無法綁定挤渔。
Hadoop 3.x - 但是在Hadoop 3.0中肮街,這些端口已經(jīng)移出了短暫的范圍。
10.工具
Hadoop 2.x - 使用Hive判导,pig嫉父,Tez沛硅,Hama,Giraph和其他Hadoop工具绕辖。
Hadoop 3.x - 可以使用Hive摇肌,pig,Tez仪际,Hama围小,Giraph和其他Hadoop工具。
11.兼容的文件系統(tǒng)
Hadoop 2.x - HDFS(默認(rèn)FS)树碱,F(xiàn)TP文件系統(tǒng):它將所有數(shù)據(jù)存儲在可遠(yuǎn)程訪問的FTP服務(wù)器上肯适。 Amazon S3(簡單存儲服務(wù))文件系統(tǒng)Windows Azure存儲Blob(WASB)文件系統(tǒng)。
Hadoop 3.x - 它支持所有前面以及Microsoft Azure Data Lake文件系統(tǒng)成榜。
12.Datanode資源
Hadoop 2.x - Datanode資源不專用于MapReduce框舔,我們可以將它用于其他應(yīng)用程序。
Hadoop 3.x - 此處數(shù)據(jù)節(jié)點(diǎn)資源也可用于其他應(yīng)用程序赎婚。
13.MR API兼容性
Hadoop 2.x - 與Hadoop 1.x程序兼容的MR API刘绣,可在Hadoop 2.X上執(zhí)行
Hadoop 3.x - 此處,MR API與運(yùn)行Hadoop 1.x程序兼容挣输,以便在Hadoop 3.X上執(zhí)行
14.支持Microsoft Windows
Hadoop 2.x - 它可以部署在Windows上额港。
Hadoop 3.x - 它也支持Microsoft Windows。
15.插槽/容器
Hadoop 2.x - Hadoop 1適用于插槽的概念歧焦,但Hadoop 2.X適用于容器的概念移斩。通過容器,我們可以運(yùn)行通用任務(wù)绢馍。
Hadoop 3.x - 它也適用于容器的概念向瓷。
16.單點(diǎn)故障
Hadoop 2.x - 具有SPOF的功能,因此只要Namenode失敗舰涌,它就會自動恢復(fù)猖任。
Hadoop 3.x - 具有SPOF的功能,因此只要Namenode失敗瓷耙,它就會自動恢復(fù)朱躺,無需人工干預(yù)就可以克服它。
17.HDFS聯(lián)盟
Hadoop 2.x - 在Hadoop 1.0中搁痛,只有一個NameNode來管理所有Namespace长搀,但在Hadoop 2.0中,多個NameNode用于多個Namespace鸡典。
Hadoop 3.x - Hadoop 3.x還有多個名稱空間用于多個名稱空間源请。
18.可擴(kuò)展性
Hadoop 2.x - 我們可以擴(kuò)展到每個群集10,000個節(jié)點(diǎn)。
Hadoop 3.x - 更好的可擴(kuò)展性。 我們可以為每個群集擴(kuò)展超過10,000個節(jié)點(diǎn)谁尸。
19.更快地訪問數(shù)據(jù)
Hadoop 2.x - 由于數(shù)據(jù)節(jié)點(diǎn)緩存舅踪,我們可以快速訪問數(shù)據(jù)。
Hadoop 3.x - 這里也通過Datanode緩存我們可以快速訪問數(shù)據(jù)良蛮。
20.HDFS快照
Hadoop 2.x - Hadoop 2增加了對快照的支持抽碌。 它為用戶錯誤提供災(zāi)難恢復(fù)和保護(hù)。
Hadoop 3.x - Hadoop 2也支持快照功能决瞳。
21.平臺
Hadoop 2.x - 可以作為各種數(shù)據(jù)分析的平臺货徙,可以運(yùn)行事件處理,流媒體和實(shí)時操作瞒斩。
Hadoop 3.x - 這里也可以在YARN的頂部運(yùn)行事件處理破婆,流媒體和實(shí)時操作。
22.群集資源管理
Hadoop 2.x - 對于群集資源管理胸囱,它使用YARN祷舀。 它提高了可擴(kuò)展性,高可用性烹笔,多租戶裳扯。
Hadoop 3.x - 對于集群,資源管理使用具有所有功能的YARN谤职。
小伙伴們想了解更多的大數(shù)據(jù)相關(guān)技術(shù)可以點(diǎn)擊文章末尾“了解更多”查看