【HDFS篇01】HDFS入門概述

真正的學(xué)習(xí)是去探索闽瓢,思考和重建

HDFS產(chǎn)生背景

? 隨著數(shù)據(jù)量越來越大接癌,在一個操作系統(tǒng)存不下所有的數(shù)據(jù),那么就分配到更多的操作系統(tǒng)管理的磁盤中扣讼,但是不方便管理和維護(hù)缺猛,迫切需要一種系統(tǒng)來管理多臺機(jī)器上的文件,這就是分布式文件管理系統(tǒng)椭符。HDFS只是分布式文件管理系統(tǒng)中的一種荔燎。

HDFS定義

? HDFS( Hadoop Distributed File System),它是一個文件系統(tǒng)销钝,用于存儲文件有咨,通過目錄樹來定位文件;其次蒸健,它是分布式的座享,由很多服務(wù)器聯(lián)合起來實(shí)現(xiàn)其功能,集群中的服務(wù)器有各自的角色

關(guān)鍵詞:文件系統(tǒng)似忧,分布式

使用場景

? 適合一次寫入渣叛,多次讀出的場景,且不支持文件的修改盯捌。適合用來做數(shù)據(jù)分析淳衙,并不適合用來做網(wǎng)盤應(yīng)用

優(yōu)點(diǎn)

  • 高容錯性

    (1)數(shù)據(jù)自動保存多個副本。它通過增加副本的形式挽唉,提高容錯性滤祖。
    (2)某一個副本丟失以后,它可以自動恢復(fù)
    
  • 適合處理大數(shù)據(jù)

    (1)數(shù)據(jù)規(guī)模:能夠處理數(shù)據(jù)規(guī)模達(dá)到GB瓶籽、TB匠童、甚至PB級別的數(shù)據(jù):
    (2)文件規(guī)模:能夠處理百萬規(guī)模以上的文件數(shù)量,數(shù)量相當(dāng)之大
    (3)可構(gòu)建在廉價(jià)機(jī)器上塑顺,通過多副本機(jī)制汤求,提高可靠性
    

缺點(diǎn)

  • 不適合低延時數(shù)據(jù)訪問,比如毫秒級的存儲數(shù)據(jù)严拒,是做不到的

  • 無法高效的對大量小文件進(jìn)行存儲

(1)存儲大量小文件的話扬绪,它會占用 Namenode大量的內(nèi)存來存儲文件目錄和塊信息。這樣是不可取的裤唠,因?yàn)?Namenode的內(nèi)存總是有限的:
(2)小文件存儲的尋址時間會超過讀取時間挤牛,它違反了HDFS的設(shè)計(jì)目標(biāo)。
  • 不支持并發(fā)寫入种蘸、文件隨機(jī)修改HDFS
(1)一個文件只能有一個寫墓赴,不允許多個線程同時寫:
(2)僅支持?jǐn)?shù)據(jù) append(追加)竞膳,不支持文件的隨機(jī)修改

HDFS組成架構(gòu)圖

HDFS文件塊大小

思考:快為什么不能設(shè)置太小,也不能設(shè)置太大呢诫硕?

(1)HDFS的塊設(shè)置太小坦辟,會增加尋址時間,程序一直在找塊的開始位置:
(2)HDFS的塊比磁盤的塊大章办,其目的是為了最小化尋址開銷:
(3)如果塊設(shè)置的太大锉走,從磁盤傳輸數(shù)據(jù)的時間會明顯大于定位這個塊開始位置所需的時間。導(dǎo)致程序在處理這塊數(shù)據(jù)時藕届,會非常慢挪蹭。

總結(jié):HDFS塊的大小設(shè)置主要取決于磁盤傳輸速率。

相關(guān)資料

1

本文配套GitHubhttps://github.com/zhutiansama/FocusBigData

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末休偶,一起剝皮案震驚了整個濱河市嚣潜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌椅贱,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件只冻,死亡現(xiàn)場離奇詭異庇麦,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)喜德,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進(jìn)店門山橄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人舍悯,你說我怎么就攤上這事航棱。” “怎么了萌衬?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵饮醇,是天一觀的道長。 經(jīng)常有香客問我秕豫,道長朴艰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任混移,我火速辦了婚禮祠墅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘歌径。我一直安慰自己毁嗦,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布回铛。 她就那樣靜靜地躺著狗准,像睡著了一般克锣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上驶俊,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天娶耍,我揣著相機(jī)與錄音,去河邊找鬼饼酿。 笑死榕酒,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的故俐。 我是一名探鬼主播想鹰,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼药版!你這毒婦竟也來了辑舷?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤槽片,失蹤者是張志新(化名)和其女友劉穎何缓,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體还栓,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡碌廓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了剩盒。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谷婆。...
    茶點(diǎn)故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖辽聊,靈堂內(nèi)的尸體忽然破棺而出纪挎,到底是詐尸還是另有隱情,我是刑警寧澤跟匆,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布异袄,位于F島的核電站,受9級特大地震影響贾铝,放射性物質(zhì)發(fā)生泄漏隙轻。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一垢揩、第九天 我趴在偏房一處隱蔽的房頂上張望玖绿。 院中可真熱鬧,春花似錦叁巨、人聲如沸斑匪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蚀瘸。三九已至狡蝶,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間贮勃,已是汗流浹背贪惹。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留寂嘉,地道東北人奏瞬。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像泉孩,于是被迫代替她去往敵國和親硼端。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評論 2 348