最近在看《Hadoop徹底入門 第2版》這本書,看到了第四章,覺得作者寫書的條理,邏輯非常清晰萍虽,所以作為讀書筆記把里面的內(nèi)容試著回憶寫下來。
P.S.書的鏈接如下:
第一章里寫的Hadoop和RDBMS的適用場景形真,我覺得把Hadoop的適用場景比較清晰地描繪出來了杉编,試著邊回憶邊記錄于下:
一、處理數(shù)據(jù)量
Hadoop:TB~PB量級
傳統(tǒng)RDBMS:GB~TB量級
二咆霜、數(shù)據(jù)類型
Hadoop:結(jié)構(gòu)化數(shù)據(jù)&非結(jié)構(gòu)化數(shù)據(jù)
傳統(tǒng)RDBMS:結(jié)構(gòu)化數(shù)據(jù)
三邓馒、訪問類型與頻度
Hadoop:一次性寫入,之后以讀為主蛾坯,基本不更新光酣。針對順序讀取進(jìn)行性能優(yōu)化(Block Size大)
傳統(tǒng)RDBMS:可讀可寫(Block Size小)
四脉课、擴(kuò)展性
Hadoop:用普通IA Server即可橫向擴(kuò)展救军。擴(kuò)展至上千臺服務(wù)器都沒問題
傳統(tǒng)RDBMS:考慮到擴(kuò)展后管理及同步的處理復(fù)雜性,一般在10臺以內(nèi)進(jìn)行擴(kuò)展
五倘零、響應(yīng)時間
Hadoop:響應(yīng)時間長唱遭,適用于批處理,不適用于實時處理
傳統(tǒng)RDBMS:響應(yīng)時間短呈驶,即可用于實時處理拷泽,也可用于批處理
另外在搜Amazon上的書的時候,發(fā)現(xiàn)用于企業(yè)級大數(shù)據(jù)架構(gòu)的新產(chǎn)品Datalake的書似乎快出來了俐东,于2017/9/25預(yù)計發(fā)售跌穗。