Spark學(xué)習(xí)筆記-1.故事要從那三篇論文說起

這年頭誰沒個(gè)故事呢!
Spark 也有!

起源

計(jì)算機(jī)科學(xué)大致分為4個(gè)領(lǐng)域:

  • 人工智能
  • 編程語言
  • 操作系統(tǒng)
  • 計(jì)算機(jī)理論

其中操作系統(tǒng)領(lǐng)域有兩個(gè)頂級(jí)會(huì)議

  1. ODSI (USENIX conference on Operating Systems Design and Implementation)
  2. SOSP (ACM Symposium on Operating Systems Principles)

相當(dāng)于操作系統(tǒng)的武林大會(huì)

如果把近幾十年關(guān)于這兩個(gè)大會(huì)提到的武功收錄到一本書

就可以看做是操作系統(tǒng)的絕世秘籍

毫不夸張的說 得此秘籍者 得天下

三篇論文

其中 一家成立不到三十年的小門派——Google

四年間分別在 ODSI 與 SOSP 發(fā)表了 3 篇論文

引起了整個(gè)武林對(duì)分布式系統(tǒng)的廣泛關(guān)注與討論

這三篇論文分別是:

SOSP2003—The Google File System

ODSI2004—MapReduce: Simplifed Data Processing on Large Clusters

ODSI2006—Bigtable: A Distributed Storage System for Structured Data

The Google File System 主要討論分布式文件系統(tǒng)

MapReduce 主要討論分布式計(jì)算框架

Bigtable 主要討論分布式數(shù)據(jù)存儲(chǔ)

有了這 三篇論文的理論基礎(chǔ)與后續(xù)的一系列文章

再加上開源社區(qū)強(qiáng)大的實(shí)戰(zhàn)能力

Hadoop嗓化、HDFS、MapReduce、HBase、Spark 等很快走上了臺(tái)前

大數(shù)據(jù)技術(shù)開始呈現(xiàn)出一個(gè)諸子百家的局面

HDFS

開源社區(qū)根據(jù)Google的第一篇論文"The Google File System"

實(shí)現(xiàn)了一個(gè)名為HDFS的分布式文件系統(tǒng)

任你武功招式再多 也逃不過最基礎(chǔ)的練功心法

HDFS就好比那最基礎(chǔ)的練功心法

而且是最上乘的 也是最容易掌握的

因HDFS的高容錯(cuò)性、高吞吐量、適合部署在廉價(jià)的機(jī)器上

這三招使其聲名大噪 成為了各家門派的基礎(chǔ)心法

就算練不成絕世武功

拿來修身養(yǎng)性也是可以的

MapReduce

我們常說的MapReduce指的就是

開源社區(qū)根據(jù)Google的第二篇論文 實(shí)現(xiàn)的一個(gè)分布式計(jì)算框架

但隨著練的人越來越來多 MapReduce的缺點(diǎn)也逐漸暴露出來

不少江湖人士反映 練一段時(shí)間后

怎么練都練不上去 非常容易產(chǎn)生瓶頸

于是乎 就開始有許多人在此功法上進(jìn)行修正及完善

新一代計(jì)算框架如 Spark、Flink 也就開始崛起

最初名為MapReduce的計(jì)算框架也逐漸退出歷史舞臺(tái)

只留在了老一輩江湖人士的記憶里

MapReduce還有另一層含義:一種編程模型

MapReduce 模型將數(shù)據(jù)處理方式抽象為 map 和 reduce

  • map 也就是映射 可以理解為數(shù)據(jù)一對(duì)一的映射
  • reduce 也就是歸約 可以理解為數(shù)據(jù)一對(duì)多的映射

如下圖所示

img

MapReduce認(rèn)為再?gòu)?fù)雜的數(shù)據(jù)處理流程也無非是這兩種映射方式的組合

img

這樣的編程模型為分布式的實(shí)現(xiàn)提供了可能

當(dāng)整個(gè)數(shù)據(jù)集的計(jì)算量超過一臺(tái)計(jì)算機(jī)處理的極限時(shí)

我們就會(huì)想辦法把不同的數(shù)據(jù)集交給不同的計(jì)算機(jī)完成

map過程 非常容易就可以把各個(gè)數(shù)據(jù)交給不同的計(jì)算機(jī)完成
不影響最終的結(jié)果

reduce過程 必然會(huì)涉及數(shù)據(jù)在不同計(jì)算機(jī)之間的傳輸
這也是MapReduce計(jì)算框架的分布式實(shí)現(xiàn)的一個(gè)關(guān)鍵點(diǎn)

HBase

開源社區(qū)根據(jù)Google的第三篇論文"Bigtable"

實(shí)現(xiàn)了一個(gè)名為HBase的分布式非結(jié)構(gòu)化數(shù)據(jù)庫(kù)

它不是運(yùn)行MapReduce任務(wù)來查詢存放在HDFS上的數(shù)據(jù)

而是使用自己的一套規(guī)則來存儲(chǔ)數(shù)據(jù)

所以運(yùn)行速度非痴螅快 適用于海量明細(xì)數(shù)據(jù)的實(shí)時(shí)查詢

由于HBase相較于HDFS、MapReduce誕生的比較晚

而且當(dāng)時(shí)又有諸多數(shù)據(jù)庫(kù)可代替

也就造成了HBase沒有像HDFS逝段、MapReduce那樣流行

故事就先說到這垛玻!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市奶躯,隨后出現(xiàn)的幾起案子帚桩,更是在濱河造成了極大的恐慌,老刑警劉巖巫糙,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件朗儒,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)醉锄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門乏悄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人恳不,你說我怎么就攤上這事檩小。” “怎么了烟勋?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵规求,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我卵惦,道長(zhǎng)阻肿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任沮尿,我火速辦了婚禮丛塌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘畜疾。我一直安慰自己赴邻,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布啡捶。 她就那樣靜靜地躺著姥敛,像睡著了一般。 火紅的嫁衣襯著肌膚如雪瞎暑。 梳的紋絲不亂的頭發(fā)上彤敛,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音了赌,去河邊找鬼臊泌。 笑死,一個(gè)胖子當(dāng)著我的面吹牛揍拆,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播茶凳,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼嫂拴,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了贮喧?” 一聲冷哼從身側(cè)響起筒狠,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎箱沦,沒想到半個(gè)月后辩恼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年灶伊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了疆前。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡聘萨,死狀恐怖竹椒,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情米辐,我是刑警寧澤胸完,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站翘贮,受9級(jí)特大地震影響赊窥,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜狸页,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一锨能、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧肴捉,春花似錦腹侣、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至窃页,卻和暖如春跺株,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背脖卖。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國(guó)打工乒省, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人畦木。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓袖扛,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親十籍。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蛆封,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353