大數(shù)據(jù)學(xué)習(xí)筆記0：大數(shù)據(jù)基本框架

本文首發(fā)于泊浮目的簡書:http://www.reibang.com/u/204b8aaab8ba

版本	日期	備注
1.0	2021.5.9	文章首發(fā)

這是我的學(xué)習(xí)筆記订讼，大量摘抄網(wǎng)上、書本里的內(nèi)容聊疲，將我自己認(rèn)為關(guān)聯(lián)度較高的內(nèi)容呈現(xiàn)上來毫蚓。

大數(shù)據(jù)從數(shù)據(jù)源開始，經(jīng)過分析蹲姐、挖掘到最終獲得價值一般需要經(jīng)過6個主要環(huán)節(jié)磨取，包括數(shù)據(jù)收集、數(shù)據(jù)存儲柴墩、資源管理與服務(wù)協(xié)調(diào)忙厌、計算引擎、數(shù)據(jù)分析和數(shù)據(jù)可視化江咳，技術(shù)體系如圖所示逢净。每個環(huán)節(jié)都面臨不同程度的技術(shù)挑戰(zhàn)。

數(shù)據(jù)源

數(shù)據(jù)收集層由直接跟數(shù)據(jù)源對接的模塊構(gòu)成，負(fù)責(zé)將數(shù)據(jù)源中的數(shù)據(jù)近實時或?qū)崟r收集到一起汹胃。數(shù)據(jù)源具有分布式婶芭、異構(gòu)性、多樣化及流式產(chǎn)生等特點：
? 分布式：數(shù)據(jù)源通常分布在不同機器或設(shè)備上着饥，并通過網(wǎng)絡(luò)連接在一起犀农。
? 異構(gòu)性：任何能夠產(chǎn)生數(shù)據(jù)的系統(tǒng)均可以稱為數(shù)據(jù)源，比如Web服務(wù)器宰掉、數(shù)據(jù)庫呵哨、傳感器、手環(huán)轨奄、視頻攝像頭等孟害。
? 多樣化：數(shù)據(jù)的格式是多種多種多樣的，既有像用戶基本信息這樣的關(guān)系型數(shù)據(jù)挪拟，也有如圖片挨务、音頻和視頻等非關(guān)系型數(shù)據(jù)。
? 流式產(chǎn)生：數(shù)據(jù)源如同“水龍頭”一樣玉组，會源源不斷地產(chǎn)生“流水”（數(shù)據(jù)）谎柄，而數(shù)據(jù)收集系統(tǒng)應(yīng)實時或近實時地將數(shù)據(jù)發(fā)送到后端，以便及時對數(shù)據(jù)進(jìn)行分析惯雳。

數(shù)據(jù)收集層

? 主要由關(guān)系型與非關(guān)系型數(shù)據(jù)收集組件朝巫，分布式消息隊列構(gòu)成。
? Sqoop/Canal：關(guān)系型數(shù)據(jù)收集和導(dǎo)入工具石景，是連接關(guān)系型數(shù)據(jù)庫（比如MySQL）和Hadoop（比如HDFS）的橋梁劈猿，Sqoop可將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)全量導(dǎo)入Hadoop，反之亦可潮孽，而Canal則可用于實現(xiàn)數(shù)據(jù)的增量導(dǎo)入揪荣。
? Flume：非關(guān)系型數(shù)據(jù)收集工具，主要是流式日志數(shù)據(jù)恩商，可近實時收集变逃，經(jīng)過濾必逆，聚集后加載到HDFS等存儲系統(tǒng)怠堪。
? Kafka：分布式消息隊列，一般作為數(shù)據(jù)總線使用名眉，它允許多個數(shù)據(jù)消費者訂閱并獲取感興趣的數(shù)據(jù)粟矿。相比于其他消息隊列，它采用分布式高容錯設(shè)計损拢，更適合大數(shù)據(jù)應(yīng)用場景陌粹。

數(shù)據(jù)儲存層

在大數(shù)據(jù)時代，由于數(shù)據(jù)收集系統(tǒng)會將各類數(shù)據(jù)源源不斷地發(fā)到中央化存儲系統(tǒng)中福压，這對數(shù)據(jù)存儲層的擴展性掏秩、容錯性及存儲模型等有較高要求或舞，總結(jié)如下：
? 擴展性：在實際應(yīng)用中，數(shù)據(jù)量會不斷增加蒙幻，現(xiàn)有集群的存儲能力很快將達(dá)到上限映凳，此時需要增加新的機器擴充存儲能力，這要求存儲系統(tǒng)本身具備非常好的線性擴展能力邮破。
? 容錯性：考慮到成本等因素诈豌，大數(shù)據(jù)系統(tǒng)從最初就假設(shè)構(gòu)建在廉價機器上，這就要求系統(tǒng)本身就有良好的容錯機制確保在機器出現(xiàn)故障時不會導(dǎo)致數(shù)據(jù)丟失抒和。
? 存儲模型：由于數(shù)據(jù)具有多樣性矫渔，數(shù)據(jù)存儲層應(yīng)支持多種數(shù)據(jù)模型，確保結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)能夠很容易保存下來摧莽。

典型的應(yīng)用：

HDFS
Kudu
HBase

資源管理與服務(wù)協(xié)調(diào)層

主要是為了解決：

資源利用率
運維成本高

Iaas庙洼、K8S、Omega都屬于這一層镊辕。

計算引擎層

計算引擎層是大數(shù)據(jù)技術(shù)中最活躍的一層送膳，直到今天，仍不斷有新的計算引擎被提出丑蛤。總體上講叠聋，可按照對時間性能的要求，將計算引擎分為三類：

? 批處理：該類計算引擎對時間要求最低受裹，一般處理時間為分鐘到小時級別碌补，甚至天級別，它追求的是高吞吐率棉饶，即單位時間內(nèi)處理的數(shù)據(jù)量盡可能大厦章，典型的應(yīng)用有搜索引擎構(gòu)建索引、批量數(shù)據(jù)分析等照藻。
? 交互式處理：該類計算引擎對時間要求比較高袜啃，一般要求處理時間為秒級別，這類系統(tǒng)需要跟人進(jìn)行交互幸缕，因此會提供類SQL的語言便于用戶使用群发，典型的應(yīng)用有數(shù)據(jù)查詢、參數(shù)化報表生成等发乔。
? 實時處理：該類計算引擎對時間要求最高熟妓，一般處理延遲在秒級以內(nèi)，典型的應(yīng)用有廣告系統(tǒng)栏尚、輿情監(jiān)測等起愈。

數(shù)據(jù)分析層

數(shù)據(jù)分析層直接跟用戶應(yīng)用程序?qū)樱瑸槠涮峁┮子玫臄?shù)據(jù)處理工具。為了讓用戶分析數(shù)據(jù)更加容易抬虽，計算引擎會提供多樣化的工具官觅，包括應(yīng)用程序API、類SQL查詢語言阐污、數(shù)據(jù)挖掘SDK等缰猴。

在解決實際問題時，數(shù)據(jù)科學(xué)家往往需根據(jù)應(yīng)用的特點疤剑，從數(shù)據(jù)分析層選擇合適的工具滑绒，大部分情況下，可能會結(jié)合使用多種工具隘膘，典型的使用模式是：首先使用批處理框架對原始海量數(shù)據(jù)進(jìn)行分析疑故，產(chǎn)生較小規(guī)模的數(shù)據(jù)集，在此基礎(chǔ)上弯菊，再使用交互式處理工具對該數(shù)據(jù)集進(jìn)行快速查詢纵势，獲取最終結(jié)果。

數(shù)據(jù)可視化層

數(shù)據(jù)可視化層是直接面向用戶展示結(jié)果的一層管钳，由于該層直接對接用戶钦铁，是展示大數(shù)據(jù)價值的“門戶”，因此數(shù)據(jù)可視化是極具意義的才漆∨２埽考慮到大數(shù)據(jù)具有容量大、結(jié)構(gòu)復(fù)雜和維度多等特點醇滥，對大數(shù)據(jù)進(jìn)行可視化是極具挑戰(zhàn)性的黎比。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市鸳玩，隨后出現(xiàn)的幾起案子阅虫，更是在濱河造成了極大的恐慌，老刑警劉巖不跟，帶你破解...
沈念sama閱讀 221,198評論 6贊 514
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件颓帝，死亡現(xiàn)場離奇詭異，居然都是意外死亡窝革，警方通過查閱死者的電腦和手機购城，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,334評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來聊闯，“玉大人工猜，你說我怎么就攤上這事×馐撸” “怎么了？”我有些...
開封第一講書人閱讀 167,643評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長拴泌。經(jīng)常有香客問我魏身，道長，這世上最難降的妖魔是什么蚪腐？我笑而不...
開封第一講書人閱讀 59,495評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任箭昵，我火速辦了婚禮，結(jié)果婚禮上回季，老公的妹妹穿的比我還像新娘家制。我一直安慰自己，他們只是感情好泡一，可當(dāng)我...
茶點故事閱讀 68,502評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布颤殴。她就那樣靜靜地躺著，像睡著了一般鼻忠。火紅的嫁衣襯著肌膚如雪涵但。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,156評論 1贊 308
城市分裂傳說
那天帖蔓，我揣著相機與錄音矮瘟，去河邊找鬼。笑死塑娇，一個胖子當(dāng)著我的面吹牛澈侠，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播埋酬，決...
沈念sama閱讀 40,743評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼埋涧，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了奇瘦？” 一聲冷哼從身側(cè)響起棘催，我...
開封第一講書人閱讀 39,659評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎耳标，沒想到半個月后醇坝，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,200評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡次坡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,282評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年呼猪，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片砸琅。...
茶點故事閱讀 40,424評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡宋距，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出症脂，到底是詐尸還是另有隱情谚赎，我是刑警寧澤淫僻，帶...
沈念sama閱讀 36,107評論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站壶唤，受9級特大地震影響雳灵，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜闸盔，卻給世界環(huán)境...
茶點故事閱讀 41,789評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一悯辙、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧迎吵，春花似錦躲撰、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,264評論 0贊 23
一樁弒父案拢蛋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至荡灾，卻和暖如春瓤狐，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背批幌。一陣腳步聲響...
開封第一講書人閱讀 33,390評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工础锐，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人荧缘。一個月前我還...
沈念sama閱讀 48,798評論 3贊 376
代替公主和親
正文我出身青樓皆警，卻偏偏與公主長得像，于是被迫代替她去往敵國和親截粗。傳聞我的和親對象是個殘疾皇子信姓，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,435評論 2贊 359