書籍1 實戰(zhàn)大數(shù)據(jù)（Hadoop+spark+Flink）1

這本書有8個章節(jié)伟恶，從基礎(chǔ)逐漸展開，但是書籍總共也只有236頁哼鬓，還包含了Hadoop监右、spark和Flink三個知識點。所以感覺講得可能不太會很深入异希。
這里畢竟是書籍的閱讀部分健盒，所以不管實用性強不強，書上說的這里都大概提一下称簿。
首先是第一章節(jié)：

大數(shù)據(jù)技術(shù)概述

1. 什么是大數(shù)據(jù)扣癣？

簡單說就是海量、高增長率和多樣化的信息資產(chǎn)憨降。

2. 大數(shù)據(jù)平臺架構(gòu)是什么父虑？

這里講得是一般企業(yè)的大數(shù)據(jù)平臺的一個組成
一般都是5層，數(shù)據(jù)獲取授药、數(shù)據(jù)儲存士嚎、資源的調(diào)度管理呜魄、數(shù)據(jù)分析、數(shù)據(jù)服務(wù)與可視化
數(shù)據(jù)獲取：數(shù)據(jù)總體上可以分為結(jié)構(gòu)化和非結(jié)構(gòu)化莱衩；結(jié)構(gòu)化數(shù)據(jù)就可以簡單理解為行數(shù)據(jù)爵嗅，非結(jié)構(gòu)化數(shù)據(jù)就是視頻啊，圖片之類的笨蚁。
來源不同睹晒，格式不同，那么獲取的技術(shù)肯定也是不同的括细。一般用戶的點擊數(shù)據(jù)就直接使用瀏覽器探針册招；網(wǎng)頁數(shù)據(jù)用爬蟲；MySQL數(shù)據(jù)庫的binlog日志用canal組件勒极；服務(wù)器日志就用flume組件；數(shù)據(jù)獲取后為了方便應(yīng)用虑鼎，都存入kafka消息中間件辱匿。
數(shù)據(jù)存儲
數(shù)據(jù)存儲是大數(shù)據(jù)的基礎(chǔ)，但是發(fā)展卻沒有CPU和內(nèi)存快炫彩，這就導(dǎo)致了硬盤儲存的速度不夠匾七，所以大數(shù)據(jù)平臺的很多調(diào)優(yōu)都是集中在磁盤I/O的調(diào)優(yōu)。這里舉個例子江兢，一個1TB的硬盤昨忆，傳輸速度是100M/s，那么需要2.5小時才可以傳輸完杉允。但是如果將硬盤分散到100個小硬盤里面儲存邑贴，并行讀取數(shù)據(jù)就可以在2分鐘讀完。這就涉及到了Hadoop的分布式文件系統(tǒng)HDFS和分布式列式數(shù)據(jù)庫HBase叔磷，后面會提及拢驾。
數(shù)據(jù)處理
大數(shù)據(jù)處理按執(zhí)行時間的跨度分為離線處理和實時處理。
離線處理就是批處理改基，時間跨度基本上是幾分鐘到數(shù)個小時之間繁疤。比如廣電計算收視率計算。早期的離線處理用的是MapReduce秕狰，缺陷就是編程復(fù)雜稠腊，速度慢。后來出現(xiàn)了Spark內(nèi)存計算框架和Flink實時計算框架鸣哀，就將其取代了架忌。這兩個框架在離線和實時處理上都有所應(yīng)用。離線上用得是spark core和Flink Dataset诺舔。
實時處理就是流處理鳖昌，處理時長就在幾秒以內(nèi)备畦，應(yīng)用的非常廣泛當(dāng)前比較流行的是Spark Streaming和Flink datastreaming。后面會細說许昨。
交互式分析 （數(shù)據(jù)處理2）
這個更像是交互式查詢而不是分析懂盐。在完成離線或?qū)崟r分析之后，需要根據(jù)不同的條件進行多維分析查詢糕档。像實時報表分析莉恼、實時大屏等等。
傳統(tǒng)的數(shù)據(jù)庫查詢速那，用的多是MySQL俐银、Oracle等，但是隨著數(shù)據(jù)量的增加端仰，這倆已經(jīng)不夠了捶惜。交互式查詢也采用了分布式技術(shù)。
機器學(xué)習(xí)和數(shù)據(jù)挖掘（數(shù)據(jù)分析3）
大數(shù)據(jù)開發(fā)有時也是會需要用到機器學(xué)習(xí)庫的荔烧，spark中的spark ml可以直接調(diào)用吱七，也可以用它做數(shù)據(jù)挖掘。
資源管理
本質(zhì)就是資源的統(tǒng)一管理和分配鹤竭。大數(shù)據(jù)場景下需要用到很多的框架踊餐，他們在使用時會出現(xiàn)干擾，這個時候就得有yarn這種通用的資源管理系統(tǒng)臀稚。

3. 大數(shù)據(jù)工程師的技能樹

主流開發(fā)語言是Java吝岭，Python主要就是用在業(yè)務(wù)數(shù)據(jù)的挖掘和分析上。
大數(shù)據(jù)平臺構(gòu)建也是一個重要能力吧寺，大數(shù)據(jù)平臺一般指Hadoop集群窜管，至少得會掌握Zookeeper分布式協(xié)調(diào)服務(wù)、HDFS分布式儲存系統(tǒng)撮执、YARN資源管理系統(tǒng)微峰。
大數(shù)據(jù)的采集：數(shù)據(jù)一般有兩種，一是數(shù)據(jù)庫抒钱，二是日志數(shù)據(jù)蜓肆。前者使用Sqoop、canal來完成谋币，后者使用flume來完成仗扬。
大數(shù)據(jù)的儲存與交換：HDFS在這方面其實優(yōu)勢不大，需要HBase來幫助蕾额，也經(jīng)常需要Kafka消息隊列來進行實時的消息中轉(zhuǎn)服務(wù)早芭。
大數(shù)據(jù)的離線和實時計算：離線計算需要掌握的技術(shù)有Hive、Spark Core诅蝶、Spark SQL退个、Flink DataSet募壕；實時計算需要掌握的技術(shù)有Spark Streaming和Flink DataStream。

4. 大數(shù)據(jù)項目需求分析與設(shè)計

4.1 需求項目分析

大數(shù)據(jù)的項目需求以數(shù)據(jù)為中心语盈，大體會分為以下幾個階段：場景舱馅、概念、細節(jié)和界面的需求分析刀荒。
以新聞大數(shù)據(jù)實時分析案例來看代嗤，具體需求如下：

采集新聞網(wǎng)站用戶的瀏覽信息
統(tǒng)計排名前十的新聞話題
分析每天哪些時段的瀏覽新聞量最高
分析每日新聞總量
上面的四個階段其實寫得有點復(fù)雜，實際操作時我們需要知道缠借，場景就是要我們明白系統(tǒng)的組織形式和大概功能是什么干毅；概念就是利于用戶的日志信息來分析相應(yīng)的需求結(jié)果；細節(jié)分析就是具體怎么做泼返；界面分析就是最后的展示環(huán)節(jié)了硝逢。
我們的整個系統(tǒng)會包含數(shù)據(jù)的采集、存儲绅喉、過濾清洗趴捅、統(tǒng)計分析和可視化

4.2 系統(tǒng)架構(gòu)設(shè)計

一般情況下完整的大數(shù)據(jù)平臺架構(gòu)包含數(shù)據(jù)獲取、數(shù)據(jù)存儲霹疫、資源管理、數(shù)據(jù)處理综芥、交互式分析丽蝎、機器學(xué)習(xí)與數(shù)據(jù)挖掘和數(shù)據(jù)服務(wù)與可視化。但具體的分析還得看需求膀藐，比如這里明顯就是不需要機器學(xué)習(xí)部分的屠阻，大體架構(gòu)如下：
我將其分為5層：

采集層：數(shù)據(jù)來源一般有2個。對于日志文件使用Flume额各，對于關(guān)系型數(shù)據(jù)庫用Sqoop国觉。
存儲層：需要用到Kafka的消息隊列、MySQL虾啦、HBase和HDFS麻诀。
計算層：這里要用到Flink（實時計算）、Spark（內(nèi)存計算）傲醉、MapReduce（離線計算）和Hive（數(shù)據(jù)倉庫）這里需要yarn來進行資源調(diào)度蝇闭。
以上這幾步還要用zookeeper來進行分布式協(xié)調(diào)服務(wù)，到后面服務(wù)層就需要統(tǒng)一一下訪問的接口（Java/Scala API）
服務(wù)層：查詢服務(wù)接口（HTTP+JSON）硬毕，處理流程呻引，查詢緩存（Redis）
應(yīng)用層：HUE、達芬奇吐咳、H5+Echarts（可視化）
以上步驟所使用的開發(fā)工具是IDEA Maven

4.3離線和實時計算數(shù)據(jù)流程設(shè)計

離線：用Flume采集日志服務(wù)器中的數(shù)據(jù)逻悠，然后寫入HBase數(shù)據(jù)庫元践，接著通過Hive和HBase集成對數(shù)據(jù)進行離線分析，并通過Sqoop通過離線結(jié)果導(dǎo)入MySQL數(shù)據(jù)庫童谒，最后應(yīng)用層讀取MySQL數(shù)據(jù)實現(xiàn)大屏展示单旁。
實時：同樣也是Flume采集日志數(shù)據(jù)，然后寫入Kafka消息隊列惠啄，接著使用spark streaming或Flink DataStream來對數(shù)據(jù)進行實時分析慎恒，分析結(jié)果放入MySQL，然后大屏展示撵渡。

以上就是書籍1的第一章大數(shù)據(jù)技術(shù)概述

最后編輯于：2022.10.07 09:43:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末融柬，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子趋距，更是在濱河造成了極大的恐慌粒氧，老刑警劉巖，帶你破解...
沈念sama閱讀 216,496評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件节腐，死亡現(xiàn)場離奇詭異外盯，居然都是意外死亡，警方通過查閱死者的電腦和手機翼雀，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,407評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門饱苟，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人狼渊，你說我怎么就攤上這事箱熬。” “怎么了狈邑？”我有些...
開封第一講書人閱讀 162,632評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵城须，是天一觀的道長。經(jīng)常有香客問我米苹，道長糕伐，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,180評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任蘸嘶，我火速辦了婚禮良瞧，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘训唱。我一直安慰自己莺褒，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,198評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布雪情。她就那樣靜靜地躺著遵岩，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上尘执，一...
開封第一講書人閱讀 51,165評論 1贊 299
城市分裂傳說
那天舍哄，我揣著相機與錄音，去河邊找鬼誊锭。笑死表悬，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的丧靡。我是一名探鬼主播蟆沫，決...
沈念sama閱讀 40,052評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼温治！你這毒婦竟也來了饭庞？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,910評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤熬荆，失蹤者是張志新（化名）和其女友劉穎舟山，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卤恳，經(jīng)...
沈念sama閱讀 45,324評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡累盗，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,542評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了突琳。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片若债。...
茶點故事閱讀 39,711評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖拆融，靈堂內(nèi)的尸體忽然破棺而出拆座，到底是詐尸還是另有隱情，我是刑警寧澤冠息，帶...
沈念sama閱讀 35,424評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站孕索，受9級特大地震影響逛艰，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜搞旭，卻給世界環(huán)境...
茶點故事閱讀 41,017評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一散怖、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧肄渗，春花似錦镇眷、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,668評論 0贊 22
一樁弒父案欠动，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春具伍，著一層夾襖步出監(jiān)牢的瞬間翅雏，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,823評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工人芽，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留望几，地道東北人。一個月前我還...
沈念sama閱讀 47,722評論 2贊 368
代替公主和親
正文我出身青樓萤厅，卻偏偏與公主長得像橄抹，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子惕味，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,611評論 2贊 353