大數(shù)據(jù)學(xué)習(xí)-導(dǎo)言

斷斷續(xù)續(xù)的學(xué)了半年的大數(shù)據(jù),只是會搭池摧,會用焦除,可一回頭,感覺又啥都不會作彤,從頭記錄一下

大數(shù)據(jù)是當(dāng)前很火的一個技術(shù)方向膘魄,說白了,其實(shí)就是一系列工具的組合使用竭讳,構(gòu)建的更加完善创葡,形成了一套技術(shù)體系,當(dāng)然绢慢,技術(shù)只是這個方向很小的一個部分灿渴,個人比較關(guān)注和有興趣而已

大數(shù)據(jù)的技術(shù)體系

大數(shù)據(jù)的技術(shù)體系,總的來說從源頭到應(yīng)用可以分為以下幾個

1. 數(shù)據(jù)源呐芥,比如互聯(lián)網(wǎng)的各種數(shù)據(jù)逻杖,智能設(shè)備的數(shù)據(jù),社交思瘟、電商等

2.數(shù)據(jù)收集,對數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)進(jìn)行收集闻伶,我們只討論軟件方面所需的工具滨攻,比較流行的工具有Flume、Logstash蓝翰、 Sscribe

3. 數(shù)據(jù)存儲光绕,對上一步所收集到的數(shù)據(jù)進(jìn)行存儲,以便之后進(jìn)一步的分析畜份,常用的有HDFS(Hadoop自帶诞帐,主要為Hadoop自己提供更為方便的存儲,方便之后的計算)爆雹、Kafka(比較流行的分布式消息訂閱系統(tǒng)停蕉,可以把數(shù)據(jù)按照隊列的方式存儲愕鼓,便于后續(xù)程序消費(fèi),不是太熟悉慧起,以后進(jìn)行深入剖析)菇晃、Redis(一個分布式內(nèi)存數(shù)據(jù)庫,它的最大特點(diǎn)就是數(shù)據(jù)在內(nèi)存中存放蚓挤,存取速度快磺送,不過只適合臨時存放數(shù)據(jù)吧)、Hbase(典型的一個nosql數(shù)據(jù)庫灿意,目前的理解是可以作為hdfs的一個補(bǔ)充估灿,支持隨機(jī)讀寫)、MySQL(著名的關(guān)系型數(shù)據(jù)庫)缤剧、Oracle等

4.資源管理甲捏,對計算服務(wù)的各種資源進(jìn)行調(diào)配,以達(dá)到最大化利用集群性能的目的

5.計算層鞭执,對數(shù)據(jù)進(jìn)行處理司顿,以滿足各種業(yè)務(wù)需求。MapReduce(批處理計算框架兄纺,適合做大規(guī)模的離線計算)大溜,SparkStreaming(適用于流處理)、Storm(流處理)估脆、Flink(流處理)钦奋、SparkSQL(交互式數(shù)據(jù)分析)

6. 數(shù)據(jù)分析層,對處理后的數(shù)據(jù)進(jìn)行分析疙赠,為公司決策等各種場景提供參考意見付材。主要的技術(shù)有數(shù)據(jù)倉庫(Hive、Pig)圃阳、數(shù)據(jù)挖掘(SparkMLLib)厌衔、OLAP(在數(shù)據(jù)倉庫的基礎(chǔ)上進(jìn)行數(shù)據(jù)分析,比如Druid)

7.數(shù)據(jù)可視化捍岳,對最終結(jié)果以圖表等直觀方式進(jìn)行展示

應(yīng)用領(lǐng)域

大數(shù)據(jù)的應(yīng)用領(lǐng)域很廣富寿,簡單介紹:

1. 互聯(lián)網(wǎng)? 比如搜索引擎,推薦系統(tǒng)锣夹,廣告系統(tǒng)

以上列舉的三個互聯(lián)網(wǎng)的應(yīng)用有時候是沒有明顯界限的页徐,搜索引擎需要對海量網(wǎng)頁數(shù)據(jù)進(jìn)行處理,建立網(wǎng)頁數(shù)據(jù)庫银萍,并根據(jù)搜索結(jié)果進(jìn)行排名推薦变勇,根據(jù)關(guān)聯(lián)性推薦合適的廣告等

2.電商? 其實(shí)也算互聯(lián)網(wǎng)吧(個人理解) 應(yīng)用比如用戶畫像、推薦系統(tǒng)贴唇、行為分析等

對此了解不太多搀绣,就不多說了

3. 醫(yī)療領(lǐng)域? 主要有流行病預(yù)測飞袋、病情分析

4. 金融領(lǐng)域? ?主要有風(fēng)控系統(tǒng),欺詐分析

5.視頻領(lǐng)域? 主要有視頻分析豌熄、廣告系統(tǒng)授嘀、推薦系統(tǒng)

需要的技能

語言 Java(基本掌握)/Python(會用)/Scala(待深挖)

Linux常用命令、Shell編程

HDFS原理锣险、MapReduce原理及編程蹄皱、Yarn原理、Hadoop集群搭建

Hive原理芯肤、HQL巷折、自定義函數(shù)、數(shù)據(jù)倉庫設(shè)計

Spark原理崖咨、SparkStreaming編程锻拘、SparkSQL

Kafka原理、配置搭建击蹲、API接口開發(fā)及管理

Flume原理署拟、搭建

Zookeeper原理、搭建

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末歌豺,一起剝皮案震驚了整個濱河市推穷,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌类咧,老刑警劉巖馒铃,帶你破解...
    沈念sama閱讀 218,036評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異痕惋,居然都是意外死亡区宇,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評論 3 395
  • 文/潘曉璐 我一進(jìn)店門值戳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來议谷,“玉大人,你說我怎么就攤上這事述寡∈料叮” “怎么了?”我有些...
    開封第一講書人閱讀 164,411評論 0 354
  • 文/不壞的土叔 我叫張陵鲫凶,是天一觀的道長。 經(jīng)常有香客問我衩辟,道長螟炫,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,622評論 1 293
  • 正文 為了忘掉前任艺晴,我火速辦了婚禮昼钻,結(jié)果婚禮上掸屡,老公的妹妹穿的比我還像新娘。我一直安慰自己然评,他們只是感情好仅财,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,661評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著碗淌,像睡著了一般盏求。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上亿眠,一...
    開封第一講書人閱讀 51,521評論 1 304
  • 那天碎罚,我揣著相機(jī)與錄音,去河邊找鬼纳像。 笑死荆烈,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的竟趾。 我是一名探鬼主播憔购,決...
    沈念sama閱讀 40,288評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼岔帽!你這毒婦竟也來了玫鸟?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,200評論 0 276
  • 序言:老撾萬榮一對情侶失蹤山卦,失蹤者是張志新(化名)和其女友劉穎鞋邑,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體账蓉,經(jīng)...
    沈念sama閱讀 45,644評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡枚碗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,837評論 3 336
  • 正文 我和宋清朗相戀三年绩聘,在試婚紗的時候發(fā)現(xiàn)自己被綠了伍玖。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,953評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡梭稚,死狀恐怖箱玷,靈堂內(nèi)的尸體忽然破棺而出怨规,到底是詐尸還是另有隱情,我是刑警寧澤锡足,帶...
    沈念sama閱讀 35,673評論 5 346
  • 正文 年R本政府宣布波丰,位于F島的核電站,受9級特大地震影響舶得,放射性物質(zhì)發(fā)生泄漏掰烟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,281評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望纫骑。 院中可真熱鬧蝎亚,春花似錦、人聲如沸先馆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽煤墙。三九已至梅惯,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間番捂,已是汗流浹背个唧。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留设预,地道東北人徙歼。 一個月前我還...
    沈念sama閱讀 48,119評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像鳖枕,于是被迫代替她去往敵國和親魄梯。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,901評論 2 355

推薦閱讀更多精彩內(nèi)容