斷斷續(xù)續(xù)的學(xué)了半年的大數(shù)據(jù),只是會搭池摧,會用焦除,可一回頭,感覺又啥都不會作彤,從頭記錄一下
大數(shù)據(jù)是當(dāng)前很火的一個技術(shù)方向膘魄,說白了,其實(shí)就是一系列工具的組合使用竭讳,構(gòu)建的更加完善创葡,形成了一套技術(shù)體系,當(dāng)然绢慢,技術(shù)只是這個方向很小的一個部分灿渴,個人比較關(guān)注和有興趣而已
大數(shù)據(jù)的技術(shù)體系
大數(shù)據(jù)的技術(shù)體系,總的來說從源頭到應(yīng)用可以分為以下幾個
1. 數(shù)據(jù)源呐芥,比如互聯(lián)網(wǎng)的各種數(shù)據(jù)逻杖,智能設(shè)備的數(shù)據(jù),社交思瘟、電商等
2.數(shù)據(jù)收集,對數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)進(jìn)行收集闻伶,我們只討論軟件方面所需的工具滨攻,比較流行的工具有Flume、Logstash蓝翰、 Sscribe
3. 數(shù)據(jù)存儲光绕,對上一步所收集到的數(shù)據(jù)進(jìn)行存儲,以便之后進(jìn)一步的分析畜份,常用的有HDFS(Hadoop自帶诞帐,主要為Hadoop自己提供更為方便的存儲,方便之后的計算)爆雹、Kafka(比較流行的分布式消息訂閱系統(tǒng)停蕉,可以把數(shù)據(jù)按照隊列的方式存儲愕鼓,便于后續(xù)程序消費(fèi),不是太熟悉慧起,以后進(jìn)行深入剖析)菇晃、Redis(一個分布式內(nèi)存數(shù)據(jù)庫,它的最大特點(diǎn)就是數(shù)據(jù)在內(nèi)存中存放蚓挤,存取速度快磺送,不過只適合臨時存放數(shù)據(jù)吧)、Hbase(典型的一個nosql數(shù)據(jù)庫灿意,目前的理解是可以作為hdfs的一個補(bǔ)充估灿,支持隨機(jī)讀寫)、MySQL(著名的關(guān)系型數(shù)據(jù)庫)缤剧、Oracle等
4.資源管理甲捏,對計算服務(wù)的各種資源進(jìn)行調(diào)配,以達(dá)到最大化利用集群性能的目的
5.計算層鞭执,對數(shù)據(jù)進(jìn)行處理司顿,以滿足各種業(yè)務(wù)需求。MapReduce(批處理計算框架兄纺,適合做大規(guī)模的離線計算)大溜,SparkStreaming(適用于流處理)、Storm(流處理)估脆、Flink(流處理)钦奋、SparkSQL(交互式數(shù)據(jù)分析)
6. 數(shù)據(jù)分析層,對處理后的數(shù)據(jù)進(jìn)行分析疙赠,為公司決策等各種場景提供參考意見付材。主要的技術(shù)有數(shù)據(jù)倉庫(Hive、Pig)圃阳、數(shù)據(jù)挖掘(SparkMLLib)厌衔、OLAP(在數(shù)據(jù)倉庫的基礎(chǔ)上進(jìn)行數(shù)據(jù)分析,比如Druid)
7.數(shù)據(jù)可視化捍岳,對最終結(jié)果以圖表等直觀方式進(jìn)行展示
應(yīng)用領(lǐng)域
大數(shù)據(jù)的應(yīng)用領(lǐng)域很廣富寿,簡單介紹:
1. 互聯(lián)網(wǎng)? 比如搜索引擎,推薦系統(tǒng)锣夹,廣告系統(tǒng)
以上列舉的三個互聯(lián)網(wǎng)的應(yīng)用有時候是沒有明顯界限的页徐,搜索引擎需要對海量網(wǎng)頁數(shù)據(jù)進(jìn)行處理,建立網(wǎng)頁數(shù)據(jù)庫银萍,并根據(jù)搜索結(jié)果進(jìn)行排名推薦变勇,根據(jù)關(guān)聯(lián)性推薦合適的廣告等
2.電商? 其實(shí)也算互聯(lián)網(wǎng)吧(個人理解) 應(yīng)用比如用戶畫像、推薦系統(tǒng)贴唇、行為分析等
對此了解不太多搀绣,就不多說了
3. 醫(yī)療領(lǐng)域? 主要有流行病預(yù)測飞袋、病情分析
4. 金融領(lǐng)域? ?主要有風(fēng)控系統(tǒng),欺詐分析
5.視頻領(lǐng)域? 主要有視頻分析豌熄、廣告系統(tǒng)授嘀、推薦系統(tǒng)
需要的技能
語言 Java(基本掌握)/Python(會用)/Scala(待深挖)
Linux常用命令、Shell編程
HDFS原理锣险、MapReduce原理及編程蹄皱、Yarn原理、Hadoop集群搭建
Hive原理芯肤、HQL巷折、自定義函數(shù)、數(shù)據(jù)倉庫設(shè)計
Spark原理崖咨、SparkStreaming編程锻拘、SparkSQL
Kafka原理、配置搭建击蹲、API接口開發(fā)及管理
Flume原理署拟、搭建
Zookeeper原理、搭建