大數(shù)據(jù)學(xué)習(xí)路線(完整細(xì)節(jié)版)
大數(shù)據(jù)學(xué)習(xí)路線
java
(Java se,javaweb)
Linux(shell,高并發(fā)架構(gòu),lucene,solr)
Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)
機(jī)器學(xué)習(xí)(R,mahout)
Storm(Storm,kafka,redis)
Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)
Python(python,spark python)
云核算渠道(docker,kvm,openstack)
名詞解釋
一缩功、Linux
lucene: 全文檢索引擎的架構(gòu)
solr: 根據(jù)lucene的全文查找服務(wù)器甸鸟,完結(jié)了可裝備姻灶、可擴(kuò)展并對(duì)查詢功用進(jìn)行了優(yōu)化软能,而且供給了一個(gè)完善的功用辦理界面。
二、Hadoop
HDFS
: 分布式存儲(chǔ)體系,包含NameNode篱蝇,DataNode。NameNode:元數(shù)據(jù)徽曲,DataNode零截。DataNode:存數(shù)數(shù)據(jù)。
yarn: 能夠理解為MapReduce的和諧機(jī)制秃臣,本質(zhì)就是Hadoop的處理剖析機(jī)制涧衙,分為ResourceManager NodeManager。
MapReduce: 軟件結(jié)構(gòu)甜刻,編寫程序绍撞。
Hive: 數(shù)據(jù)倉庫 能夠用SQL查詢,能夠運(yùn)行Map/Reduce程序得院。用來核算趨勢(shì)或許網(wǎng)站日志,不該用于實(shí)時(shí)查詢章贞,需求很長(zhǎng)時(shí)刻回來成果祥绞。
HBase: 數(shù)據(jù)庫。十分合適用來做大數(shù)據(jù)的實(shí)時(shí)查詢鸭限。Facebook用Hbase存儲(chǔ)音訊數(shù)據(jù)并進(jìn)行音訊實(shí)時(shí)的剖析
ZooKeeper: 針對(duì)大型分布式的可靠性和諧體系蜕径。Hadoop的分布式同步等靠Zookeeper完結(jié),例如多個(gè)NameNode败京,active standby切換兜喻。
Sqoop: 數(shù)據(jù)庫彼此搬運(yùn),關(guān)系型數(shù)據(jù)庫和HDFS彼此搬運(yùn)
Mahout: 可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)發(fā)掘庫赡麦。用來做引薦發(fā)掘朴皆,集合,分類泛粹,頻頻項(xiàng)集發(fā)掘遂铡。
Chukwa: 開源搜集體系,監(jiān)督大型分布式體系晶姊,建立在HDFS和Map/Reduce結(jié)構(gòu)之上扒接。顯現(xiàn)、監(jiān)督、剖析成果钾怔。
Ambari: 用于裝備碱呼、辦理和監(jiān)督Hadoop集群,根據(jù)Web宗侦,界面友愛巍举。
二、Cloudera
Cloudera Manager: 辦理 監(jiān)控 確診 集成
Cloudera CDH:(Cloudera's Distribution凝垛,including Apache Hadoop) Cloudera對(duì)Hadoop做了相應(yīng)的改動(dòng)懊悯,發(fā)行版別稱為CDH。
Cloudera Flume: 日志搜集體系梦皮,支撐在日志體系中定制各類數(shù)據(jù)發(fā)送方炭分,用來搜集數(shù)據(jù)。
Cloudera Impala: 對(duì)存儲(chǔ)在Apache Hadoop的HDFS剑肯,HBase的數(shù)據(jù)供給直接查詢互動(dòng)的SQL捧毛。
Cloudera hue: web辦理器,包含hue ui让网,hui server呀忧,hui db。hue供給一切CDH組件的shell界面的接口溃睹,能夠在hue編寫mr而账。
三、機(jī)器學(xué)習(xí)/R
R
: 用于統(tǒng)計(jì)剖析因篇、繪圖的言語和操作環(huán)境泞辐,現(xiàn)在有Hadoop-R
mahout: 供給可擴(kuò)展的機(jī)器學(xué)習(xí)范疇經(jīng)典算法的完結(jié),包含聚類竞滓、分類咐吼、引薦過濾、頻頻子項(xiàng)發(fā)掘等商佑,且可經(jīng)過Hadoop擴(kuò)展到云中锯茄。
四、storm
Storm
: 分布式茶没,容錯(cuò)的實(shí)時(shí)流式核算體系肌幽,能夠用作實(shí)時(shí)剖析,在線機(jī)器學(xué)習(xí)礁叔,信息流處理牍颈,連續(xù)性核算,分布式RPC琅关,實(shí)時(shí)處理音訊并更新數(shù)據(jù)庫煮岁。
Kafka: 高吞吐量的分布式發(fā)布訂閱音訊體系讥蔽,能夠處理消費(fèi)者規(guī)劃的網(wǎng)站中的一切動(dòng)作流數(shù)據(jù)(閱讀,查找等)画机。相對(duì)Hadoop的日志數(shù)據(jù)和離線剖析冶伞,能夠完結(jié)實(shí)時(shí)處理。現(xiàn)在經(jīng)過Hadoop的并行加載機(jī)制來一致線上和離線的音訊處理
Redis: 由c言語編寫步氏,支撐網(wǎng)絡(luò)响禽、可根據(jù)內(nèi)存亦可耐久化的日志型、key-value型數(shù)據(jù)庫荚醒。
五芋类、Spark
Scala
: 一種類似java的徹底面向?qū)ο蟮木幊萄哉Z。
jblas: 一個(gè)快速的線性代數(shù)庫(JAVA)界阁。根據(jù)BLAS與LAPACK侯繁,矩陣核算實(shí)踐的行業(yè)標(biāo)準(zhǔn),并運(yùn)用先進(jìn)的根底設(shè)施等一切的核算程序的ATLAS藝術(shù)的完結(jié)泡躯,使其十分快贮竟。
Spark:?Spark是在Scala言語中完結(jié)的類似于Hadoop MapReduce的通用并行結(jié)構(gòu),除了Hadoop MapReduce所具有的長(zhǎng)處较剃,但不同于MapReduce的是job中心輸出成果能夠保存在內(nèi)存中咕别,從而不需求讀寫HDFS,因而Spark能更好的適用于數(shù)據(jù)發(fā)掘與機(jī)器學(xué)習(xí)等需求迭代的MapReduce算法写穴。能夠和Hadoop文件體系并行運(yùn)作惰拱,用過Mesos的第三方集群結(jié)構(gòu)能夠支撐此行為。
Spark SQL:?作為Apache Spark大數(shù)據(jù)結(jié)構(gòu)的一部分,可用于結(jié)構(gòu)化數(shù)據(jù)處理并能夠履行類似SQL的Spark數(shù)據(jù)查詢
Spark Streaming:一種構(gòu)建在Spark上的實(shí)時(shí)核算結(jié)構(gòu)确垫,擴(kuò)展了Spark處理大數(shù)據(jù)流式數(shù)據(jù)的才能弓颈。
Spark MLlib:?MLlib是Spark是常用的機(jī)器學(xué)習(xí)算法的完結(jié)庫,現(xiàn)在(2014.05)支撐二元分類删掀,回歸,聚類以及協(xié)同過濾导街。一起也包含一個(gè)底層的梯度下降優(yōu)化根底算法披泪。MLlib以來jblas線性代數(shù)庫,jblas自身以來長(zhǎng)途的Fortran程序搬瑰。
Spark GraphX:?GraphX是Spark中用于圖和圖并行核算的API款票,能夠在Spark之上供給一站式數(shù)據(jù)解決方案,能夠便利且高效地完結(jié)圖核算的一整套流水作業(yè)泽论。
Fortran: 最早呈現(xiàn)的核算機(jī)高檔程序設(shè)計(jì)言語艾少,廣泛應(yīng)用于科學(xué)和工程核算范疇。
BLAS: 根底線性代數(shù)子程序庫翼悴,具有很多現(xiàn)已編寫好的關(guān)于線性代數(shù)運(yùn)算的程序缚够。
LAPACK: 聞名的揭露軟件,包含了求解科學(xué)與工程核算中最常見的數(shù)值線性代數(shù)問題,如求解線性方程組谍椅、線性最小二乘問題误堡、特征值問題和奇特值問題等。
ATLAS: BLAS線性算法庫的優(yōu)化版別雏吭。
Spark Python: Spark是由scala言語編寫的锁施,但是為了推廣和兼容,供給了java和python接口杖们。
六悉抵、Python
Python
: 一種面向?qū)ο蟮摹⒔忉屝秃怂銠C(jī)程序設(shè)計(jì)言語摘完。
七姥饰、云核算渠道
Docker
: 開源的應(yīng)用容器引擎
kvm: (Keyboard Video Mouse)
openstack:? 開源的云核算辦理渠道項(xiàng)目
想要了解更多,加我扣扣 前面274中間395后面8831