阿里封神談hadoop學(xué)習(xí)之路-博客-云棲社區(qū)-阿里云 https://yq.aliyun.com/articles/28400?utm_campaign=wenzhang&utm_medium=article&utm_source=QQ-qun&utm_content=m_11999
初級
開始接觸hadoop弱匪,最好還是有語言工程等相關(guān)的基礎(chǔ)景用。如果工程能力、思維能力比較強窑邦,其實學(xué)習(xí)起來很快的周伦。
自己直接寫一些mapreduce、spark相關(guān)的代碼去解決一些業(yè)務(wù)問題
熟悉hadoop的基本理論知識
多看看官方的文檔
知曉大體的hadoop體系架構(gòu),每個角色能解決的問題
最好能體系的看下《Hadoop權(quán)威指南》
推薦的資料
hadoop生態(tài)資料太多娃胆,google一下一大把,筆者這里列出的都是基本的:首先推薦《hadoop權(quán)威指南》等曼,基本會講述hadoop生態(tài)的各個組件里烦,是不錯的書籍。再次就是各個軟件的官方文檔禁谦,例如:hadoop胁黑、spark、kafka州泊、
Hadoop基礎(chǔ)及ETL
主要包括Hadoop Yarn丧蘸、HDFS、Hadoop MapReudce遥皂、Hive力喷、Spark SQL等
書籍:《Spark大數(shù)據(jù)處理技術(shù)》
書籍:《Hive編程指南》
書籍:《Hadoop技術(shù)內(nèi)幕:深入解析YARN架構(gòu)設(shè)計與實現(xiàn)原理》
書籍:《Hadoop技術(shù)內(nèi)幕:深入解析Hadoop Common和HDFS架構(gòu)設(shè)計與實現(xiàn)原理》
書籍:《Hadoop技術(shù)內(nèi)幕:深入解析MapReduce架構(gòu)設(shè)計與實現(xiàn)原理》
論文:Bigtable: A Distributed Storage System for Structured Data
論文:MapReduce: Simplified Data Processing on Large Clusters
論文:The Google File System
論文:Spark: Cluster Computing with Working Sets
論文:Spark SQL: Relational Data Processing in Spark
博客:Spark源碼分析
流式實時處理技術(shù)
主要包括Jstorm、Spark Streaming
官方文檔:JStorm Chinese Documentation
官方文檔:Spark Streaming
大數(shù)據(jù)KV演训、MPP領(lǐng)域
主要包括的是Hbase弟孟、Impala
書籍: 《HBase權(quán)威指南》
官方文檔:Apache Impala