大數(shù)據(jù)基礎(chǔ)之Hadoop和Spark

大數(shù)據(jù)基礎(chǔ)

第一節(jié):什么是大數(shù)據(jù)埋嵌，本質(zhì)雹嗦？
    （1）數(shù)據(jù)的存儲(chǔ)：分布式文件系統(tǒng)（分布式存儲(chǔ)）    
    （2）數(shù)據(jù)的計(jì)算：分布式計(jì)算

第二節(jié)：JAVA和大數(shù)據(jù)是什么關(guān)系了罪？
    1、HADOOP：基于JAVA語(yǔ)言開(kāi)發(fā)
    2田藐、SPARK： 基于SCALA語(yǔ)言吱七，SCALA基于JAVA語(yǔ)言

第三節(jié)：學(xué)習(xí)大數(shù)據(jù)需要的基礎(chǔ)和路線
    1踊餐、學(xué)習(xí)大數(shù)據(jù)需要的基礎(chǔ)：JAVA基礎(chǔ)（JAVASE）---> 類吝岭、繼承周叮、I/O牍戚、反射、泛型*****
                             LINUX基礎(chǔ)（LINUX的操作）  ---> 創(chuàng)建文件失乾、目錄碱茁、VI編輯器***
                             
    2、學(xué)習(xí)路線：
        （1）JAVA基礎(chǔ)和LINUX基礎(chǔ)
        （2）HADOOP的學(xué)習(xí)：體系結(jié)構(gòu)墓贿、原理募壕、編程
                （*）第一階段：HDFS语盈、MAPREDUCE刀荒、HBASE（NOSQL數(shù)據(jù)庫(kù)）
                （*）第二階段：數(shù)據(jù)分析引擎 ---> HIVE、PIG
                               數(shù)據(jù)采集引擎 ---> SQOOP干毅、FLUME
                （*）第三階段：HUE：WEB管理工具
                               ZOOKEEPER：實(shí)現(xiàn)HADOOP的HA
                               OOZIE：    工作流引擎
        （3）SPARK的學(xué)習(xí)
                （*）第一個(gè)階段：SCALA編程語(yǔ)言
                （*）第二個(gè)階段：SPARK CORE-----> 基于內(nèi)存硝逢，數(shù)據(jù)的計(jì)算
                （*）第三個(gè)階段：SPARK SQL -----> 類似ORACLE中的SQL語(yǔ)句
                （*）第四個(gè)階段：SPARK STREAMING ---> 進(jìn)行實(shí)時(shí)計(jì)算（流式計(jì)算）：比如：自來(lái)水廠
                
        （4）APACHE STORM：類似SPARK STREAMING ---> 進(jìn)行實(shí)時(shí)計(jì)算（流式計(jì)算）：比如：自來(lái)水廠
                （*）NOSQL：REDIS基于內(nèi)存的數(shù)據(jù)庫(kù)

Hadoop背景起源一 HDFS

一渠鸽、什么是大數(shù)據(jù)柴罐，本質(zhì)革屠？
    （1）數(shù)據(jù)的存儲(chǔ)：分布式文件系統(tǒng)（分布式存儲(chǔ)）-----> HDFS: Hadoop Distributed File System
    （2）數(shù)據(jù)的計(jì)算：分布式計(jì)算
    
二排宰、如何解決大數(shù)據(jù)的存儲(chǔ)板甘？----> 分布式文件系統(tǒng)(HDFS虾啦，來(lái)源于GFS)
    舉例：網(wǎng)盤(pán)
    (1) GFS: 沒(méi)有硬盤(pán)的傲醉，數(shù)據(jù)只能存在內(nèi)存中
    (2) Hadoop的安裝模式
        （*）本地模式  ：1臺(tái)
        （*）偽分布模式：1臺(tái)
        （*）全分布模式：3臺(tái)

HDFS存儲(chǔ)介紹

Hadoop背景起源二 MapReduce

一硬毕、如何解決大數(shù)據(jù)的計(jì)算礼仗？分布式計(jì)算
    （1）什么是PageRank(MapReduce的問(wèn)題的來(lái)源)
        (*) 搜索排名
    
    （2）MapReduce（Java語(yǔ)言實(shí)現(xiàn)）基礎(chǔ)編程模型: 把一個(gè)大任務(wù)拆分成小任務(wù)元践，再進(jìn)行匯總
        (*) 更簡(jiǎn)單一點(diǎn)例子

MapReduce模型

Hadoop背景起源三 BigTable

第一節(jié)：關(guān)系型數(shù)據(jù)庫(kù)(Oracle沪羔、MySQL、SQL Server)的特點(diǎn)
1蔫饰、什么是關(guān)系型數(shù)據(jù)庫(kù)篓吁？基于關(guān)系模型（基于二維表）所提出的一種數(shù)據(jù)庫(kù)
2杖剪、ER（Entity-Relationalship）模型：通過(guò)增加外鍵來(lái)減少數(shù)據(jù)的冗余
3驰贷、舉例：學(xué)生-系

第二節(jié)：什么是BigTable饱苟？: 把所有的數(shù)據(jù)保存到一張表中箱熬，采用冗余 ---> 好處：提高效率
1、因?yàn)橛辛薭igtable的思想：NoSQL：HBase數(shù)據(jù)庫(kù)
2蚤认、HBase基于Hadoop的HDFS的
3糕伐、描述HBase的表結(jié)構(gòu)

關(guān)系型數(shù)據(jù)庫(kù)描述

HBase描述

Hadoop安裝

準(zhǔn)備實(shí)驗(yàn)的環(huán)境：
1陪汽、安裝Linux褥蚯、JDK
2赞庶、配置主機(jī)名、免密碼登錄
3澜薄、約定：安裝目錄：/root/training

安裝：
1摊册、解壓 : tar -zxvf hadoop-2.4.1.tar.gz -C /root/training/
2茅特、設(shè)置環(huán)境變量： vi ~/.bash_profile
        HADOOP_HOME=/root/training/hadoop-2.4.1
        export HADOOP_HOME

        PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
        export PATH
        
    生效環(huán)境變量： source ~/.bash_profile

第一節(jié)：Hadoop的目錄結(jié)構(gòu)

第二節(jié)：Hadoop的本地模式
    1、特點(diǎn)：不具備HDFS饭庞，只能測(cè)試MapReduce程序
    2舟山、修改hadoop-env.sh
    
       修改第27行：export JAVA_HOME=/root/training/jdk1.7.0_75
       
    3卤恳、演示Demo: $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar
        命令：hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /root/data/input/data.txt  /root/data/output/wc
        日志：17/08/04 23:28:38 INFO mapreduce.Job:  map 100% reduce 100%
    
        注意：MR有一個(gè)默認(rèn)的排序規(guī)則

第三節(jié)：Hadoop的偽分布模式
    1若债、特點(diǎn)：具備Hadoop的所有功能蠢琳，在單機(jī)上模擬一個(gè)分布式的環(huán)境
             （1）HDFS：主：NameNode啊终，數(shù)據(jù)節(jié)點(diǎn)：DataNode
             （2）Yarn：容器，運(yùn)行MapReduce程序
                        主節(jié)點(diǎn)：ResourceManager
                        從節(jié)點(diǎn)：NodeManager
                        
    2泰讽、步驟：
    （1）hdfs-site.xml
        <!--配置HDFS的冗余度-->
        <property>
          <name>dfs.replication</name>
          <value>1</value>
        </property>

        <!--配置是否檢查權(quán)限-->
        <property>
          <name>dfs.permissions</name>
          <value>false</value>
        </property> 

    （2）core-site.xml
        <!--配置HDFS的NameNode-->
        <property>
          <name>fs.defaultFS</name>
          <value>hdfs://192.168.88.11:9000</value>
        </property>

        <!--配置DataNode保存數(shù)據(jù)的位置-->
        <property>
          <name>hadoop.tmp.dir</name>
          <value>/root/training/hadoop-2.4.1/tmp</value>
        </property>     
        
        
    (3) mapred-site.xml
        <!--配置MR運(yùn)行的框架-->
        <property>
          <name>mapreduce.framework.name</name>
          <value>yarn</value>
        </property>     
        
    (4) yarn-site.xml
        <!--配置ResourceManager的地址-->
        <property>
          <name>yarn.resourcemanager.hostname</name>
          <value>192.168.88.11</value>
        </property>

        <!--配置NodeManager執(zhí)行任務(wù)的方式-->
        <property>
          <name>yarn.nodemanager.aux-services</name>
          <value>mapreduce_shuffle</value>
        </property>     
        
    (5) 格式化NameNode
        hdfs namenode -format
        日志：Storage directory /root/training/hadoop-2.4.1/tmp/dfs/name has been successfully formatted.
        
        
    (6) 啟動(dòng)：start-all.sh
               (*) HDFS: 存儲(chǔ)數(shù)據(jù)
               (*) Yarn：執(zhí)行計(jì)算
               
    (7) 訪問(wèn)：（*）命令行
              （*）Java API
              （*）Web Console：
                    HDFS：http://192.168.88.11:50070
                    Yarn：http://192.168.88.11:8088

本地模式配置

偽分布模式配置

Hadoop的目錄結(jié)構(gòu).png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末翎嫡，一起剝皮案震驚了整個(gè)濱河市惑申，隨后出現(xiàn)的幾起案子翅雏，更是在濱河造成了極大的恐慌望几，老刑警劉巖，帶你破解...
沈念sama閱讀 211,194評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件靴迫，死亡現(xiàn)場(chǎng)離奇詭異玉锌，居然都是意外死亡疟羹，警方通過(guò)查閱死者的電腦和手機(jī)榄融，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,058評(píng)論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門愧杯，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)力九，“玉大人，你說(shuō)我怎么就攤上這事业扒〕檀ⅲ” “怎么了臂寝？”我有些...
開(kāi)封第一講書(shū)人閱讀 156,780評(píng)論 0贊 346
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵败徊，是天一觀的道長(zhǎng)掏缎。經(jīng)常有香客問(wèn)我皱蹦，道長(zhǎng)，這世上最難降的妖魔是什么眷蜈？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,388評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任沪哺，我火速辦了婚禮，結(jié)果婚禮上酌儒，老公的妹妹穿的比我還像新娘辜妓。我一直安慰自己，他們只是感情好忌怎，可當(dāng)我...
茶點(diǎn)故事閱讀 65,430評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布籍滴。她就那樣靜靜地躺著，像睡著了一般榴啸。火紅的嫁衣襯著肌膚如雪孽惰。梳的紋絲不亂的頭發(fā)上灰瞻，一...
開(kāi)封第一講書(shū)人閱讀 49,764評(píng)論 1贊 290
城市分裂傳說(shuō)
那天璃弄，我揣著相機(jī)與錄音疏咐，去河邊找鬼借跪。笑死，一個(gè)胖子當(dāng)著我的面吹牛果港，可吹牛的內(nèi)容都是我干的释牺。我是一名探鬼主播猩谊，決...
沈念sama閱讀 38,907評(píng)論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼袁梗，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼淋袖！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 37,679評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎耕蝉，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,122評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡峦阁，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,459評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,605評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出闸英，到底是詐尸還是另有隱情遇伞，我是刑警寧澤加派，帶...
沈念sama閱讀 34,270評(píng)論 4贊 329
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布次乓，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏缘滥。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,867評(píng)論 3贊 312
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一搂捧、第九天我趴在偏房一處隱蔽的房頂上張望提佣。院中可真熱鬧潮针，春花似錦每篷、人聲如沸矗晃。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,734評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)周伦。三九已至寨腔，卻和暖如春乾蛤，著一層夾襖步出監(jiān)牢的瞬間上荡，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,961評(píng)論 1贊 265
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 46,297評(píng)論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,472評(píng)論 2贊 348

大數(shù)據(jù)基礎(chǔ)之Hadoop和Spark

大數(shù)據(jù)基礎(chǔ)

Hadoop背景起源一 HDFS

Hadoop背景起源二 MapReduce

Hadoop背景起源三 BigTable

Hadoop安裝

推薦閱讀更多精彩內(nèi)容