大數(shù)據(jù)基礎(chǔ)之Hadoop和Spark

大數(shù)據(jù)基礎(chǔ)

第一節(jié):什么是大數(shù)據(jù)埋嵌,本質(zhì)雹嗦?
    (1)數(shù)據(jù)的存儲(chǔ):分布式文件系統(tǒng)(分布式存儲(chǔ))    
    (2)數(shù)據(jù)的計(jì)算:分布式計(jì)算

第二節(jié):JAVA和大數(shù)據(jù)是什么關(guān)系了罪?
    1、HADOOP:基于JAVA語(yǔ)言開(kāi)發(fā)
    2田藐、SPARK: 基于SCALA語(yǔ)言吱七,SCALA基于JAVA語(yǔ)言

第三節(jié):學(xué)習(xí)大數(shù)據(jù)需要的基礎(chǔ)和路線
    1踊餐、學(xué)習(xí)大數(shù)據(jù)需要的基礎(chǔ):JAVA基礎(chǔ)(JAVASE)---> 類吝岭、繼承周叮、I/O牍戚、反射、泛型*****
                             LINUX基礎(chǔ)(LINUX的操作)  ---> 創(chuàng)建文件失乾、目錄碱茁、VI編輯器***
                             
    2、學(xué)習(xí)路線:
        (1)JAVA基礎(chǔ)和LINUX基礎(chǔ)
        (2)HADOOP的學(xué)習(xí):體系結(jié)構(gòu)墓贿、原理募壕、編程
                (*)第一階段:HDFS语盈、MAPREDUCE刀荒、HBASE(NOSQL數(shù)據(jù)庫(kù))
                (*)第二階段:數(shù)據(jù)分析引擎 ---> HIVE、PIG
                               數(shù)據(jù)采集引擎 ---> SQOOP干毅、FLUME
                (*)第三階段:HUE:WEB管理工具
                               ZOOKEEPER:實(shí)現(xiàn)HADOOP的HA
                               OOZIE:    工作流引擎
        (3)SPARK的學(xué)習(xí)
                (*)第一個(gè)階段:SCALA編程語(yǔ)言
                (*)第二個(gè)階段:SPARK CORE-----> 基于內(nèi)存硝逢,數(shù)據(jù)的計(jì)算
                (*)第三個(gè)階段:SPARK SQL -----> 類似ORACLE中的SQL語(yǔ)句
                (*)第四個(gè)階段:SPARK STREAMING ---> 進(jìn)行實(shí)時(shí)計(jì)算(流式計(jì)算):比如:自來(lái)水廠
                
        (4)APACHE STORM:類似SPARK STREAMING ---> 進(jìn)行實(shí)時(shí)計(jì)算(流式計(jì)算):比如:自來(lái)水廠
                (*)NOSQL:REDIS基于內(nèi)存的數(shù)據(jù)庫(kù)

Hadoop背景起源一 HDFS

一渠鸽、什么是大數(shù)據(jù)柴罐,本質(zhì)革屠?
    (1)數(shù)據(jù)的存儲(chǔ):分布式文件系統(tǒng)(分布式存儲(chǔ))-----> HDFS: Hadoop Distributed File System
    (2)數(shù)據(jù)的計(jì)算:分布式計(jì)算
    
二排宰、如何解決大數(shù)據(jù)的存儲(chǔ)板甘?----> 分布式文件系統(tǒng)(HDFS虾啦,來(lái)源于GFS)
    舉例:網(wǎng)盤(pán)
    (1) GFS: 沒(méi)有硬盤(pán)的傲醉,數(shù)據(jù)只能存在內(nèi)存中
    (2) Hadoop的安裝模式
        (*)本地模式  :1臺(tái)
        (*)偽分布模式:1臺(tái)
        (*)全分布模式:3臺(tái)
HDFS存儲(chǔ)介紹

Hadoop背景起源二 MapReduce

一硬毕、如何解決大數(shù)據(jù)的計(jì)算礼仗?分布式計(jì)算
    (1)什么是PageRank(MapReduce的問(wèn)題的來(lái)源)
        (*) 搜索排名
    
    (2)MapReduce(Java語(yǔ)言實(shí)現(xiàn))基礎(chǔ)編程模型: 把一個(gè)大任務(wù)拆分成小任務(wù)元践,再進(jìn)行匯總
        (*) 更簡(jiǎn)單一點(diǎn)例子
MapReduce模型

Hadoop背景起源三 BigTable

第一節(jié):關(guān)系型數(shù)據(jù)庫(kù)(Oracle沪羔、MySQL、SQL Server)的特點(diǎn)
1蔫饰、什么是關(guān)系型數(shù)據(jù)庫(kù)篓吁?基于關(guān)系模型(基于二維表)所提出的一種數(shù)據(jù)庫(kù)
2杖剪、ER(Entity-Relationalship)模型:通過(guò)增加外鍵來(lái)減少數(shù)據(jù)的冗余
3驰贷、舉例:學(xué)生-系

第二節(jié):什么是BigTable饱苟?: 把所有的數(shù)據(jù)保存到一張表中箱熬,采用冗余 ---> 好處:提高效率
1、因?yàn)橛辛薭igtable的思想:NoSQL:HBase數(shù)據(jù)庫(kù)
2蚤认、HBase基于Hadoop的HDFS的
3糕伐、描述HBase的表結(jié)構(gòu)
關(guān)系型數(shù)據(jù)庫(kù)描述
HBase描述

Hadoop安裝

準(zhǔn)備實(shí)驗(yàn)的環(huán)境:
1陪汽、安裝Linux褥蚯、JDK
2赞庶、配置主機(jī)名、免密碼登錄
3澜薄、約定:安裝目錄:/root/training

安裝:
1摊册、解壓 : tar -zxvf hadoop-2.4.1.tar.gz -C /root/training/
2茅特、設(shè)置環(huán)境變量: vi ~/.bash_profile
        HADOOP_HOME=/root/training/hadoop-2.4.1
        export HADOOP_HOME

        PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
        export PATH
        
    生效環(huán)境變量: source ~/.bash_profile

第一節(jié):Hadoop的目錄結(jié)構(gòu)

第二節(jié):Hadoop的本地模式
    1、特點(diǎn):不具備HDFS饭庞,只能測(cè)試MapReduce程序
    2舟山、修改hadoop-env.sh
    
       修改第27行:export JAVA_HOME=/root/training/jdk1.7.0_75
       
    3卤恳、演示Demo: $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar
        命令:hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /root/data/input/data.txt  /root/data/output/wc
        日志:17/08/04 23:28:38 INFO mapreduce.Job:  map 100% reduce 100%
    
        注意:MR有一個(gè)默認(rèn)的排序規(guī)則

第三節(jié):Hadoop的偽分布模式
    1若债、特點(diǎn):具備Hadoop的所有功能蠢琳,在單機(jī)上模擬一個(gè)分布式的環(huán)境
             (1)HDFS:主:NameNode啊终,數(shù)據(jù)節(jié)點(diǎn):DataNode
             (2)Yarn:容器,運(yùn)行MapReduce程序
                        主節(jié)點(diǎn):ResourceManager
                        從節(jié)點(diǎn):NodeManager
                        
    2泰讽、步驟:
    (1)hdfs-site.xml
        <!--配置HDFS的冗余度-->
        <property>
          <name>dfs.replication</name>
          <value>1</value>
        </property>

        <!--配置是否檢查權(quán)限-->
        <property>
          <name>dfs.permissions</name>
          <value>false</value>
        </property> 

    (2)core-site.xml
        <!--配置HDFS的NameNode-->
        <property>
          <name>fs.defaultFS</name>
          <value>hdfs://192.168.88.11:9000</value>
        </property>

        <!--配置DataNode保存數(shù)據(jù)的位置-->
        <property>
          <name>hadoop.tmp.dir</name>
          <value>/root/training/hadoop-2.4.1/tmp</value>
        </property>     
        
        
    (3) mapred-site.xml
        <!--配置MR運(yùn)行的框架-->
        <property>
          <name>mapreduce.framework.name</name>
          <value>yarn</value>
        </property>     
        
    (4) yarn-site.xml
        <!--配置ResourceManager的地址-->
        <property>
          <name>yarn.resourcemanager.hostname</name>
          <value>192.168.88.11</value>
        </property>

        <!--配置NodeManager執(zhí)行任務(wù)的方式-->
        <property>
          <name>yarn.nodemanager.aux-services</name>
          <value>mapreduce_shuffle</value>
        </property>     
        
    (5) 格式化NameNode
        hdfs namenode -format
        日志:Storage directory /root/training/hadoop-2.4.1/tmp/dfs/name has been successfully formatted.
        
        
    (6) 啟動(dòng):start-all.sh
               (*) HDFS: 存儲(chǔ)數(shù)據(jù)
               (*) Yarn:執(zhí)行計(jì)算
               
    (7) 訪問(wèn):(*)命令行
              (*)Java API
              (*)Web Console:
                    HDFS:http://192.168.88.11:50070
                    Yarn:http://192.168.88.11:8088
本地模式配置
偽分布模式配置
Hadoop的目錄結(jié)構(gòu).png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末翎嫡,一起剝皮案震驚了整個(gè)濱河市惑申,隨后出現(xiàn)的幾起案子翅雏,更是在濱河造成了極大的恐慌望几,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件靴迫,死亡現(xiàn)場(chǎng)離奇詭異玉锌,居然都是意外死亡疟羹,警方通過(guò)查閱死者的電腦和手機(jī)榄融,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門愧杯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)力九,“玉大人,你說(shuō)我怎么就攤上這事业扒〕檀ⅲ” “怎么了臂寝?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵败徊,是天一觀的道長(zhǎng)掏缎。 經(jīng)常有香客問(wèn)我皱蹦,道長(zhǎng),這世上最難降的妖魔是什么眷蜈? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任沪哺,我火速辦了婚禮,結(jié)果婚禮上酌儒,老公的妹妹穿的比我還像新娘辜妓。我一直安慰自己,他們只是感情好忌怎,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布籍滴。 她就那樣靜靜地躺著,像睡著了一般榴啸。 火紅的嫁衣襯著肌膚如雪孽惰。 梳的紋絲不亂的頭發(fā)上灰瞻,一...
    開(kāi)封第一講書(shū)人閱讀 49,764評(píng)論 1 290
  • 那天璃弄,我揣著相機(jī)與錄音疏咐,去河邊找鬼借跪。 笑死,一個(gè)胖子當(dāng)著我的面吹牛果港,可吹牛的內(nèi)容都是我干的释牺。 我是一名探鬼主播猩谊,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼袁梗,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼淋袖!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎耕蝉,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡峦阁,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出闸英,到底是詐尸還是另有隱情遇伞,我是刑警寧澤加派,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布次乓,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏缘滥。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一搂捧、第九天 我趴在偏房一處隱蔽的房頂上張望提佣。 院中可真熱鬧潮针,春花似錦每篷、人聲如沸矗晃。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)周伦。三九已至寨腔,卻和暖如春乾蛤,著一層夾襖步出監(jiān)牢的瞬間上荡,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容