數(shù)據(jù)分析課程筆記 - 16 - Hadoop & HIVE 入門

大家好呀~今天我們正式進(jìn)入“大數(shù)據(jù)分析”階段捆姜∩罕“大數(shù)據(jù)”這個(gè)詞一聽(tīng)就很高大上蜕便，但是學(xué)完這章內(nèi)容，你應(yīng)該就能破除對(duì)它的神秘幻想贩幻。所謂的大數(shù)據(jù)分析轿腺，其實(shí)不過(guò)就是數(shù)據(jù)多一點(diǎn)，需求復(fù)雜一點(diǎn)丛楚，SQL 語(yǔ)句長(zhǎng)一點(diǎn)而已族壳。所以千萬(wàn)不要怕，只要你 MySQL 部分學(xué)會(huì)了趣些，這章內(nèi)容根本難不倒你仿荆。

本節(jié)課我們主要學(xué)習(xí)一些大數(shù)據(jù)分析的概念、平臺(tái)、工具和底層的一些基礎(chǔ)知識(shí)赖歌。下節(jié)課我們才會(huì)正式進(jìn)入實(shí)操學(xué)習(xí)。

本節(jié)主要內(nèi)容：

1功茴、大數(shù)據(jù)分析簡(jiǎn)介
（1）什么是大數(shù)據(jù)
（2）大數(shù)據(jù)的特征
（3）為什么需要大數(shù)據(jù)分析
（4）大數(shù)據(jù)分析的商業(yè)驅(qū)動(dòng)因素

2庐冯、走進(jìn)Hadoop
（1）快速認(rèn)知 Hadoop
（2）HDFS：塊級(jí)別的分布式文件存儲(chǔ)系統(tǒng)
（3）MapReduce：分布式計(jì)算框架
（4）YARN：作業(yè)調(diào)度和資源管理器
（5）Hadoop 生態(tài)圈

3、走進(jìn)Hive
（1）Hive是什么坎穿？
（2）Hive與傳統(tǒng)數(shù)據(jù)庫(kù)的比較
（3）Hive的數(shù)據(jù)類型

4展父、拓展知識(shí)
（1）CentOS7系統(tǒng)的基本常識(shí)
（2）常用的Linux命令

一、大數(shù)據(jù)分析簡(jiǎn)介

1玲昧、什么是大數(shù)據(jù)栖茉？

大數(shù)據(jù) 這個(gè)名詞是近年來(lái)伴隨著以 Hadoop 為代表的?系列分布式計(jì)算框架的產(chǎn)生才流行起來(lái)的。大數(shù)據(jù)帶來(lái)的挑戰(zhàn)包括數(shù)據(jù)分析孵延、數(shù)據(jù)捕獲吕漂、數(shù)據(jù)治理、搜索尘应、共享惶凝、存儲(chǔ)、傳輸犬钢、可視化苍鲜、查詢、更新和信息安全等玷犹。術(shù)語(yǔ)大數(shù)據(jù)通常指的是應(yīng)用預(yù)測(cè)分析混滔，用戶行為分析，或者某些其他從數(shù)據(jù)中提取有價(jià)值信息的高級(jí)數(shù)據(jù)分析分法歹颓，并不是專指某種特定規(guī)模的數(shù)據(jù)集坯屿。

以上是維基百科對(duì)于大數(shù)據(jù)的定義。大家了解一下即可晴股。

2愿伴、大數(shù)據(jù)的特征

大數(shù)據(jù)分析的四個(gè)特征，簡(jiǎn)稱4V：

數(shù)據(jù)源和數(shù)據(jù)種類多樣（Variety）
數(shù)據(jù)產(chǎn)生和處理速度快（Velocity）
生成和存儲(chǔ)的數(shù)據(jù)量大（Volume）
精準(zhǔn)性（Veracity）

大數(shù)據(jù)4V特性

3电湘、為什么需要大數(shù)據(jù)分析隔节？

任何企業(yè)都不能否認(rèn)數(shù)據(jù)的重要性。企業(yè)一直都在收集大量的歷史數(shù)據(jù)寂呛，并將其保存在數(shù)據(jù)倉(cāng)庫(kù)中以便進(jìn)行分析怎诫。企業(yè)可以通過(guò)分析歷史數(shù)據(jù)來(lái)獲得新的增長(zhǎng)點(diǎn)，這也證明了數(shù)據(jù)的重要性贷痪。由于數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)規(guī)模的特點(diǎn)幻妓，使用傳統(tǒng)的數(shù)據(jù)庫(kù)和方法已經(jīng)很難有效地對(duì)大數(shù)據(jù)進(jìn)行分析，因?yàn)槲覀冃枰碌墓ぞ吆图夹g(shù)來(lái)存儲(chǔ)劫拢，管理和實(shí)現(xiàn)數(shù)據(jù)的商業(yè)價(jià)值肉津。

4强胰、大數(shù)據(jù)數(shù)據(jù)分析的商業(yè)驅(qū)動(dòng)因素

商業(yè)驅(qū)動(dòng)力	案例
優(yōu)化業(yè)務(wù)操作	銷售，報(bào)價(jià)妹沙，利潤(rùn)率偶洋，效率
識(shí)別業(yè)務(wù)風(fēng)險(xiǎn)	客戶流失，欺詐距糖，違約
預(yù)測(cè)新的商業(yè)機(jī)會(huì)	增值銷售玄窝，追加銷售，最佳的潛在新客戶
遵守法律或法規(guī)要求	反洗錢悍引，公平信貸

二恩脂、走進(jìn) Hadoop

1、快速認(rèn)知Hadoop

Hadoop是Apache基金組織下的?套開(kāi)源軟件平臺(tái)趣斤。
Hadoop提供的功能：利用服務(wù)器集群對(duì)海量數(shù)據(jù)進(jìn)行分布式處理俩块。
Hadoop的核心組件：HDFS、MapReduce唬渗、YARN典阵、Hadoop基礎(chǔ)功能庫(kù)。
廣義上來(lái)說(shuō)镊逝，Hadoop通常指的是指?個(gè)更廣泛的概念→Hadoop生態(tài)圈壮啊。

2、HDFS：塊級(jí)別的分布式文件存儲(chǔ)系統(tǒng)

第一次看到這個(gè)詞我也很懵撑蒜，什么是“塊級(jí)別”歹啼？什么是“分布式”？后來(lái)經(jīng)過(guò)老師的講解座菠，我差不多有了一些概念狸眼。

我們電腦里面數(shù)據(jù)是以單個(gè)文件為單位存儲(chǔ)在磁盤里的。而在 Hadoop 中浴滴，文件的存儲(chǔ)是由 HDFS 這個(gè)組件來(lái)負(fù)責(zé)的拓萌，它將文件以塊為單位分布式地存儲(chǔ)在多個(gè)服務(wù)器中。一個(gè)塊的大小默認(rèn)為128M升略。

假如我們現(xiàn)在有五臺(tái)服務(wù)器微王，有一個(gè)200M的文件，那么HDFS會(huì)把這個(gè)文件分成兩塊品嚣，一塊是128M炕倘，一塊是72M。并且它會(huì)給每一個(gè)塊復(fù)制三份翰撑，隨機(jī)地存儲(chǔ)在這五臺(tái)服務(wù)器中罩旋。

如果其中任意一臺(tái)服務(wù)器出問(wèn)題，那么HDFS組件會(huì)迅速地用別的服務(wù)器復(fù)制一份拷貝，使得每個(gè)塊時(shí)刻保持三份拷貝涨醋。

當(dāng)任何一臺(tái)服務(wù)器需要用這個(gè)文件的時(shí)候瓜饥，如果它本身沒(méi)有這個(gè)文件的任何一個(gè)塊，或者只有其中一個(gè)塊浴骂，它會(huì)從其他服務(wù)器中進(jìn)行拷貝压固，合并成完整的文件進(jìn)行使用。

更深入和細(xì)節(jié)的理解大家可以參考這篇文章：
https://blog.csdn.net/sjmz30071360/article/details/79877846

3靠闭、MapReduce：分布式計(jì)算框架

MapReduce是采用一種分而治之的思想設(shè)計(jì)出來(lái)的分布式計(jì)算框架。假如一個(gè)復(fù)雜的計(jì)算任務(wù)坎炼，單臺(tái)服務(wù)器無(wú)法勝任時(shí)愧膀，可以將這個(gè)大任務(wù)切分成一個(gè)個(gè)小的任務(wù)，小任務(wù)分別在不同的服務(wù)器上并行的執(zhí)行谣光；最終再匯總每個(gè)小任務(wù)的結(jié)果檩淋。

MapReduce 由兩個(gè)階段組成：Map階段（切分成?個(gè)個(gè)小的任務(wù)）、Reduce階段（匯總小任務(wù)的結(jié)果）萄金。

MapReduce

4蟀悦、YARN：作業(yè)調(diào)度和資源管理器

YARN 通俗理解就是服務(wù)器的“監(jiān)工”，負(fù)責(zé)監(jiān)控每臺(tái)服務(wù)器的狀態(tài)氧敢，并且給服務(wù)器安排和分配任務(wù)日戈。

5、Hadoop 生態(tài)圈

Hadoop生態(tài)圈

三孙乖、走進(jìn) HIVE

1浙炼、Hive是什么？

HIVE 是基于 Hadoop 的開(kāi)源的數(shù)據(jù)倉(cāng)庫(kù)工具唯袄，用于處理海量結(jié)構(gòu)化數(shù)據(jù)弯屈。

Hive把HDFS中結(jié)構(gòu)化的數(shù)據(jù)文件映射成數(shù)據(jù)表。

Hive通過(guò)把HiveSQL進(jìn)行解析和轉(zhuǎn)換恋拷，最終生成一系列在hadoop上運(yùn)行的mapreduce任務(wù)资厉，通過(guò)執(zhí)行這些任務(wù)完成數(shù)據(jù)分析與處理。

HiveSQL和MySQL一樣蔬顾，都遵循著SQL的標(biāo)準(zhǔn)宴偿，因此它們很多語(yǔ)句都是一樣的。

Hadoop和hive

2阎抒、Hive與傳統(tǒng)數(shù)據(jù)庫(kù)的比較

	Hive	RDBMS
查詢語(yǔ)言	HQL	SQL
數(shù)據(jù)存儲(chǔ)	HDFS	Raw Device or Local FS
執(zhí)行	MapReduce	Executor
執(zhí)行延遲	高	低
處理數(shù)據(jù)規(guī)模	大	小
索引	0.8版本后加入位圖索引	有復(fù)雜的索引

說(shuō)明：

數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)庫(kù)都是用來(lái)做數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析的酪我，對(duì)企業(yè)中的決策起到關(guān)鍵性的作用。
關(guān)系型數(shù)據(jù)庫(kù)容易遇到可拓展性瓶頸且叁，進(jìn)行向上拓展通常意味著要購(gòu)買性能更強(qiáng)勁的硬件設(shè)備都哭。
Hadoop很容易進(jìn)行集群的橫向拓展，便捷地進(jìn)行節(jié)點(diǎn)的退役與服役。
數(shù)據(jù)倉(cāng)庫(kù)中的歷史數(shù)據(jù)一般不會(huì)改變欺矫，因?yàn)槠渲饕脕?lái)記錄已經(jīng)發(fā)生的事實(shí)的數(shù)據(jù)纱新。
面向事務(wù)的聯(lián)機(jī)事務(wù)處理OLTP vs 面向分析的聯(lián)機(jī)分析處理OLAP。

3穆趴、Hive的數(shù)據(jù)類型

（1）基本數(shù)據(jù)類型

Hive基本數(shù)據(jù)類型

（2）復(fù)雜數(shù)據(jù)類型

Hive復(fù)雜數(shù)據(jù)類型

四脸爱、拓展知識(shí)

1、CentOS7系統(tǒng)的基本常識(shí)

CentOS7是?個(gè)Linux操作系統(tǒng)未妹，能夠同時(shí)登陸多個(gè)用戶簿废。這些用戶的文件互不相通。
Linux系統(tǒng)中络它，我們通過(guò)命令來(lái)和主機(jī)進(jìn)行交互族檬。
root用戶是Linux系統(tǒng)中的超級(jí)管理員。我們?般使用普通的用戶進(jìn)行操作化戳。
普通用戶的操作受到很多限制单料，各個(gè)用戶之間有?層權(quán)限保證操作的安全性。
學(xué)習(xí)好linux系統(tǒng)点楼，關(guān)鍵是掌握命令的使用扫尖。命令的基本格式：命令 -選項(xiàng) 參數(shù)。

2掠廓、常用 Linux 命令

這些命令之前學(xué)過(guò)《笨辦法學(xué)Python3》的同學(xué)應(yīng)該已經(jīng)很熟悉了换怖，可以再?gòu)?fù)習(xí)一下哈~

cd：切換目錄，進(jìn)入到某個(gè)目錄
1. cd /etc/ 表示進(jìn)入/etc這個(gè)目錄中
2. cd ../ 表示返回上一級(jí)目錄
3. cd 進(jìn)入當(dāng)前用戶的家目錄
su - 用戶名：切換用戶
查看當(dāng)前所在的目錄路徑：pwd
ls：列出目錄下的文件
ll：列出目錄下的文件
ifconfig：查看網(wǎng)卡的配置信息
mkdir：新建一個(gè)目錄/文件夾
touch：新建一個(gè)文件
vim：文件編輯器
1. 一般模式
2. 插入模式
3. 命令模式
rm -rf 文件：刪除文件/目錄

好啦蟀瞧，以上就是這節(jié)大數(shù)據(jù)分析入門課的全部?jī)?nèi)容啦狰域，歡迎大家一起加入大數(shù)據(jù)分析的世界，一起加油吧~

最后編輯于：2020.12.24 22:11:14

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末黄橘，一起剝皮案震驚了整個(gè)濱河市兆览，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌塞关，老刑警劉巖抬探，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異帆赢，居然都是意外死亡小压，警方通過(guò)查閱死者的電腦和手機(jī)降瞳，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門尔崔，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人忧换，你說(shuō)我怎么就攤上這事瘾婿◎呃危” “怎么了烤咧？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)抢呆。經(jīng)常有香客問(wèn)我煮嫌，道長(zhǎng)，這世上最難降的妖魔是什么抱虐？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任昌阿，我火速辦了婚禮，結(jié)果婚禮上恳邀，老公的妹妹穿的比我還像新娘懦冰。我一直安慰自己，他們只是感情好谣沸，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布儿奶。她就那樣靜靜地躺著，像睡著了一般鳄抒。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上椰弊，一...
開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說(shuō)
那天许溅，我揣著相機(jī)與錄音，去河邊找鬼秉版。笑死贤重，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的清焕。我是一名探鬼主播并蝗，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼秸妥！你這毒婦竟也來(lái)了滚停？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤粥惧，失蹤者是張志新（化名）和其女友劉穎键畴，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體突雪，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡起惕，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了咏删。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片惹想。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖督函，靈堂內(nèi)的尸體忽然破棺而出嘀粱，到底是詐尸還是另有隱情激挪，我是刑警寧澤，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布草穆，位于F島的核電站灌灾，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏悲柱。R本人自食惡果不足惜锋喜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望豌鸡。院中可真熱鬧嘿般，春花似錦、人聲如沸涯冠。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)蛇更。三九已至瞻赶，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間派任，已是汗流浹背砸逊。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留掌逛，地道東北人师逸。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像豆混，于是被迫代替她去往敵國(guó)和親篓像。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345