大家好呀~今天我們正式進(jìn)入“大數(shù)據(jù)分析”階段捆姜∩罕“大數(shù)據(jù)”這個(gè)詞一聽(tīng)就很高大上蜕便,但是學(xué)完這章內(nèi)容,你應(yīng)該就能破除對(duì)它的神秘幻想贩幻。所謂的大數(shù)據(jù)分析轿腺,其實(shí)不過(guò)就是數(shù)據(jù)多一點(diǎn),需求復(fù)雜一點(diǎn)丛楚,SQL 語(yǔ)句長(zhǎng)一點(diǎn)而已族壳。所以千萬(wàn)不要怕,只要你 MySQL 部分學(xué)會(huì)了趣些,這章內(nèi)容根本難不倒你仿荆。
本節(jié)課我們主要學(xué)習(xí)一些大數(shù)據(jù)分析的概念、平臺(tái)、工具和底層的一些基礎(chǔ)知識(shí)赖歌。下節(jié)課我們才會(huì)正式進(jìn)入實(shí)操學(xué)習(xí)。
本節(jié)主要內(nèi)容:
1功茴、大數(shù)據(jù)分析簡(jiǎn)介
(1)什么是大數(shù)據(jù)
(2)大數(shù)據(jù)的特征
(3)為什么需要大數(shù)據(jù)分析
(4)大數(shù)據(jù)分析的商業(yè)驅(qū)動(dòng)因素
2庐冯、走進(jìn)Hadoop
(1)快速認(rèn)知 Hadoop
(2)HDFS:塊級(jí)別的分布式文件存儲(chǔ)系統(tǒng)
(3)MapReduce:分布式計(jì)算框架
(4)YARN:作業(yè)調(diào)度和資源管理器
(5)Hadoop 生態(tài)圈
3、走進(jìn)Hive
(1)Hive是什么坎穿?
(2)Hive與傳統(tǒng)數(shù)據(jù)庫(kù)的比較
(3)Hive的數(shù)據(jù)類型
4展父、拓展知識(shí)
(1)CentOS7系統(tǒng)的基本常識(shí)
(2)常用的Linux命令
一、大數(shù)據(jù)分析簡(jiǎn)介
1玲昧、什么是大數(shù)據(jù)栖茉?
大數(shù)據(jù) 這個(gè)名詞是近年來(lái)伴隨著以 Hadoop 為代表的?系列分布式計(jì)算框架的產(chǎn)生才流行起來(lái)的。大數(shù)據(jù)帶來(lái)的挑戰(zhàn)包括數(shù)據(jù)分析孵延、數(shù)據(jù)捕獲吕漂、數(shù)據(jù)治理、搜索尘应、共享惶凝、存儲(chǔ)、傳輸犬钢、可視化苍鲜、查詢、更新和信息安全等玷犹。術(shù)語(yǔ)大數(shù)據(jù)通常指的是應(yīng)用預(yù)測(cè)分析混滔,用戶行為分析,或者某些其他從數(shù)據(jù)中提取有價(jià)值信息的高級(jí)數(shù)據(jù)分析分法歹颓,并不是專指某種特定規(guī)模的數(shù)據(jù)集坯屿。
以上是維基百科對(duì)于大數(shù)據(jù)的定義。大家了解一下即可晴股。
2愿伴、大數(shù)據(jù)的特征
大數(shù)據(jù)分析的四個(gè)特征,簡(jiǎn)稱4V:
- 數(shù)據(jù)源和數(shù)據(jù)種類多樣(Variety)
- 數(shù)據(jù)產(chǎn)生和處理速度快(Velocity)
- 生成和存儲(chǔ)的數(shù)據(jù)量大(Volume)
- 精準(zhǔn)性(Veracity)
3电湘、為什么需要大數(shù)據(jù)分析隔节?
任何企業(yè)都不能否認(rèn)數(shù)據(jù)的重要性。企業(yè)一直都在收集大量的歷史數(shù)據(jù)寂呛,并將其保存在數(shù)據(jù)倉(cāng)庫(kù)中以便進(jìn)行分析怎诫。企業(yè)可以通過(guò)分析歷史數(shù)據(jù)來(lái)獲得新的增長(zhǎng)點(diǎn),這也證明了數(shù)據(jù)的重要性贷痪。由于數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)規(guī)模的特點(diǎn)幻妓,使用傳統(tǒng)的數(shù)據(jù)庫(kù)和方法已經(jīng)很難有效地對(duì)大數(shù)據(jù)進(jìn)行分析,因?yàn)槲覀冃枰碌墓ぞ吆图夹g(shù)來(lái)存儲(chǔ)劫拢,管理和實(shí)現(xiàn)數(shù)據(jù)的商業(yè)價(jià)值肉津。
4强胰、大數(shù)據(jù)數(shù)據(jù)分析的商業(yè)驅(qū)動(dòng)因素
商業(yè)驅(qū)動(dòng)力 | 案例 |
---|---|
優(yōu)化業(yè)務(wù)操作 | 銷售,報(bào)價(jià)妹沙,利潤(rùn)率偶洋,效率 |
識(shí)別業(yè)務(wù)風(fēng)險(xiǎn) | 客戶流失,欺詐距糖,違約 |
預(yù)測(cè)新的商業(yè)機(jī)會(huì) | 增值銷售玄窝,追加銷售,最佳的潛在新客戶 |
遵守法律或法規(guī)要求 | 反洗錢悍引,公平信貸 |
二恩脂、走進(jìn) Hadoop
1、快速認(rèn)知Hadoop
- Hadoop是Apache基金組織下的?套開(kāi)源軟件平臺(tái)趣斤。
- Hadoop提供的功能:利用服務(wù)器集群對(duì)海量數(shù)據(jù)進(jìn)行分布式處理俩块。
- Hadoop的核心組件:HDFS、MapReduce唬渗、YARN典阵、Hadoop基礎(chǔ)功能庫(kù)。
- 廣義上來(lái)說(shuō)镊逝,Hadoop通常指的是指?個(gè)更廣泛的概念→Hadoop生態(tài)圈壮啊。
2、HDFS:塊級(jí)別的分布式文件存儲(chǔ)系統(tǒng)
第一次看到這個(gè)詞我也很懵撑蒜,什么是“塊級(jí)別”歹啼?什么是“分布式”?后來(lái)經(jīng)過(guò)老師的講解座菠,我差不多有了一些概念狸眼。
我們電腦里面數(shù)據(jù)是以單個(gè)文件為單位存儲(chǔ)在磁盤里的。而在 Hadoop 中浴滴,文件的存儲(chǔ)是由 HDFS 這個(gè)組件來(lái)負(fù)責(zé)的拓萌,它將文件以塊為單位分布式地存儲(chǔ)在多個(gè)服務(wù)器中。一個(gè)塊的大小默認(rèn)為128M升略。
假如我們現(xiàn)在有五臺(tái)服務(wù)器微王,有一個(gè)200M的文件,那么HDFS會(huì)把這個(gè)文件分成兩塊品嚣,一塊是128M炕倘,一塊是72M。并且它會(huì)給每一個(gè)塊復(fù)制三份翰撑,隨機(jī)地存儲(chǔ)在這五臺(tái)服務(wù)器中罩旋。
如果其中任意一臺(tái)服務(wù)器出問(wèn)題,那么HDFS組件會(huì)迅速地用別的服務(wù)器復(fù)制一份拷貝,使得每個(gè)塊時(shí)刻保持三份拷貝涨醋。
當(dāng)任何一臺(tái)服務(wù)器需要用這個(gè)文件的時(shí)候瓜饥,如果它本身沒(méi)有這個(gè)文件的任何一個(gè)塊,或者只有其中一個(gè)塊浴骂,它會(huì)從其他服務(wù)器中進(jìn)行拷貝压固,合并成完整的文件進(jìn)行使用。
更深入和細(xì)節(jié)的理解大家可以參考這篇文章:
https://blog.csdn.net/sjmz30071360/article/details/79877846
3靠闭、MapReduce:分布式計(jì)算框架
MapReduce是采用一種分而治之的思想設(shè)計(jì)出來(lái)的分布式計(jì)算框架。假如一個(gè)復(fù)雜的計(jì)算任務(wù)坎炼,單臺(tái)服務(wù)器無(wú)法勝任時(shí)愧膀,可以將這個(gè)大任務(wù)切分成一個(gè)個(gè)小的任務(wù),小任務(wù)分別在不同的服務(wù)器上并行的執(zhí)行谣光;最終再匯總每個(gè)小任務(wù)的結(jié)果檩淋。
MapReduce 由兩個(gè)階段組成:Map階段(切分成?個(gè)個(gè)小的任務(wù))、Reduce階段(匯總小任務(wù)的結(jié)果)萄金。
4蟀悦、YARN:作業(yè)調(diào)度和資源管理器
YARN 通俗理解就是服務(wù)器的“監(jiān)工”,負(fù)責(zé)監(jiān)控每臺(tái)服務(wù)器的狀態(tài)氧敢,并且給服務(wù)器安排和分配任務(wù)日戈。
5、Hadoop 生態(tài)圈
三孙乖、走進(jìn) HIVE
1浙炼、Hive是什么?
HIVE 是基于 Hadoop 的開(kāi)源的數(shù)據(jù)倉(cāng)庫(kù)工具唯袄,用于處理海量結(jié)構(gòu)化數(shù)據(jù)弯屈。
Hive把HDFS中結(jié)構(gòu)化的數(shù)據(jù)文件映射成數(shù)據(jù)表。
Hive通過(guò)把HiveSQL進(jìn)行解析和轉(zhuǎn)換恋拷,最終生成一系列在hadoop上運(yùn)行的mapreduce任務(wù)资厉,通過(guò)執(zhí)行這些任務(wù)完成數(shù)據(jù)分析與處理。
HiveSQL和MySQL一樣蔬顾,都遵循著SQL的標(biāo)準(zhǔn)宴偿,因此它們很多語(yǔ)句都是一樣的。
2阎抒、Hive與傳統(tǒng)數(shù)據(jù)庫(kù)的比較
Hive | RDBMS | |
---|---|---|
查詢語(yǔ)言 | HQL | SQL |
數(shù)據(jù)存儲(chǔ) | HDFS | Raw Device or Local FS |
執(zhí)行 | MapReduce | Executor |
執(zhí)行延遲 | 高 | 低 |
處理數(shù)據(jù)規(guī)模 | 大 | 小 |
索引 | 0.8版本后加入位圖索引 | 有復(fù)雜的索引 |
說(shuō)明:
- 數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)庫(kù)都是用來(lái)做數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析的酪我,對(duì)企業(yè)中的決策起到關(guān)鍵性的作用。
- 關(guān)系型數(shù)據(jù)庫(kù)容易遇到可拓展性瓶頸且叁,進(jìn)行向上拓展通常意味著要購(gòu)買性能更強(qiáng)勁的硬件設(shè)備都哭。
- Hadoop很容易進(jìn)行集群的橫向拓展,便捷地進(jìn)行節(jié)點(diǎn)的退役與服役。
- 數(shù)據(jù)倉(cāng)庫(kù)中的歷史數(shù)據(jù)一般不會(huì)改變欺矫,因?yàn)槠渲饕脕?lái)記錄已經(jīng)發(fā)生的事實(shí)的數(shù)據(jù)纱新。
- 面向事務(wù)的聯(lián)機(jī)事務(wù)處理OLTP vs 面向分析的聯(lián)機(jī)分析處理OLAP。
3穆趴、Hive的數(shù)據(jù)類型
(1) 基本數(shù)據(jù)類型
(2) 復(fù)雜數(shù)據(jù)類型
四脸爱、拓展知識(shí)
1、CentOS7系統(tǒng)的基本常識(shí)
- CentOS7是?個(gè)Linux操作系統(tǒng)未妹,能夠同時(shí)登陸多個(gè)用戶簿废。這些用戶的文件互不相通。
- Linux系統(tǒng)中络它,我們通過(guò)命令來(lái)和主機(jī)進(jìn)行交互族檬。
- root用戶是Linux系統(tǒng)中的超級(jí)管理員。我們?般使用普通的用戶進(jìn)行操作化戳。
- 普通用戶的操作受到很多限制单料,各個(gè)用戶之間有?層權(quán)限保證操作的安全性。
- 學(xué)習(xí)好linux系統(tǒng)点楼,關(guān)鍵是掌握命令的使用扫尖。命令的基本格式:命令 -選項(xiàng) 參數(shù)。
2掠廓、常用 Linux 命令
這些命令之前學(xué)過(guò)《笨辦法學(xué)Python3》的同學(xué)應(yīng)該已經(jīng)很熟悉了换怖,可以再?gòu)?fù)習(xí)一下哈~
cd:切換目錄,進(jìn)入到某個(gè)目錄
1. cd /etc/ 表示進(jìn)入/etc這個(gè)目錄中
2. cd ../ 表示返回上一級(jí)目錄
3. cd 進(jìn)入當(dāng)前用戶的家目錄
su - 用戶名:切換用戶
查看當(dāng)前所在的目錄路徑:pwd
ls:列出目錄下的文件
ll:列出目錄下的文件
ifconfig:查看網(wǎng)卡的配置信息
mkdir:新建一個(gè)目錄/文件夾
touch:新建一個(gè)文件
vim:文件編輯器
1. 一般模式
2. 插入模式
3. 命令模式
rm -rf 文件:刪除文件/目錄
好啦蟀瞧,以上就是這節(jié)大數(shù)據(jù)分析入門課的全部?jī)?nèi)容啦狰域,歡迎大家一起加入大數(shù)據(jù)分析的世界,一起加油吧~