數(shù)據(jù)分析入門

目錄:

1.概述
2.數(shù)據(jù)是基礎(chǔ)
3.數(shù)據(jù)庫是數(shù)據(jù)存儲的載體
4.工具是實現(xiàn)數(shù)據(jù)分析的方式
4.1主流BI工具——Power BI介紹
4.2主流BI工具——Tableau介紹
5.如何進行業(yè)務(wù)分析以及各個圖表的使用
6.分享一些公眾號

隨著計算機和互聯(lián)網(wǎng)的發(fā)展,人們在各項活動中形成的數(shù)據(jù)容量呈幾何級數(shù)增長,對數(shù)據(jù)的分析和利用已經(jīng)滲透到生活的方方面面屯掖。大數(shù)據(jù)的時代對商業(yè)、對思維兼呵、對管理的變革,無論是企業(yè)爆侣、政府以及個人都想要把大數(shù)據(jù)納入囊中成為一把利器萍程。那么幢妄,今天兔仰,我們就來對數(shù)據(jù)分析進行一個拆解,讓想要學(xué)習(xí)數(shù)據(jù)分析的你邁出第一步~


圖源自網(wǎng)絡(luò)侵刪

想要做成上圖這樣的數(shù)據(jù)分析報告需要經(jīng)歷哪些流程呢蕉鸳?
數(shù)據(jù)的前世今生

很顯然乎赴,我們的第一張圖僅僅是數(shù)據(jù)展示所呈現(xiàn)的結(jié)果。想要做出一張合邏輯又美觀的儀表盤潮尝,首先是對數(shù)據(jù)源進行收集榕吼、匯總,這個數(shù)據(jù)可能是結(jié)構(gòu)化的勉失,也可能含有半結(jié)構(gòu)化數(shù)據(jù)羹蚣,也有非結(jié)構(gòu)化數(shù)據(jù)。之后我們要將數(shù)據(jù)源進行規(guī)范化處理乱凿,針對不同類型的數(shù)據(jù)會有不同的處理方式顽素。結(jié)構(gòu)化數(shù)據(jù)可以直接通過ETL到關(guān)系型數(shù)據(jù)庫中,如SQL Server中徒蟆,再流入數(shù)據(jù)湖胁出,半結(jié)構(gòu)化數(shù)據(jù)需要經(jīng)過處理轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)后再存儲到數(shù)據(jù)庫中。數(shù)據(jù)湖的數(shù)據(jù)會被放入數(shù)據(jù)集市段审,在數(shù)據(jù)展示層面全蝶,會有很多BI分析工具,這些工具通過API調(diào)取數(shù)據(jù)集市里的數(shù)據(jù)寺枉,然后就可以用這些數(shù)據(jù)通過不同的展現(xiàn)形式進行分析了抑淫。

數(shù)據(jù)是基礎(chǔ)

數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)這三種類型:
結(jié)構(gòu)化數(shù)據(jù):是由二維表結(jié)構(gòu)來進行邏輯表達和實現(xiàn)的數(shù)據(jù)姥闪,嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范丈冬,主要通過關(guān)系型數(shù)據(jù)庫進行存儲和管理。常用的有Excel數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)

半結(jié)構(gòu)化數(shù)據(jù):這樣的數(shù)據(jù)和其他兩種類別都不一樣甘畅,它是結(jié)構(gòu)化的數(shù)據(jù)埂蕊,但是結(jié)構(gòu)變化很大往弓。例如員工簡歷,基本信息一欄比較一致蓄氧,符合一定的結(jié)構(gòu)函似。但是在其他方面,例如教育經(jīng)歷喉童,婚姻狀況撇寞,出入境情況等等,甚至還有一些難以預(yù)料的情況需要記錄堂氯,想要存儲這些數(shù)據(jù)就變得復(fù)雜起來蔑担。半結(jié)構(gòu)化數(shù)據(jù)

非結(jié)構(gòu)化數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型咽白,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)
包括所有格式的辦公文檔啤握、文本、圖片晶框、XML, HTML排抬、各類報表、圖像和音頻/視頻信息等等授段。非結(jié)構(gòu)化數(shù)據(jù)

非結(jié)構(gòu)化數(shù)據(jù)

一般我們都是基于結(jié)構(gòu)化的數(shù)據(jù)進行分析蹲蒲。而對于半結(jié)構(gòu)化,非結(jié)構(gòu)化的數(shù)據(jù)我們也會進行一定的處理(稱為“數(shù)據(jù)清洗”)轉(zhuǎn)換成我們可理解的結(jié)構(gòu)化數(shù)據(jù)侵贵。

數(shù)據(jù)庫是數(shù)據(jù)存儲的載體

傳送門:簡單介紹了數(shù)據(jù)倉庫届搁,數(shù)據(jù)庫的關(guān)系以及數(shù)據(jù)清洗<ETL>

主流關(guān)系數(shù)據(jù)庫
(1)商用數(shù)據(jù)庫:Oracle, SQL Server, DB2等;
(2)開源數(shù)據(jù)庫:MySQL, PostgreSQL等窍育;
(3)桌面數(shù)據(jù)庫:以微軟Access為代表卡睦,適合桌面應(yīng)用程序使用
(4)嵌入式數(shù)據(jù)庫:以Sqlite為代表,適合手機應(yīng)用和桌面程序

談?wù)凷QL
結(jié)構(gòu)化查詢語言(Structured Query Language)簡稱SQL蔫骂,是一種特殊目的的編程語言么翰,是一種數(shù)據(jù)庫查詢和程序設(shè)計語言,用于存取數(shù)據(jù)以及查詢辽旋、更新和管理關(guān)系數(shù)據(jù)庫系統(tǒng)浩嫌。
初次接觸SQL還是在大學(xué)的《數(shù)據(jù)庫應(yīng)用》這門課中接觸了Access數(shù)據(jù)庫的簡單SQL語句,思維的啟蒙為我在后來的SQL學(xué)習(xí)中奠定了一大步基礎(chǔ)补胚。簡單說SQL就是通過編寫一些語句码耐,去查詢數(shù)據(jù)或者獲取你想要的數(shù)據(jù),這種方式減少了數(shù)據(jù)的冗余溶其,想要什么數(shù)據(jù)提取什么數(shù)據(jù)即可骚腥,為BI開發(fā)工具省去內(nèi)存,一定程度上提高性能瓶逃。想要更深入學(xué)習(xí)SQL束铭,推薦書籍《SQL必知必會》廓块,推薦網(wǎng)站SQL教程

工具是實現(xiàn)數(shù)據(jù)分析的方式

介紹兩種市面上比較流行的兩個BI工具:Power BI和Tableau

Power BI

Power BI是由微軟提供的自助式商業(yè)智能云服務(wù),為非技術(shù)業(yè)務(wù)用戶提供聚合契沫,分析带猴,可視化和共享數(shù)據(jù)的工具。對于熟悉Excel的用戶來說懈万,Power BI用戶界面直觀拴清,功能頗多,與其他微軟產(chǎn)品深度集成為一種非常通用的工具会通。它可以鏈接到PPT上形成一份有理有據(jù)的數(shù)據(jù)報告呈現(xiàn)給老板看口予,它可以運用微軟郵箱與同事內(nèi)部共享。
下載官網(wǎng):https://powerbi.microsoft.com/zh-cn/

從產(chǎn)品中選擇Power BI Desktop:
下載的時候選擇高級下載選項涕侈,可以選中文版本(如果英語不錯沪停,也可以直接下英文版本的),根據(jù)電腦的操作系統(tǒng)選擇32位或者64位的安裝包驾凶。
如果是WIN10系統(tǒng)牙甫,還可以直接在微軟store里面找到Power BI Desktop應(yīng)用直接安裝掷酗。

安裝完成调违,啟動后會提示你注冊登錄,暫時不想注冊直接關(guān)掉就行泻轰,如果注冊技肩,推薦申請個126郵箱,很容易注冊成功,或者正在使用釘釘?shù)脑捒梢杂冕斸斪缘卿浉∩F(xiàn)在注冊可以享受2個月的PowerBI專業(yè)版體驗虚婿。

Power BI的界面:

界面

數(shù)據(jù)分析的第一步是獲取數(shù)據(jù),可以在左上角的獲取數(shù)據(jù)進行泳挥,
獲取數(shù)據(jù)

以上都是常用的數(shù)據(jù)格式然痊,如果是新手,建議使用Excel進行練習(xí)(Power BI在下載Desktop的同時會包含一個Excel超市數(shù)據(jù)供練習(xí))屉符。
獲取示例數(shù)據(jù)

當(dāng)然也可以連接數(shù)據(jù)庫直接調(diào)用數(shù)據(jù)剧浸,點擊更多:


數(shù)據(jù)庫獲取數(shù)據(jù)

數(shù)據(jù)導(dǎo)入后,可以進入內(nèi)嵌的查詢編輯器矗钟,這是Power BI的一個主要模塊唆香,稱為Power Query。在這里可以對數(shù)據(jù)進行轉(zhuǎn)換清洗吨艇,是一個面向非技術(shù)人員的簡單ETL工具躬它。


Power Query界面

接下來要將整理好的數(shù)據(jù)進行數(shù)據(jù)建模,建模是針對數(shù)據(jù)源有多個表的情況下進行的东涡,它用于將表與表之間通過主鍵進行數(shù)據(jù)關(guān)聯(lián)冯吓。如果只有一個表就可以跳過這一步倘待。


數(shù)據(jù)建模

之后就到了數(shù)據(jù)可視化的環(huán)節(jié)了。圖中是Power BI Desktop自帶的一些可視化圖组贺,如果想要更豐富的圖表樣例延柠,也可以從應(yīng)用商店導(dǎo)入,但有些是付費的锣披,使用起來也有些僵硬贞间,就經(jīng)驗而言不建議使用應(yīng)用商店里的圖表樣例,能夠使用自帶的圖表樣例盡量使用雹仿,除非客戶或者領(lǐng)導(dǎo)有特殊需求增热。
可視化組件

通過簡單勾選想要分析的維度,度量胧辽,選擇對應(yīng)的可視化圖峻仇,即可生成豐富的視圖。當(dāng)然邑商,不同的圖表所表達的含義也不盡相同摄咆,后面我們會一一介紹。
簡單視圖
* Tableau

Tableau是一款定位于數(shù)據(jù)可視化敏捷開發(fā)和實現(xiàn)的商務(wù)智能展現(xiàn)工具人断,以實現(xiàn)交互式和可視化的分析和儀表板應(yīng)用吭从,從而幫助企業(yè)用戶快速地認(rèn)識,理解和應(yīng)用數(shù)據(jù)恶迈。
下載官網(wǎng):(https://www.tableau.com/products

產(chǎn)品明細(xì)

Tableau提供了兩個產(chǎn)品和一項云服務(wù):
? 用于內(nèi)容制作的 Tableau Desktop
? 用于數(shù)據(jù)/可視化分享的 Tableau Server
o 可托管在本地涩金,也可放入云中
? Tableau Online
o Tableau Server 的托管版本
所有這 3 種產(chǎn)品都有試用版。
一般用戶在Tableau Desktop中各個版本試用14天暇仲,如果是學(xué)生步做,可以通過學(xué)生證注冊獲得許可證,有效期一年奈附。

首先是獲取數(shù)據(jù):


獲取數(shù)據(jù)

Tableau和Power BI可支持的數(shù)據(jù)庫或文件基本涵蓋了市面上使用的類型全度。選擇連接到相關(guān)數(shù)據(jù)源文件,


數(shù)據(jù)源處理

與Power BI的數(shù)據(jù)處理不同斥滤,Tableau有其獨有的軟件Tableau Builder對數(shù)據(jù)進行簡單的清洗将鸵、轉(zhuǎn)換。大家可以自行下載試用中跌。
Tableau的界面

Tableau根據(jù)導(dǎo)入的數(shù)據(jù)會自動分成維度和度量咨堤。度量是數(shù)值數(shù)據(jù)元素 - 也就是相加、求平均或執(zhí)行其他計算的對象漩符,可以將度量視作“數(shù)字”一喘。維度通常是非數(shù)值數(shù)據(jù)元素 - 它們是可作為分組依據(jù)或下鉆查詢依據(jù)的對象,可以將維度視為“詞語”。

有時候某些ID數(shù)據(jù)本來是維度凸克,但由于數(shù)據(jù)格式為數(shù)值的話會被自動識別到度量中议蟆,此時我們要單擊該數(shù)據(jù)字段,右鍵選中“轉(zhuǎn)換為維度”即可萎战。

Tableau的操作相較于Power BI會更靈活方便咐容,只需簡單的拖拉拽就可以生成一個視圖,并且可以根據(jù)右邊的圖表樣式進行更改蚂维。

Power BI的畫布就是一個儀表盤戳粒,在畫布上可以放很多張視圖,而Tableau分為工作表虫啥,儀表板和故事板蔚约。我們在做數(shù)據(jù)分析展示的時候,通常是做好每一個工作表涂籽,再在儀表板中將工作表拖拽其中進行美觀上的設(shè)計布局苹祟。

制作好的儀表盤,我們會將其發(fā)布到Tableau Server上评雌,設(shè)立每個儀表盤的查看權(quán)限树枫,供不同權(quán)限的成員進行分享查看。

Tips:
關(guān)于Tableau的產(chǎn)品框架及用途景东,我在Process-on上專門做了梳理砂轻,歡迎大家參考:
Tableau產(chǎn)品框架梳理
Tableau功能和計算字段梳理

Tableau產(chǎn)品框架.png

Tableau功能梳理.png

關(guān)于Tableau具體的學(xué)習(xí)使用推薦書籍《人人都是數(shù)據(jù)分析師》,電子版本在文末~
這本書寫的較基礎(chǔ)耐薯、詳細(xì)舔清,特別推薦初步學(xué)習(xí)的同學(xué)閱讀丝里。

如何進行業(yè)務(wù)分析以及各個圖表的使用

以下是我做的一個關(guān)于“如何基于統(tǒng)計分析業(yè)務(wù)”的PPT曲初,希望能夠幫助你找到分析思路。


業(yè)務(wù)分析

分享一些公眾號

關(guān)于宏觀大數(shù)據(jù)or 案例:大數(shù)據(jù)DT杯聚,大數(shù)據(jù)文摘臼婆,修煉大數(shù)據(jù),DT財經(jīng)幌绍,199IT互聯(lián)網(wǎng)數(shù)據(jù)中心颁褂,軟件定義世界(SDX),智企云擁傀广;
關(guān)于Power BI:Power BI中國社區(qū)颁独,悅策Power BI,Power BI星球,Power BI戰(zhàn)友聯(lián)盟伪冰;
關(guān)于Tableau:Tableau社區(qū)誓酒,參悟Tableau,Tableau傳道士,數(shù)據(jù)藝術(shù)家靠柑。

電子書資源:復(fù)制這段內(nèi)容后打開百度網(wǎng)盤手機App寨辩,操作更方便哦 鏈接:https://pan.baidu.com/s/17S2Uu46QgbhaLlFdAk5vNw 提取碼:j1vx

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市歼冰,隨后出現(xiàn)的幾起案子靡狞,更是在濱河造成了極大的恐慌,老刑警劉巖隔嫡,帶你破解...
    沈念sama閱讀 216,470評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件甸怕,死亡現(xiàn)場離奇詭異,居然都是意外死亡腮恩,警方通過查閱死者的電腦和手機蕾各,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來庆揪,“玉大人式曲,你說我怎么就攤上這事「组唬” “怎么了吝羞?”我有些...
    開封第一講書人閱讀 162,577評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長内颗。 經(jīng)常有香客問我钧排,道長,這世上最難降的妖魔是什么均澳? 我笑而不...
    開封第一講書人閱讀 58,176評論 1 292
  • 正文 為了忘掉前任恨溜,我火速辦了婚禮,結(jié)果婚禮上找前,老公的妹妹穿的比我還像新娘糟袁。我一直安慰自己,他們只是感情好躺盛,可當(dāng)我...
    茶點故事閱讀 67,189評論 6 388
  • 文/花漫 我一把揭開白布项戴。 她就那樣靜靜地躺著,像睡著了一般槽惫。 火紅的嫁衣襯著肌膚如雪周叮。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,155評論 1 299
  • 那天界斜,我揣著相機與錄音仿耽,去河邊找鬼。 笑死各薇,一個胖子當(dāng)著我的面吹牛项贺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,041評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼敬扛,長吁一口氣:“原來是場噩夢啊……” “哼晰洒!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起啥箭,我...
    開封第一講書人閱讀 38,903評論 0 274
  • 序言:老撾萬榮一對情侶失蹤谍珊,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后急侥,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體砌滞,經(jīng)...
    沈念sama閱讀 45,319評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,539評論 2 332
  • 正文 我和宋清朗相戀三年坏怪,在試婚紗的時候發(fā)現(xiàn)自己被綠了贝润。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,703評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡铝宵,死狀恐怖打掘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情鹏秋,我是刑警寧澤尊蚁,帶...
    沈念sama閱讀 35,417評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站侣夷,受9級特大地震影響横朋,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜百拓,卻給世界環(huán)境...
    茶點故事閱讀 41,013評論 3 325
  • 文/蒙蒙 一琴锭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧衙传,春花似錦决帖、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至腺阳,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間穿香,已是汗流浹背亭引。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留皮获,地道東北人焙蚓。 一個月前我還...
    沈念sama閱讀 47,711評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親购公。 傳聞我的和親對象是個殘疾皇子萌京,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,601評論 2 353

推薦閱讀更多精彩內(nèi)容

  • BI一詞早在20年前就被提出,加特納集團將商業(yè)智能定義為描述一系列的概念和方法宏浩,通過應(yīng)用基于事實的支持系統(tǒng)來輔助商...
    faa9660dbf08閱讀 949評論 0 7
  • 前段時間有報道稱知残,有學(xué)者質(zhì)疑“大數(shù)據(jù)”理論,也有硅谷公司負(fù)責(zé)人質(zhì)疑大數(shù)據(jù)應(yīng)用的效果比庄。結(jié)合2011年Gartner關(guān)...
    梔子花_ef39閱讀 1,422評論 0 5
  • 大數(shù)據(jù)學(xué)習(xí)交流群:808769635 前段時間有報道稱求妹,有學(xué)者質(zhì)疑“大數(shù)據(jù)”理論,也有硅谷公司負(fù)責(zé)人質(zhì)疑大數(shù)據(jù)應(yīng)用...
    順治帝閱讀 3,247評論 0 5
  • 我的私奔計劃:1.想逃離這個吵吵鬧鬧的世界净神;2.想丟掉把我困住的一切;3.想一整天你在你的房間溉委;4.想和你分享我愛...
    米花娘閱讀 349評論 0 1
  • 終于把現(xiàn)有的數(shù)據(jù)處理好了强挫,不知道哪里出了問題,有一個就是算不好薛躬,明天再試試吧俯渤,希望能夠在周末之前把所有的數(shù)據(jù)都處理...
    慕楓秋閱讀 146評論 0 0