目錄:
1.概述
2.數(shù)據(jù)是基礎(chǔ)
3.數(shù)據(jù)庫是數(shù)據(jù)存儲的載體
4.工具是實現(xiàn)數(shù)據(jù)分析的方式
4.1主流BI工具——Power BI介紹
4.2主流BI工具——Tableau介紹
5.如何進行業(yè)務(wù)分析以及各個圖表的使用
6.分享一些公眾號
隨著計算機和互聯(lián)網(wǎng)的發(fā)展,人們在各項活動中形成的數(shù)據(jù)容量呈幾何級數(shù)增長,對數(shù)據(jù)的分析和利用已經(jīng)滲透到生活的方方面面屯掖。大數(shù)據(jù)的時代對商業(yè)、對思維兼呵、對管理的變革,無論是企業(yè)爆侣、政府以及個人都想要把大數(shù)據(jù)納入囊中成為一把利器萍程。那么幢妄,今天兔仰,我們就來對數(shù)據(jù)分析進行一個拆解,讓想要學(xué)習(xí)數(shù)據(jù)分析的你邁出第一步~
想要做成上圖這樣的數(shù)據(jù)分析報告需要經(jīng)歷哪些流程呢蕉鸳?
很顯然乎赴,我們的第一張圖僅僅是數(shù)據(jù)展示所呈現(xiàn)的結(jié)果。想要做出一張合邏輯又美觀的儀表盤潮尝,首先是對數(shù)據(jù)源進行收集榕吼、匯總,這個數(shù)據(jù)可能是結(jié)構(gòu)化的勉失,也可能含有半結(jié)構(gòu)化數(shù)據(jù)羹蚣,也有非結(jié)構(gòu)化數(shù)據(jù)。之后我們要將數(shù)據(jù)源進行規(guī)范化處理乱凿,針對不同類型的數(shù)據(jù)會有不同的處理方式顽素。結(jié)構(gòu)化數(shù)據(jù)可以直接通過ETL到關(guān)系型數(shù)據(jù)庫中,如SQL Server中徒蟆,再流入數(shù)據(jù)湖胁出,半結(jié)構(gòu)化數(shù)據(jù)需要經(jīng)過處理轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)后再存儲到數(shù)據(jù)庫中。數(shù)據(jù)湖的數(shù)據(jù)會被放入數(shù)據(jù)集市段审,在數(shù)據(jù)展示層面全蝶,會有很多BI分析工具,這些工具通過API調(diào)取數(shù)據(jù)集市里的數(shù)據(jù)寺枉,然后就可以用這些數(shù)據(jù)通過不同的展現(xiàn)形式進行分析了抑淫。
數(shù)據(jù)是基礎(chǔ)
數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)這三種類型:
結(jié)構(gòu)化數(shù)據(jù):是由二維表結(jié)構(gòu)來進行邏輯表達和實現(xiàn)的數(shù)據(jù)姥闪,嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范丈冬,主要通過關(guān)系型數(shù)據(jù)庫進行存儲和管理。常用的有Excel數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù):這樣的數(shù)據(jù)和其他兩種類別都不一樣甘畅,它是結(jié)構(gòu)化的數(shù)據(jù)埂蕊,但是結(jié)構(gòu)變化很大往弓。例如員工簡歷,基本信息一欄比較一致蓄氧,符合一定的結(jié)構(gòu)函似。但是在其他方面,例如教育經(jīng)歷喉童,婚姻狀況撇寞,出入境情況等等,甚至還有一些難以預(yù)料的情況需要記錄堂氯,想要存儲這些數(shù)據(jù)就變得復(fù)雜起來蔑担。半結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型咽白,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)
包括所有格式的辦公文檔啤握、文本、圖片晶框、XML, HTML排抬、各類報表、圖像和音頻/視頻信息等等授段。非結(jié)構(gòu)化數(shù)據(jù)
一般我們都是基于結(jié)構(gòu)化的數(shù)據(jù)進行分析蹲蒲。而對于半結(jié)構(gòu)化,非結(jié)構(gòu)化的數(shù)據(jù)我們也會進行一定的處理(稱為“數(shù)據(jù)清洗”)轉(zhuǎn)換成我們可理解的結(jié)構(gòu)化數(shù)據(jù)侵贵。
數(shù)據(jù)庫是數(shù)據(jù)存儲的載體
(傳送門:簡單介紹了數(shù)據(jù)倉庫届搁,數(shù)據(jù)庫的關(guān)系以及數(shù)據(jù)清洗<ETL>)
主流關(guān)系數(shù)據(jù)庫
(1)商用數(shù)據(jù)庫:Oracle, SQL Server, DB2等;
(2)開源數(shù)據(jù)庫:MySQL, PostgreSQL等窍育;
(3)桌面數(shù)據(jù)庫:以微軟Access為代表卡睦,適合桌面應(yīng)用程序使用
(4)嵌入式數(shù)據(jù)庫:以Sqlite為代表,適合手機應(yīng)用和桌面程序
談?wù)凷QL
結(jié)構(gòu)化查詢語言(Structured Query Language)簡稱SQL蔫骂,是一種特殊目的的編程語言么翰,是一種數(shù)據(jù)庫查詢和程序設(shè)計語言,用于存取數(shù)據(jù)以及查詢辽旋、更新和管理關(guān)系數(shù)據(jù)庫系統(tǒng)浩嫌。
初次接觸SQL還是在大學(xué)的《數(shù)據(jù)庫應(yīng)用》這門課中接觸了Access數(shù)據(jù)庫的簡單SQL語句,思維的啟蒙為我在后來的SQL學(xué)習(xí)中奠定了一大步基礎(chǔ)补胚。簡單說SQL就是通過編寫一些語句码耐,去查詢數(shù)據(jù)或者獲取你想要的數(shù)據(jù),這種方式減少了數(shù)據(jù)的冗余溶其,想要什么數(shù)據(jù)提取什么數(shù)據(jù)即可骚腥,為BI開發(fā)工具省去內(nèi)存,一定程度上提高性能瓶逃。想要更深入學(xué)習(xí)SQL束铭,推薦書籍《SQL必知必會》廓块,推薦網(wǎng)站SQL教程
工具是實現(xiàn)數(shù)據(jù)分析的方式
介紹兩種市面上比較流行的兩個BI工具:Power BI和Tableau
Power BI
Power BI是由微軟提供的自助式商業(yè)智能云服務(wù),為非技術(shù)業(yè)務(wù)用戶提供聚合契沫,分析带猴,可視化和共享數(shù)據(jù)的工具。對于熟悉Excel的用戶來說懈万,Power BI用戶界面直觀拴清,功能頗多,與其他微軟產(chǎn)品深度集成為一種非常通用的工具会通。它可以鏈接到PPT上形成一份有理有據(jù)的數(shù)據(jù)報告呈現(xiàn)給老板看口予,它可以運用微軟郵箱與同事內(nèi)部共享。
下載官網(wǎng):https://powerbi.microsoft.com/zh-cn/
從產(chǎn)品中選擇Power BI Desktop:
下載的時候選擇高級下載選項涕侈,可以選中文版本(如果英語不錯沪停,也可以直接下英文版本的),根據(jù)電腦的操作系統(tǒng)選擇32位或者64位的安裝包驾凶。
如果是WIN10系統(tǒng)牙甫,還可以直接在微軟store里面找到Power BI Desktop應(yīng)用直接安裝掷酗。
安裝完成调违,啟動后會提示你注冊登錄,暫時不想注冊直接關(guān)掉就行泻轰,如果注冊技肩,推薦申請個126郵箱,很容易注冊成功,或者正在使用釘釘?shù)脑捒梢杂冕斸斪缘卿浉∩F(xiàn)在注冊可以享受2個月的PowerBI專業(yè)版體驗虚婿。
Power BI的界面:
數(shù)據(jù)分析的第一步是獲取數(shù)據(jù),可以在左上角的獲取數(shù)據(jù)進行泳挥,
以上都是常用的數(shù)據(jù)格式然痊,如果是新手,建議使用Excel進行練習(xí)(Power BI在下載Desktop的同時會包含一個Excel超市數(shù)據(jù)供練習(xí))屉符。
當(dāng)然也可以連接數(shù)據(jù)庫直接調(diào)用數(shù)據(jù)剧浸,點擊更多:
數(shù)據(jù)導(dǎo)入后,可以進入內(nèi)嵌的查詢編輯器矗钟,這是Power BI的一個主要模塊唆香,稱為Power Query。在這里可以對數(shù)據(jù)進行轉(zhuǎn)換清洗吨艇,是一個面向非技術(shù)人員的簡單ETL工具躬它。
接下來要將整理好的數(shù)據(jù)進行數(shù)據(jù)建模,建模是針對數(shù)據(jù)源有多個表的情況下進行的东涡,它用于將表與表之間通過主鍵進行數(shù)據(jù)關(guān)聯(lián)冯吓。如果只有一個表就可以跳過這一步倘待。
通過簡單勾選想要分析的維度,度量胧辽,選擇對應(yīng)的可視化圖峻仇,即可生成豐富的視圖。當(dāng)然邑商,不同的圖表所表達的含義也不盡相同摄咆,后面我們會一一介紹。
* Tableau
Tableau是一款定位于數(shù)據(jù)可視化敏捷開發(fā)和實現(xiàn)的商務(wù)智能展現(xiàn)工具人断,以實現(xiàn)交互式和可視化的分析和儀表板應(yīng)用吭从,從而幫助企業(yè)用戶快速地認(rèn)識,理解和應(yīng)用數(shù)據(jù)恶迈。
下載官網(wǎng):(https://www.tableau.com/products)
Tableau提供了兩個產(chǎn)品和一項云服務(wù):
? 用于內(nèi)容制作的 Tableau Desktop
? 用于數(shù)據(jù)/可視化分享的 Tableau Server
o 可托管在本地涩金,也可放入云中
? Tableau Online
o Tableau Server 的托管版本
所有這 3 種產(chǎn)品都有試用版。
一般用戶在Tableau Desktop中各個版本試用14天暇仲,如果是學(xué)生步做,可以通過學(xué)生證注冊獲得許可證,有效期一年奈附。
首先是獲取數(shù)據(jù):
Tableau和Power BI可支持的數(shù)據(jù)庫或文件基本涵蓋了市面上使用的類型全度。選擇連接到相關(guān)數(shù)據(jù)源文件,
與Power BI的數(shù)據(jù)處理不同斥滤,Tableau有其獨有的軟件Tableau Builder對數(shù)據(jù)進行簡單的清洗将鸵、轉(zhuǎn)換。大家可以自行下載試用中跌。
Tableau根據(jù)導(dǎo)入的數(shù)據(jù)會自動分成維度和度量咨堤。度量是數(shù)值數(shù)據(jù)元素 - 也就是相加、求平均或執(zhí)行其他計算的對象漩符,可以將度量視作“數(shù)字”一喘。維度通常是非數(shù)值數(shù)據(jù)元素 - 它們是可作為分組依據(jù)或下鉆查詢依據(jù)的對象,可以將維度視為“詞語”。
有時候某些ID數(shù)據(jù)本來是維度凸克,但由于數(shù)據(jù)格式為數(shù)值的話會被自動識別到度量中议蟆,此時我們要單擊該數(shù)據(jù)字段,右鍵選中“轉(zhuǎn)換為維度”即可萎战。
Tableau的操作相較于Power BI會更靈活方便咐容,只需簡單的拖拉拽就可以生成一個視圖,并且可以根據(jù)右邊的圖表樣式進行更改蚂维。
Power BI的畫布就是一個儀表盤戳粒,在畫布上可以放很多張視圖,而Tableau分為工作表虫啥,儀表板和故事板蔚约。我們在做數(shù)據(jù)分析展示的時候,通常是做好每一個工作表涂籽,再在儀表板中將工作表拖拽其中進行美觀上的設(shè)計布局苹祟。
制作好的儀表盤,我們會將其發(fā)布到Tableau Server上评雌,設(shè)立每個儀表盤的查看權(quán)限树枫,供不同權(quán)限的成員進行分享查看。
Tips:
關(guān)于Tableau的產(chǎn)品框架及用途景东,我在Process-on上專門做了梳理砂轻,歡迎大家參考:
Tableau產(chǎn)品框架梳理
Tableau功能和計算字段梳理
關(guān)于Tableau具體的學(xué)習(xí)使用推薦書籍《人人都是數(shù)據(jù)分析師》,電子版本在文末~
這本書寫的較基礎(chǔ)耐薯、詳細(xì)舔清,特別推薦初步學(xué)習(xí)的同學(xué)閱讀丝里。
如何進行業(yè)務(wù)分析以及各個圖表的使用
以下是我做的一個關(guān)于“如何基于統(tǒng)計分析業(yè)務(wù)”的PPT曲初,希望能夠幫助你找到分析思路。
分享一些公眾號
關(guān)于宏觀大數(shù)據(jù)or 案例:大數(shù)據(jù)DT杯聚,大數(shù)據(jù)文摘臼婆,修煉大數(shù)據(jù),DT財經(jīng)幌绍,199IT互聯(lián)網(wǎng)數(shù)據(jù)中心颁褂,軟件定義世界(SDX),智企云擁傀广;
關(guān)于Power BI:Power BI中國社區(qū)颁独,悅策Power BI,Power BI星球,Power BI戰(zhàn)友聯(lián)盟伪冰;
關(guān)于Tableau:Tableau社區(qū)誓酒,參悟Tableau,Tableau傳道士,數(shù)據(jù)藝術(shù)家靠柑。
電子書資源:復(fù)制這段內(nèi)容后打開百度網(wǎng)盤手機App寨辩,操作更方便哦 鏈接:https://pan.baidu.com/s/17S2Uu46QgbhaLlFdAk5vNw 提取碼:j1vx