作者:李啟方
知乎來源:https://zhuanlan.zhihu.com/p/345618674
文章篇幅較長(4000字+)胳喷,內(nèi)容較多,建議大家先收藏再慢慢閱讀~
歡迎分享轉(zhuǎn)發(fā)~
1吠撮、數(shù)據(jù)分析常用的思維
判斷一個人做數(shù)據(jù)分析的水平纬向,不是看他學習了幾種工具逾条,最核心的差距在于思考問題的思維能师脂,這是數(shù)據(jù)分析的本質(zhì),也是最容易被人忽視的點
常用的思維有很多種糕篇,下面簡單舉幾個例子:
(1)對比思維:
通常來說是把兩個相互聯(lián)系的指標數(shù)據(jù)進行比較拌消,從數(shù)量上展示和說明研究對象規(guī)模的大小
比如說墩崩,老板讓你分析一下今年企業(yè)的發(fā)展情況鹦筹,你拉表之后發(fā)現(xiàn)銷售額比去年增長了10%址貌,凈利潤比去年增長了5%练对,成本消耗比去年降低了3%螟凭。銷售額、凈利潤挟憔、成本消耗就是對比的指標绊谭,我們不能拿銷售額的數(shù)據(jù)去對比成本數(shù)據(jù)达传,這就是指標的對比與統(tǒng)一宪赶。
(2)細分思維:
比如某次考試小明的名次很低脯燃,如果他的父母不懂細分辕棚,一定會不由分說地訓斥小明,根本找不到小明成績差的真實原因详恼。
而如果他們懂得細分分析昧互,應該怎么做呢伟桅?應該將名次的維度轉(zhuǎn)化為科目贿讹,然后分析每個科目的成績民褂,也許會發(fā)現(xiàn)小明只有某個科目沒有考好赊堪,再針對這個短板采取相應的策略哭廉,這就是細分分析的思想相叁。
(3)趨勢思維
你可以簡單地把趨勢分析定義為對比分析的一種椿访,一般來說是按照時間的維度虑润,對某一數(shù)據(jù)或者不同數(shù)據(jù)變化趨勢進行差異化研究拳喻,以及對數(shù)據(jù)的下一步變化進行預測冗澈。
趨勢分析一般而言亚亲,適用于產(chǎn)品核心指標的長期跟蹤,比如點擊率柴梆,GMV终惑,活躍用戶數(shù)等雹有。做出簡單的數(shù)據(jù)趨勢圖霸奕,并不算是趨勢分析质帅,趨勢分析更多的是需要明確數(shù)據(jù)的變化煤惩,以及對變化原因進行分析。
(4)目標思維
我們在接到業(yè)務的需求之后,需要先想一下這個需求的真正核心目的是什么瓣俯?
如果知道了業(yè)務目標彩匕,那么就可以把這樣一個取數(shù)需求變成一個分析類需求推掸,最終的交付形式就成了一份PPT驻仅,這樣噪服,就能避免成為取數(shù)機器粘优。
(5)結(jié)構(gòu)化思維
在面對這么一個問題時,結(jié)構(gòu)化思維方法首先做的并不是立刻著手清洗數(shù)據(jù)廊遍。而是根據(jù)對業(yè)務的理解喉前,先為數(shù)據(jù)分析劃一個思維導圖卵迂,它的作用相當于你來到一個陌生的城市拿出百度地圖查詢乘坐交通工具到入住的酒店的路線圖见咒。
事實上改览,結(jié)構(gòu)化思維就是由麥肯錫提出的著名的“金字塔思維”囱嫩,如下圖就是典型的結(jié)構(gòu)化:
(6)演繹思維、歸納思維
很顯然鸳碧,歸納是從個體屬性出發(fā)瞻离,尋找因子之間的共性套利,總結(jié)出一個一般的特性肉迫;而演繹則相反稿黄,是從一般整體出發(fā)杆怕,尋找事物之間的邏輯族购,從而得到某個個體的特性壳贪。
(7)假設思維
假設思維其實是從演繹思維中延伸出來的思維,簡單來說就是通過不斷假設寝杖、不斷論證违施、不斷推理、不斷推翻原假設的方式瑟幕,直到去找到我們最終的真實原因或者結(jié)論醉拓。
(8)溯源思維
溯源思維簡單來說就是對問題進行細分后再細分收苏,把問題進行分解到可以找到原因亿卤,列出解決辦法。有時候我們不僅僅只使用對比思維和細分思維就可以得出來結(jié)果鹿霸,這時候要想追溯數(shù)據(jù)源排吴,然后基于此思考數(shù)據(jù)源背后可能隱藏的邏輯關系,或許會有其他的數(shù)據(jù)結(jié)果懦鼠。
(9)事實思維
數(shù)據(jù)分析師第一個要訓練的思維方式便是:只說事實钻哩,不說觀點。
只有分清楚觀點和事實才有繼續(xù)分析的可能性肛冶。因為觀點的溝通會出現(xiàn)誤差街氢,而事實則不會。如果我們用觀點進行溝通睦袖,自然會出現(xiàn)大量的誤解珊肃。
2、統(tǒng)計學相關的理論與基礎
(1)描述型統(tǒng)計
描述統(tǒng)計是我們做數(shù)據(jù)分析的主要基礎馅笙,比如說銷售人員說今年我們的銷售情況很好伦乔,比去年要好很多。這不叫做描述統(tǒng)計董习,因為“比去年好”這個特點不是定量的數(shù)據(jù)
描述性統(tǒng)計里大概有三個分類:集中趨勢烈和、離散趨勢、分布皿淋。集中趨勢包含平均數(shù)招刹、中位數(shù)、眾數(shù)窝趣、分位數(shù)等疯暑,離散趨勢包含極差、平均差高帖、方差缰儿、標準差、分位差等散址,分布主要包含峰態(tài)分布和偏態(tài)分布
(2)推理型統(tǒng)計
也叫作推理性統(tǒng)計乖阵,他的目的是研究如何利用樣本數(shù)據(jù)去推斷總體數(shù)據(jù)的方法宣赔。他跟描述統(tǒng)計不一樣,描述統(tǒng)計是用整體的數(shù)據(jù)來描述整體特征瞪浸,推理統(tǒng)計是用部分數(shù)據(jù)來推理整體特征儒将。我們經(jīng)常說的假設檢驗、采樣與過采樣对蒲、回歸預測模型钩蚊、貝葉斯模型都是推理型統(tǒng)計。
二項分布:如拋硬幣n次蹈矮,不同正面朝上的次數(shù)對應的概率砰逻;
幾何分布:如拋硬幣n次,到第k次才取得第一次成功的概率服從的分布
泊松分布:在一定時間范圍內(nèi)發(fā)生概率相同泛鸟,給定其發(fā)生的平均發(fā)生的次數(shù)μ蝠咆,則事件在該事件范圍內(nèi)發(fā)生k次的概率服從泊松分布
(3)假設檢驗
假設檢驗就是通過抽取樣本數(shù)據(jù),通過小概率反證法去驗證整體假設
(4)回歸
回歸分析的任務就是北滥,通過研究X和Y的相關關系刚操,嘗試去解釋Y的形成機制,進而達到通過X去預測Y的目的再芋。
(5)聚類
聚類是根據(jù)數(shù)據(jù)本身的特性研究分類方法菊霜,并遵循這個分類方法對數(shù)據(jù)進行合理的分類,最終講相似數(shù)據(jù)分位一組济赎,也就是"同類相同鉴逞、異類相異”
(6)貝葉斯
3、SQL與數(shù)據(jù)提取
SQL 數(shù)據(jù)提取主要學習一些SQL常用的語法順序和執(zhí)行順序联喘,然后學習一些條件子句华蜒、分組查詢和排序的細節(jié)辙纬,最后去學習表的連接和其他常用關鍵字
下面再貼個sql的學習網(wǎng)站吧:
SQL Server數(shù)據(jù)庫教程——51自學網(wǎng) (視頻教程)
地址:51zxw.net/list.aspx?
老師講得很細豁遭,會一步步的教操作,前面7章看完贺拣,并跟著老師做完了所有的例子蓖谢,就是入門了。
SQL Tutorial——w3schools (示例教程)
地址:w3school.com.cn/sql/ind
入門之后譬涡,就要多學學T-SQL語言了闪幽。除了51自學網(wǎng)的SQL Server數(shù)據(jù)庫教程外,w3schools是一個很好的資源庫涡匀,它不止講解T-SQL語言的知識點盯腌,還有一個在線的示例數(shù)據(jù)庫提供給用戶,可以隨時隨地進行練習陨瘩。
4腕够、快速套用的分析模型
(1)帕累托模型:
帕累托分析依據(jù)的原理是20/80定律级乍,80%的效益常常來自于20%的投入,而其他80%的投入?yún)s只產(chǎn)生了20%的效益帚湘,這說明玫荣,同樣的投入在不同的地方會產(chǎn)生不同的效益。
(2)波士頓模型
這個模型雖然是市場模型大诸,但是其背后的邏輯卻是數(shù)據(jù)分析捅厂,也就是矩陣模型。矩陣模型是雙維度模型资柔,你可以從兩個維度出發(fā)對不同的指標進行定位焙贷,比如波士頓矩陣,即從兩個維度對產(chǎn)品或者業(yè)務進行定位贿堰,也就是產(chǎn)品本身和銷售的維度
(3)購物籃分析
購物籃模型的本質(zhì)是關聯(lián)盈厘,關聯(lián)大家應該都很好理解,就是反映某個事物與其他事物之間相互依存關系的官边,在商品關聯(lián)分析的定義是沸手,通過對顧客的購買記錄數(shù)據(jù)庫進行某種規(guī)則的挖掘,最終發(fā)現(xiàn)顧客群體的購買習慣的內(nèi)在共性
(4)用戶行為模型
分析用戶某個行為特征路徑注簿,并分析其每個動作背后的行為邏輯契吉。比如例如提交訂單后,用戶可能會返回首頁繼續(xù)搜索商品诡渴,也可能去取消訂單捐晶,每一個路徑背后都有不同的動機。通過模型分析能快速找到用戶動機妄辩,從而引領用戶走向最優(yōu)路徑或者期望中的路徑惑灵。
(5)用戶流失模型
主要應用在兩個方面:流失用戶召回、現(xiàn)有活躍用戶防流失眼耀,最常見的就是AARRR模型英支、漏斗模型等等。
(6)用戶價值模型
業(yè)務分析哮伟,很多情況下都是要在資源有限情況下干花,去最大化的撬動效益,如何挖掘能創(chuàng)造最大價值的客戶就是用戶價值模型的工作楞黄。最常見的就是RFM模型池凄、CLV模型、顧客社交價值模型鬼廓。
(7)5W2H模型
所謂的5w2h其實就是針對5個W以及2個H提出的7個關鍵詞進行數(shù)據(jù)指標的選取肿仑,根據(jù)選取的數(shù)據(jù)進行分析
(8)PEST模型
Pest分析模型最早是作為金融行業(yè)分析產(chǎn)生的,用到我們數(shù)據(jù)分析領域更適合做一些整體的行業(yè)分析或者市場分析,優(yōu)點是注重外部環(huán)境對數(shù)據(jù)的影響尤慰,缺點是無法從內(nèi)部原因出發(fā)勾邦,所以無法分析具體的實際業(yè)務問題。
(9)SWOT模型
分析法也叫態(tài)勢分析法割择,S是優(yōu)勢眷篇、W是劣勢,O是機會荔泳、T是威脅或風險蕉饼。
5、數(shù)據(jù)可視化原理
從定義上說玛歌,可視化分為科學可視化昧港、數(shù)據(jù)可視化、信息可視化等支子,我們這里說的都是狹義上的數(shù)據(jù)可視化创肥,至于理論之類的知識我今天就不多講了,也沒必要深入值朋,我們只要清楚想要做出一個好的數(shù)據(jù)可視化叹侄,需要滿足三個條件:
有三個要點,也就是信達雅昨登。所謂的信就是要保證數(shù)據(jù)的正確性趾代,達即是要讓用戶輕松接收到數(shù)據(jù)信息,能夠?qū)?shù)據(jù)進行有效的表達丰辣,雅即是要保證可視化的美觀撒强,這三者既是可視化的重要作用,也是實現(xiàn)數(shù)據(jù)可視化的重要標準笙什。
(1)可視化圖表的選擇
對比類:柱狀圖飘哨、漏斗圖、詞云圖琐凭、迷你圖
占比類:餅圖芽隆、玫瑰圖、矩陣樹圖淘正、雷達圖
相關類:散點圖摆马、樹狀圖、甘特圖
趨勢類:折線圖鸿吆、面積圖、瀑布圖
地理類:熱力地圖述呐、流向地圖惩淳、點地圖
(2)可視化排版原則
從上至下:重要的信息內(nèi)容放于上方
從左至右:重要的信息內(nèi)容放于左方
從中間到四周:重要的信息內(nèi)容放于中間
聚焦:重要的信息內(nèi)容應當集中設置
平衡:各個板塊之間的內(nèi)容量不宜相差過大
簡潔:不同板塊中的內(nèi)容不宜過多,以2-3個圖表為宜
6、業(yè)務指標體系和業(yè)務練習
(1)如何理解業(yè)務思犁?
第一步:確定分析目標代虾,如分析產(chǎn)品功能、原因診斷等
第二步:確定業(yè)務核心需求激蹲,將取數(shù)需求轉(zhuǎn)化為分析需求
第三步:確定核心指標棉磨,通過目標找到核心的分析指標
第四步:根據(jù)核心指標進行拆解,如常用的公式法
(2)業(yè)務關注的要點
(3)分析目標確定的步驟
吃透業(yè)務的分析需求学辱,系統(tǒng)性地引導業(yè)務分析
建立分析體系乘瓤,不完整的地方,有業(yè)務幫忙補充
了解業(yè)務邏輯和模式策泣,補充業(yè)務知識
分析結(jié)論和成果要有明確的業(yè)務指向
(4)常見的業(yè)務場景
經(jīng)營類數(shù)據(jù)分析
指收入衙傀、銷量等與企業(yè)經(jīng)營活動相關分析,監(jiān)控企業(yè)的運行情況萨咕,是為了發(fā)現(xiàn)企業(yè)運營中的問題统抬,關注點是銷量/銷售額總體的時序變化、地區(qū)分布危队、變化原因
用戶數(shù)據(jù)分析
指購買額聪建、購買頻次、購買偏好等相關分析茫陆,目標是深入理解客戶妆偏,關注點是用戶畫像分層、RFM模型衡量用戶價值分層
銷售數(shù)據(jù)分析
定義是指銷售收入盅弛、銷售額钱骂、單價等與銷售情況直接相關的分析,目標是完成銷售任務,監(jiān)控銷售銷量低的原因,提出解決方法稠鼻,關注點是時序進度绳锅、落后原因、銷售單產(chǎn)情況
營銷/市場分析
指企業(yè)營銷/市場活動的投放溢谤、反饋、效果相關分析,目標是了解活動結(jié)果禀苦、優(yōu)化活動計劃、提升活動效率關注點主要集中在ROI相關指標
(5)業(yè)務知識的來源
業(yè)務這一塊的內(nèi)容是普通數(shù)據(jù)分析人的瓶頸遂鹊,所以要學習的內(nèi)容確實太多了振乏,這里也只能給大家列舉一些要點。