沉默的數(shù)據(jù)
大數(shù)據(jù)時(shí)代携御,似乎做什么事情都要"聽聽數(shù)據(jù)的",因?yàn)閿?shù)據(jù)不會(huì)說假話既绕,所以無論產(chǎn)品發(fā)展啄刹,策略調(diào)整,都跟著數(shù)據(jù)走準(zhǔn)沒錯(cuò)凄贩。畢竟數(shù)據(jù)是用戶真實(shí)反饋嘛誓军。
數(shù)據(jù)確實(shí)不會(huì)說假話,但是同樣疲扎,數(shù)據(jù)也不會(huì)說話昵时。經(jīng)過數(shù)據(jù)倉庫的整理,數(shù)據(jù)不再是雜亂無章的椒丧,但是整整齊齊的數(shù)據(jù)也只是數(shù)據(jù)壹甥,不是知識(shí)。面對(duì)這些數(shù)據(jù)壶熏,這些倉庫表句柠,這時(shí)候就需要有人來解讀其中的內(nèi)容,幫助數(shù)據(jù)把信息表達(dá)出來。這種人,是數(shù)據(jù)分析師溯职,這種行為管怠,就叫數(shù)據(jù)分析。
分析師:數(shù)據(jù)的代言人缸榄。
簡(jiǎn)單說一下,理論上來說祝拯,分析師是要通過數(shù)據(jù)中表現(xiàn)的用戶的反饋甚带,得知產(chǎn)品好壞是否受歡迎,同時(shí)對(duì)產(chǎn)品提出優(yōu)化調(diào)整策略(包括產(chǎn)品本身和推薦策略)佳头。
設(shè)想是好的鹰贵,實(shí)際上并沒有這樣,很多公司都有這個(gè)職位康嘉,但是部分?jǐn)?shù)據(jù)分析師很尷尬碉输,只是成了提數(shù),做報(bào)表的"大表哥""大表姐"亭珍。對(duì)優(yōu)化調(diào)整完全沒有話語權(quán)敷钾。因?yàn)閭鹘y(tǒng)的軟件開發(fā)中,產(chǎn)品/研發(fā)/測(cè)試這三種角色就像游戲中的戰(zhàn)法牧組合一樣肄梨,穩(wěn)定牢固阻荒,新加入的分析師呢?根據(jù)數(shù)據(jù)反饋對(duì)產(chǎn)品提出優(yōu)化方法众羡,算產(chǎn)品么侨赡?自己寫sql,Java粱侣,python計(jì)算羊壹,算研發(fā)么?自己驗(yàn)證數(shù)據(jù)保證數(shù)據(jù)準(zhǔn)確性齐婴,算測(cè)試么油猫?都不算,當(dāng)然尔店,更算不上是領(lǐng)導(dǎo)眨攘。在團(tuán)隊(duì)里找好定位,發(fā)揮分析師作用嚣州,和基礎(chǔ)技能一樣重要鲫售。
數(shù)據(jù)分析-定義
數(shù)據(jù)分析本質(zhì)上是統(tǒng)計(jì),對(duì)數(shù)據(jù)進(jìn)行詳細(xì)的研究该肴,提取出有意義的信息情竹,概括總結(jié)形成結(jié)論的過程。是對(duì)歷史的總結(jié)匀哄。
數(shù)據(jù)分析-方法
excel/python/r/mr/spark等工具秦效。
本文對(duì)數(shù)據(jù)分析的方法不做詳細(xì)的解說雏蛮,可以參考《深入淺出數(shù)據(jù)分析》等書詳細(xì)了解。
數(shù)據(jù)分析-內(nèi)容
分析有三寶:主題結(jié)論數(shù)據(jù)好阱州。
做分析之前挑秉,一定要知道此次分析的目的,不能無頭蒼蠅一般亂撞苔货。有主題有結(jié)論有數(shù)據(jù)論證犀概,才是一次好的分析。
產(chǎn)品追求的核心是用戶夜惭,用戶數(shù)這個(gè)簡(jiǎn)單的指標(biāo)姻灶,可以清楚的反應(yīng)產(chǎn)品的使用情況。但是不能僅僅關(guān)注用戶量這些指標(biāo)(新增/活躍/留存/流失等)诈茧,還要關(guān)注用戶的行為产喉,隨著產(chǎn)品形態(tài)的不同,具體關(guān)注的又不同敢会。比如網(wǎng)約車曾沈,關(guān)注的是人的打車頻率,車型的選擇走触,行程范圍晦譬;feed/短視頻,關(guān)注的是用戶的使用時(shí)長(zhǎng)互广;電商敛腌,關(guān)注的是用戶的GMV/行為路徑。不同產(chǎn)品有針對(duì)的設(shè)定指標(biāo)進(jìn)行分析惫皱,才能更好的體現(xiàn)用戶對(duì)產(chǎn)品的使用情況像樊,才能對(duì)產(chǎn)品提出有意義的優(yōu)化策略。
多數(shù)的時(shí)候旅敷,分析出來的結(jié)果會(huì)與基本認(rèn)知相符合生棍,不會(huì)每次分析都給人"眼前一亮"的感覺,這是正常的媳谁。
數(shù)據(jù)分析-可視化
分析出的結(jié)果怎么展示出來涂滴,也是非常重要的一步∏缫簦可視化的階段:
- 黑底白字的控制臺(tái)展示
這個(gè)階段就根本稱不上可視化柔纵,不要給別人看了,還不如把數(shù)據(jù)整理到excel里對(duì)外提供锤躁。曾記得當(dāng)初第一次給公司高層展示搁料,黑底白字控制臺(tái),敲兩個(gè)命令,出來幾行數(shù)郭计,領(lǐng)導(dǎo)看的一臉懵霸琴,這種情況,明明10分的工作昭伸,估計(jì)只能得5分梧乘。 - 頁面表格
把命令行展示的數(shù)據(jù),在頁面上用表格表現(xiàn)出來庐杨,只能說算一種"美化"宋下,最多增加下載功能。還是對(duì)數(shù)據(jù)的直接展示辑莫。 - 頁面圖表
從折線圖/餅圖/柱狀圖開始,才是對(duì)數(shù)據(jù)的直觀展示罩引。對(duì)不同的產(chǎn)品形態(tài)用不同的展示方法各吨。地圖熱點(diǎn)/熱力圖來表示網(wǎng)約車的使用情況。漏斗圖來表示轉(zhuǎn)化情況袁铐,等等揭蜒。
通過多種多樣的圖表,讓人一眼能看到數(shù)據(jù)的情況剔桨。再用表格來進(jìn)行詳細(xì)數(shù)據(jù)描述屉更,組合拳出擊,達(dá)到最好的效果洒缀。
數(shù)據(jù)分析-報(bào)告
通過分析得到的結(jié)果瑰谜,即便是圖表展示,往往也會(huì)讓人不太清楚树绩,需要分析師進(jìn)行解讀萨脑。所以分析師的又一個(gè)核心技能:寫數(shù)據(jù)報(bào)告。
面對(duì)的觀眾不同饺饭,數(shù)據(jù)報(bào)告又分為微觀和宏觀兩種渤早。
- 微觀
對(duì)內(nèi),為產(chǎn)品優(yōu)化而做的報(bào)告瘫俊。
在新功能(包括產(chǎn)品界面布局鹊杖,推薦策略等)準(zhǔn)備上線之前,ab test的時(shí)候扛芽,根據(jù)用戶使用的反饋數(shù)據(jù)骂蓖,產(chǎn)出分析報(bào)告,給出此次改動(dòng)是否達(dá)到預(yù)期胸哥,可否上線的結(jié)論涯竟。策略有很多種類,并且更新很快,所以這時(shí)候應(yīng)該能做到自動(dòng)給出簡(jiǎn)單的數(shù)據(jù)報(bào)告的能力庐船。 - 宏觀
對(duì)外银酬,讓用戶知道產(chǎn)品功能以外的內(nèi)容。
這個(gè)不是必須的筐钟,但是是一種很好的宣傳:產(chǎn)品對(duì)現(xiàn)實(shí)世界的影響揩瞪。比如滴滴打車對(duì)擁堵的改善/碳排放的減少有什么貢獻(xiàn)(2015年中國(guó)智能出行大數(shù)據(jù)報(bào)告),短視頻對(duì)區(qū)域旅游/網(wǎng)紅電商帶來的影響(目前還沒看到類似的報(bào)告)篓冲,行業(yè)報(bào)告(2016微博短視頻行業(yè)報(bào)告)李破。等等。
報(bào)告書寫壹将,就像寫作文一樣嗤攻,要有條理,如果包含多個(gè)主題诽俯,需要用線索穿起來妇菱,讓人流暢閱讀。
- 主題
有針對(duì)才能進(jìn)行更好的分析暴区,得到結(jié)論闯团。如"用戶訪問情況概覽","登陸按鈕更換位置對(duì)用戶登陸的影響"仙粱,"留存與生命周期"房交,"各渠道用戶質(zhì)量分析報(bào)告"等。 - 統(tǒng)計(jì)周期
標(biāo)明此次分析統(tǒng)計(jì)周期伐割。使用數(shù)據(jù)范圍候味。 - 結(jié)論
通過分析得到了哪些結(jié)論,按照一定順序?qū)懴聛怼?/li> - 數(shù)據(jù)驗(yàn)證
對(duì)給出的結(jié)論隔心,一一加以驗(yàn)證负溪。 - 建議
改進(jìn)建議/下次分析計(jì)劃。
數(shù)據(jù)分析-問題
不要被數(shù)據(jù)蒙蔽住眼睛济炎,不要迷信算法川抡。
在數(shù)據(jù)分析中,會(huì)遇到各種各樣的問題,導(dǎo)致分析結(jié)果并不能反應(yīng)真實(shí)的使用情況。下面分別介紹一下分析中可能遇到的誤區(qū)捷犹。
- 幸存者偏差(Survivorship bias)
是一種常見的邏輯謬誤(“謬誤”而不是“偏差”)。指的是只能看到經(jīng)過某種篩選而產(chǎn)生的結(jié)果密幔,而沒有意識(shí)到篩選的過程,因此忽略了被篩選掉的關(guān)鍵信息撩轰。
在二戰(zhàn)的時(shí)候胯甩,軍隊(duì)檢查戰(zhàn)斗返航的飛機(jī)時(shí)發(fā)現(xiàn)昧廷,機(jī)翼中彈情況很多,機(jī)身中彈情況很少偎箫,就認(rèn)為飛機(jī)機(jī)翼更容易中彈木柬,開始加固機(jī)翼。實(shí)際是這樣么淹办?不是眉枕,因?yàn)闄C(jī)身中彈的很多飛機(jī)都沒有安全返回己方機(jī)場(chǎng)。
現(xiàn)實(shí)生活中也有怜森。在用戶主動(dòng)參與的活動(dòng)中非常常見速挑。比如appsotre里面對(duì)產(chǎn)品的評(píng)價(jià),有一部分人(比如我)就從來沒在里面評(píng)價(jià)過副硅。我公司樓下對(duì)面有個(gè)徽菜飯店姥宝,極其差,但是在大眾點(diǎn)評(píng)上面評(píng)分還是三分多恐疲,有一些是刷單的伶授,還有一些吃一次不好吃就不再來,也不會(huì)在點(diǎn)評(píng)上打分流纹。這時(shí)候如果單純的從評(píng)分來看飯店好壞,很可能就是錯(cuò)的违诗。
想要避免幸存者偏差漱凝,就一定要清楚,自己拿到的數(shù)據(jù)是否能代表全部用戶诸迟,如果不能茸炒,它代表的是哪些用戶。弄清楚這個(gè)的話阵苇,就不會(huì)掉到這個(gè)坑了壁公。 - 辛普森悖論
當(dāng)人們嘗試探究?jī)煞N變量(比如性別與轉(zhuǎn)化率)是否具有相關(guān)性的時(shí)候,會(huì)分別對(duì)之進(jìn)行分組研究绅项。然而紊册,在分組比較中都占優(yōu)勢(shì)的一方,在總評(píng)中有時(shí)反而是失勢(shì)的一方快耿。
比如公司有兩款產(chǎn)品A和B囊陡,想知道是更受男生歡迎還是更受女生用戶歡迎。從下面的表格中可以看到掀亥,單獨(dú)看AB兩款產(chǎn)品撞反,女生的轉(zhuǎn)化率都小于男生,可以認(rèn)為兩個(gè)產(chǎn)品都更受男生歡迎搪花。
但是綜合兩個(gè)產(chǎn)品看遏片,女生的轉(zhuǎn)化率又高于男生嘹害,又可以說女生更喜歡公司產(chǎn)品。居然得到兩個(gè)相違背的結(jié)論吮便。
這是為什么呢笔呀?從數(shù)據(jù)可以看到,兩款產(chǎn)品的總轉(zhuǎn)化率相差比較大线衫,男女分布又非常不平均凿可,這樣簡(jiǎn)單的將兩組數(shù)據(jù)相加匯總,得到的結(jié)果不能反應(yīng)真實(shí)的情況授账。
如何避免辛普森悖論呢枯跑,在做整體分析的時(shí)候,要考慮不同產(chǎn)品的權(quán)重白热,做好降權(quán)敛助,以一定的系數(shù)去消除以分組資料基數(shù)差異所造成的影響,才能得到一個(gè)正確的結(jié)論屋确。
產(chǎn)品 | 女生新用戶 | 女生轉(zhuǎn)化數(shù) | 女生轉(zhuǎn)化率 | 男生新用戶 | 男生轉(zhuǎn)化數(shù) | 男生轉(zhuǎn)化率 | 總新用戶 | 總轉(zhuǎn)化數(shù) | 總轉(zhuǎn)化率 |
---|---|---|---|---|---|---|---|---|---|
A | 1000 | 300 | 30.00% | 50 | 48 | 96.00% | 1050 | 348 | 33.14% |
B | 10 | 1 | 10.00% | 1000 | 110 | 11.00% | 1010 | 111 | 10.99% |
總計(jì) | 1010 | 301 | 29.80% | 1050 | 158 | 15.05% | 2060 | 459 | 22.28% |
小結(jié)
數(shù)據(jù)分析的目的是把數(shù)據(jù)中的知識(shí)提煉并表達(dá)出來纳击,溫故而知新。
作為分析師攻臀,要明確自己要分析什么焕数,關(guān)注哪些指標(biāo),明白指標(biāo)的定義以及計(jì)算規(guī)則刨啸,同時(shí)關(guān)注產(chǎn)品改動(dòng)堡赔,給出正確及時(shí)的分析結(jié)論。
給出清晰易理解的數(shù)據(jù)報(bào)告设联,是數(shù)據(jù)分析的意義以及分析師的責(zé)任善已。
歡迎關(guān)注
攻城錘的數(shù)據(jù)倉庫