數(shù)據(jù)分析

沉默的數(shù)據(jù)

大數(shù)據(jù)時(shí)代携御,似乎做什么事情都要"聽聽數(shù)據(jù)的",因?yàn)閿?shù)據(jù)不會(huì)說假話既绕,所以無論產(chǎn)品發(fā)展啄刹,策略調(diào)整,都跟著數(shù)據(jù)走準(zhǔn)沒錯(cuò)凄贩。畢竟數(shù)據(jù)是用戶真實(shí)反饋嘛誓军。
數(shù)據(jù)確實(shí)不會(huì)說假話,但是同樣疲扎,數(shù)據(jù)也不會(huì)說話昵时。經(jīng)過數(shù)據(jù)倉庫的整理,數(shù)據(jù)不再是雜亂無章的椒丧,但是整整齊齊的數(shù)據(jù)也只是數(shù)據(jù)壹甥,不是知識(shí)。面對(duì)這些數(shù)據(jù)壶熏,這些倉庫表句柠,這時(shí)候就需要有人來解讀其中的內(nèi)容,幫助數(shù)據(jù)把信息表達(dá)出來。這種人,是數(shù)據(jù)分析師溯职,這種行為管怠,就叫數(shù)據(jù)分析。

分析師:數(shù)據(jù)的代言人缸榄。
簡(jiǎn)單說一下,理論上來說祝拯,分析師是要通過數(shù)據(jù)中表現(xiàn)的用戶的反饋甚带,得知產(chǎn)品好壞是否受歡迎,同時(shí)對(duì)產(chǎn)品提出優(yōu)化調(diào)整策略(包括產(chǎn)品本身和推薦策略)佳头。
設(shè)想是好的鹰贵,實(shí)際上并沒有這樣,很多公司都有這個(gè)職位康嘉,但是部分?jǐn)?shù)據(jù)分析師很尷尬碉输,只是成了提數(shù),做報(bào)表的"大表哥""大表姐"亭珍。對(duì)優(yōu)化調(diào)整完全沒有話語權(quán)敷钾。因?yàn)閭鹘y(tǒng)的軟件開發(fā)中,產(chǎn)品/研發(fā)/測(cè)試這三種角色就像游戲中的戰(zhàn)法牧組合一樣肄梨,穩(wěn)定牢固阻荒,新加入的分析師呢?根據(jù)數(shù)據(jù)反饋對(duì)產(chǎn)品提出優(yōu)化方法众羡,算產(chǎn)品么侨赡?自己寫sql,Java粱侣,python計(jì)算羊壹,算研發(fā)么?自己驗(yàn)證數(shù)據(jù)保證數(shù)據(jù)準(zhǔn)確性齐婴,算測(cè)試么油猫?都不算,當(dāng)然尔店,更算不上是領(lǐng)導(dǎo)眨攘。在團(tuán)隊(duì)里找好定位,發(fā)揮分析師作用嚣州,和基礎(chǔ)技能一樣重要鲫售。

數(shù)據(jù)分析-定義

數(shù)據(jù)分析本質(zhì)上是統(tǒng)計(jì),對(duì)數(shù)據(jù)進(jìn)行詳細(xì)的研究该肴,提取出有意義的信息情竹,概括總結(jié)形成結(jié)論的過程。是對(duì)歷史的總結(jié)匀哄。

數(shù)據(jù)分析-方法

excel/python/r/mr/spark等工具秦效。

本文對(duì)數(shù)據(jù)分析的方法不做詳細(xì)的解說雏蛮,可以參考《深入淺出數(shù)據(jù)分析》等書詳細(xì)了解。

數(shù)據(jù)分析-內(nèi)容

分析有三寶:主題結(jié)論數(shù)據(jù)好阱州。
做分析之前挑秉,一定要知道此次分析的目的,不能無頭蒼蠅一般亂撞苔货。有主題有結(jié)論有數(shù)據(jù)論證犀概,才是一次好的分析。
產(chǎn)品追求的核心是用戶夜惭,用戶數(shù)這個(gè)簡(jiǎn)單的指標(biāo)姻灶,可以清楚的反應(yīng)產(chǎn)品的使用情況。但是不能僅僅關(guān)注用戶量這些指標(biāo)(新增/活躍/留存/流失等)诈茧,還要關(guān)注用戶的行為产喉,隨著產(chǎn)品形態(tài)的不同,具體關(guān)注的又不同敢会。比如網(wǎng)約車曾沈,關(guān)注的是人的打車頻率,車型的選擇走触,行程范圍晦譬;feed/短視頻,關(guān)注的是用戶的使用時(shí)長(zhǎng)互广;電商敛腌,關(guān)注的是用戶的GMV/行為路徑。不同產(chǎn)品有針對(duì)的設(shè)定指標(biāo)進(jìn)行分析惫皱,才能更好的體現(xiàn)用戶對(duì)產(chǎn)品的使用情況像樊,才能對(duì)產(chǎn)品提出有意義的優(yōu)化策略。

多數(shù)的時(shí)候旅敷,分析出來的結(jié)果會(huì)與基本認(rèn)知相符合生棍,不會(huì)每次分析都給人"眼前一亮"的感覺,這是正常的媳谁。

數(shù)據(jù)分析-可視化

分析出的結(jié)果怎么展示出來涂滴,也是非常重要的一步∏缫簦可視化的階段:

  • 黑底白字的控制臺(tái)展示
    這個(gè)階段就根本稱不上可視化柔纵,不要給別人看了,還不如把數(shù)據(jù)整理到excel里對(duì)外提供锤躁。曾記得當(dāng)初第一次給公司高層展示搁料,黑底白字控制臺(tái),敲兩個(gè)命令,出來幾行數(shù)郭计,領(lǐng)導(dǎo)看的一臉懵霸琴,這種情況,明明10分的工作昭伸,估計(jì)只能得5分梧乘。
  • 頁面表格
    把命令行展示的數(shù)據(jù),在頁面上用表格表現(xiàn)出來庐杨,只能說算一種"美化"宋下,最多增加下載功能。還是對(duì)數(shù)據(jù)的直接展示辑莫。
  • 頁面圖表
    從折線圖/餅圖/柱狀圖開始,才是對(duì)數(shù)據(jù)的直觀展示罩引。對(duì)不同的產(chǎn)品形態(tài)用不同的展示方法各吨。地圖熱點(diǎn)/熱力圖來表示網(wǎng)約車的使用情況。漏斗圖來表示轉(zhuǎn)化情況袁铐,等等揭蜒。
    通過多種多樣的圖表,讓人一眼能看到數(shù)據(jù)的情況剔桨。再用表格來進(jìn)行詳細(xì)數(shù)據(jù)描述屉更,組合拳出擊,達(dá)到最好的效果洒缀。

數(shù)據(jù)分析-報(bào)告

通過分析得到的結(jié)果瑰谜,即便是圖表展示,往往也會(huì)讓人不太清楚树绩,需要分析師進(jìn)行解讀萨脑。所以分析師的又一個(gè)核心技能:寫數(shù)據(jù)報(bào)告。
面對(duì)的觀眾不同饺饭,數(shù)據(jù)報(bào)告又分為微觀和宏觀兩種渤早。

  • 微觀
    對(duì)內(nèi),為產(chǎn)品優(yōu)化而做的報(bào)告瘫俊。
    在新功能(包括產(chǎn)品界面布局鹊杖,推薦策略等)準(zhǔn)備上線之前,ab test的時(shí)候扛芽,根據(jù)用戶使用的反饋數(shù)據(jù)骂蓖,產(chǎn)出分析報(bào)告,給出此次改動(dòng)是否達(dá)到預(yù)期胸哥,可否上線的結(jié)論涯竟。策略有很多種類,并且更新很快,所以這時(shí)候應(yīng)該能做到自動(dòng)給出簡(jiǎn)單的數(shù)據(jù)報(bào)告的能力庐船。
  • 宏觀
    對(duì)外银酬,讓用戶知道產(chǎn)品功能以外的內(nèi)容。
    這個(gè)不是必須的筐钟,但是是一種很好的宣傳:產(chǎn)品對(duì)現(xiàn)實(shí)世界的影響揩瞪。比如滴滴打車對(duì)擁堵的改善/碳排放的減少有什么貢獻(xiàn)(2015年中國(guó)智能出行大數(shù)據(jù)報(bào)告),短視頻對(duì)區(qū)域旅游/網(wǎng)紅電商帶來的影響(目前還沒看到類似的報(bào)告)篓冲,行業(yè)報(bào)告(2016微博短視頻行業(yè)報(bào)告)李破。等等。

報(bào)告書寫壹将,就像寫作文一樣嗤攻,要有條理,如果包含多個(gè)主題诽俯,需要用線索穿起來妇菱,讓人流暢閱讀。

  • 主題
    有針對(duì)才能進(jìn)行更好的分析暴区,得到結(jié)論闯团。如"用戶訪問情況概覽","登陸按鈕更換位置對(duì)用戶登陸的影響"仙粱,"留存與生命周期"房交,"各渠道用戶質(zhì)量分析報(bào)告"等。
  • 統(tǒng)計(jì)周期
    標(biāo)明此次分析統(tǒng)計(jì)周期伐割。使用數(shù)據(jù)范圍候味。
  • 結(jié)論
    通過分析得到了哪些結(jié)論,按照一定順序?qū)懴聛怼?/li>
  • 數(shù)據(jù)驗(yàn)證
    對(duì)給出的結(jié)論隔心,一一加以驗(yàn)證负溪。
  • 建議
    改進(jìn)建議/下次分析計(jì)劃。

數(shù)據(jù)分析-問題

不要被數(shù)據(jù)蒙蔽住眼睛济炎,不要迷信算法川抡。
在數(shù)據(jù)分析中,會(huì)遇到各種各樣的問題,導(dǎo)致分析結(jié)果并不能反應(yīng)真實(shí)的使用情況。下面分別介紹一下分析中可能遇到的誤區(qū)捷犹。

  • 幸存者偏差(Survivorship bias)
    是一種常見的邏輯謬誤(“謬誤”而不是“偏差”)。指的是只能看到經(jīng)過某種篩選而產(chǎn)生的結(jié)果密幔,而沒有意識(shí)到篩選的過程,因此忽略了被篩選掉的關(guān)鍵信息撩轰。
    在二戰(zhàn)的時(shí)候胯甩,軍隊(duì)檢查戰(zhàn)斗返航的飛機(jī)時(shí)發(fā)現(xiàn)昧廷,機(jī)翼中彈情況很多,機(jī)身中彈情況很少偎箫,就認(rèn)為飛機(jī)機(jī)翼更容易中彈木柬,開始加固機(jī)翼。實(shí)際是這樣么淹办?不是眉枕,因?yàn)闄C(jī)身中彈的很多飛機(jī)都沒有安全返回己方機(jī)場(chǎng)。
    現(xiàn)實(shí)生活中也有怜森。在用戶主動(dòng)參與的活動(dòng)中非常常見速挑。比如appsotre里面對(duì)產(chǎn)品的評(píng)價(jià),有一部分人(比如我)就從來沒在里面評(píng)價(jià)過副硅。我公司樓下對(duì)面有個(gè)徽菜飯店姥宝,極其差,但是在大眾點(diǎn)評(píng)上面評(píng)分還是三分多恐疲,有一些是刷單的伶授,還有一些吃一次不好吃就不再來,也不會(huì)在點(diǎn)評(píng)上打分流纹。這時(shí)候如果單純的從評(píng)分來看飯店好壞,很可能就是錯(cuò)的违诗。
    想要避免幸存者偏差漱凝,就一定要清楚,自己拿到的數(shù)據(jù)是否能代表全部用戶诸迟,如果不能茸炒,它代表的是哪些用戶。弄清楚這個(gè)的話阵苇,就不會(huì)掉到這個(gè)坑了壁公。
  • 辛普森悖論
    當(dāng)人們嘗試探究?jī)煞N變量(比如性別與轉(zhuǎn)化率)是否具有相關(guān)性的時(shí)候,會(huì)分別對(duì)之進(jìn)行分組研究绅项。然而紊册,在分組比較中都占優(yōu)勢(shì)的一方,在總評(píng)中有時(shí)反而是失勢(shì)的一方快耿。
    比如公司有兩款產(chǎn)品A和B囊陡,想知道是更受男生歡迎還是更受女生用戶歡迎。從下面的表格中可以看到掀亥,單獨(dú)看AB兩款產(chǎn)品撞反,女生的轉(zhuǎn)化率都小于男生,可以認(rèn)為兩個(gè)產(chǎn)品都更受男生歡迎搪花。
    但是綜合兩個(gè)產(chǎn)品看遏片,女生的轉(zhuǎn)化率又高于男生嘹害,又可以說女生更喜歡公司產(chǎn)品。居然得到兩個(gè)相違背的結(jié)論吮便。
    這是為什么呢笔呀?從數(shù)據(jù)可以看到,兩款產(chǎn)品的總轉(zhuǎn)化率相差比較大线衫,男女分布又非常不平均凿可,這樣簡(jiǎn)單的將兩組數(shù)據(jù)相加匯總,得到的結(jié)果不能反應(yīng)真實(shí)的情況授账。
    如何避免辛普森悖論呢枯跑,在做整體分析的時(shí)候,要考慮不同產(chǎn)品的權(quán)重白热,做好降權(quán)敛助,以一定的系數(shù)去消除以分組資料基數(shù)差異所造成的影響,才能得到一個(gè)正確的結(jié)論屋确。
產(chǎn)品 女生新用戶 女生轉(zhuǎn)化數(shù) 女生轉(zhuǎn)化率 男生新用戶 男生轉(zhuǎn)化數(shù) 男生轉(zhuǎn)化率 總新用戶 總轉(zhuǎn)化數(shù) 總轉(zhuǎn)化率
A 1000 300 30.00% 50 48 96.00% 1050 348 33.14%
B 10 1 10.00% 1000 110 11.00% 1010 111 10.99%
總計(jì) 1010 301 29.80% 1050 158 15.05% 2060 459 22.28%

小結(jié)

數(shù)據(jù)分析的目的是把數(shù)據(jù)中的知識(shí)提煉并表達(dá)出來纳击,溫故而知新。
作為分析師攻臀,要明確自己要分析什么焕数,關(guān)注哪些指標(biāo),明白指標(biāo)的定義以及計(jì)算規(guī)則刨啸,同時(shí)關(guān)注產(chǎn)品改動(dòng)堡赔,給出正確及時(shí)的分析結(jié)論。
給出清晰易理解的數(shù)據(jù)報(bào)告设联,是數(shù)據(jù)分析的意義以及分析師的責(zé)任善已。


歡迎關(guān)注

攻城錘的數(shù)據(jù)倉庫

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市离例,隨后出現(xiàn)的幾起案子换团,更是在濱河造成了極大的恐慌,老刑警劉巖宫蛆,帶你破解...
    沈念sama閱讀 218,546評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件艘包,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡耀盗,警方通過查閱死者的電腦和手機(jī)辑甜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來袍冷,“玉大人磷醋,你說我怎么就攤上這事『” “怎么了邓线?”我有些...
    開封第一講書人閱讀 164,911評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵淌友,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我骇陈,道長(zhǎng)震庭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,737評(píng)論 1 294
  • 正文 為了忘掉前任你雌,我火速辦了婚禮器联,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘婿崭。我一直安慰自己拨拓,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,753評(píng)論 6 392
  • 文/花漫 我一把揭開白布氓栈。 她就那樣靜靜地躺著渣磷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪授瘦。 梳的紋絲不亂的頭發(fā)上醋界,一...
    開封第一講書人閱讀 51,598評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音提完,去河邊找鬼形纺。 笑死,一個(gè)胖子當(dāng)著我的面吹牛徒欣,可吹牛的內(nèi)容都是我干的逐样。 我是一名探鬼主播,決...
    沈念sama閱讀 40,338評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼帚称,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了秽澳?” 一聲冷哼從身側(cè)響起闯睹,我...
    開封第一講書人閱讀 39,249評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎担神,沒想到半個(gè)月后楼吃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,696評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡妄讯,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,888評(píng)論 3 336
  • 正文 我和宋清朗相戀三年孩锡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片亥贸。...
    茶點(diǎn)故事閱讀 40,013評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡躬窜,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出炕置,到底是詐尸還是另有隱情荣挨,我是刑警寧澤男韧,帶...
    沈念sama閱讀 35,731評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站默垄,受9級(jí)特大地震影響此虑,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜口锭,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,348評(píng)論 3 330
  • 文/蒙蒙 一朦前、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鹃操,春花似錦韭寸、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至臭胜,卻和暖如春莫其,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背耸三。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工乱陡, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人仪壮。 一個(gè)月前我還...
    沈念sama閱讀 48,203評(píng)論 3 370
  • 正文 我出身青樓憨颠,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親积锅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子爽彤,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,960評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容