文章轉載自知乎專欄“撩撩數據吧”。原文鏈接:https://zhuanlan.zhihu.com/p/21378331?refer=jiago
#文前小絮#很久之前璧坟,你我都曾經做過物理題既穆。記得那時老師經常嘮叨,“先認真審題雀鹃,理解題意幻工,然后再想方法,最后再落筆去做”黎茎;“審題澳衣!審題案嫡啊踢代!說過幾遍怎么就是不聽,尋思鷹呢嗅骄?”
理解當年老師的良苦用心胳挎,歷經磨難,你我也都順利結束了學業(yè)溺森,不必再審題慕爬、不必再做題、不必再考試屏积。然而医窿,人生不如意十之八九,你我又再次走上了數據分析的道路炊林。
轉換為現在的視角姥卢。我們做數據分析的目的,是為了解決問題,換個詞独榴,是為了有用啊僧叉。那么你做的分析,有用嗎括眠,怎樣做的分析才有用呢彪标?
直接將分析結果利用,轉換為價值的掷豺,是業(yè)務”∩或許按照這樣的路線來做分析当船,更有用。
先審題(理解業(yè)務默辨,做為方向)
思考方法(分析思路德频,設計分析方案)
下筆(選擇分析技術,開始分析)缩幸。
可見壹置,套路是和我們當年做題一樣的吧,可是表谊,當年的物理題也做過了不少钞护,多苦多累我們都熬過去了,為什么到了數據分析這里爆办,還是很多問題呢难咕?私以為,做題是一個人的事距辆,而現在做分析余佃,變成了一個組織的事,銜接出了問題跨算。
正文
做數據分析可能出現的失敗場景:
分析結果就是錯的
分析結果是對的爆土,然而并沒有什么卵用,結果產生不了價值
根據分析結果诸蚕,可以給出建議方向步势,但是很空洞,無法落地
分析結果對挫望、建議方向也對立润、也有落地的方案,但是業(yè)務就是不執(zhí)行
第一種場景比較少見媳板、而后面的幾種場景卻是做數據分析的經常會碰到桑腮。舉個栗子。
場景a:公司在6月18號跟著京東一起搞了個618大促蛉幸,結束后業(yè)務找到老王破讨,說:“老王啊丛晦,我們活動做完了,給我做個分析提陶,讓我看看活動效果怎么樣烫沙?”
老王接到任務開始收集數據、處理數據隙笆、做模型锌蓄、畫報表。最終出來結論:“我們本次活動期間撑柔,環(huán)比上周末uv增長了150%瘸爽,綜合轉化率提高了27%,訂單量增長了110%铅忿,銷售額增長了85%剪决。其中江蘇省訂單占比最高,達到了27%檀训。柑潦。。峻凫∩恚”
業(yè)務:“你要說明什么,是想告訴我活動真好蔚晨,明年還搞618大促嗎乍钻?”
此時,老王只能期待他一臉懵逼的表情來萌翻業(yè)務了铭腕。
場景b:業(yè)務:“老王银择,感覺公司的綜合轉化率有點低,你給我做個分析累舷,看看是什么問題”
向來以行動力強浩考,技術水平高的老王,結合大量的訪問數據被盈、用戶數據析孽、訂單數據,采用聚類分析算法只怎、主成分分析袜瞬、相關行分析等挖掘手段。成功的發(fā)現身堡,年齡段在40歲以上的男性群體邓尤,綜合轉化率超高,平均達到47%,所以建議業(yè)務汞扎,制定拉新策略季稳,提高這一用戶群體的訪問量。整體的轉化率就可以上來了澈魄。
業(yè)務:“但是這群人景鼠,平時很少上網啊”。
老王再次懵逼痹扇。
場景c:老王:“我做了一個用戶流失預警模型铛漓,發(fā)現有a類行為特征用戶在注冊后30天左右流失概率最大,有b類行為特征的用戶在40天左右流失概率最大鲫构,有c類行為特征的用戶在50天左右流失概率最大票渠,那么我們只需要做一個精準的關懷,針對不同行為特征的用戶芬迄,在不同的時間點,推送廣告昂秃、或者發(fā)放優(yōu)惠券禀梳,就能夠有效的降低流失率”。
業(yè)務:“老王肠骆,你說的很對算途,但是我們公司小,實現這樣的精準投放成本太高了蚀腿,我們現在每天忙成狗嘴瓤,核心的內容體驗還沒做好,你的建議后面再考慮吧莉钙,辛苦了廓脆。。磁玉⊥7蓿”
老王他已經很努力了,但是分析結果確不盡如人意蚊伞。
我們常常見到數據分析師抱怨:我的工作不夠重視席赂,他們要數據的時候就讓我提取一下,最多做個簡單的加工时迫;業(yè)務做決策都不看數據颅停,全憑經驗來;業(yè)務開會掠拳,討論方案從來不叫上我癞揉,不參考我們的意見。
同時,也能聽到業(yè)務方的抱怨:數據部門提供的結果烧董,都不是我想要的毁靶;數據部門太天真,提供的方案太多漏洞逊移;數據部門的人都不懂業(yè)務预吆,拿著點數據就能來指導我們嗎;
我想胳泉,這里就是業(yè)務與分析之間的銜接出了問題拐叉。業(yè)務不相信數據,當一個分析結果與他的設想不同時扇商,首先就是懷疑數據凤瘦,他所做的分析,僅僅是為了驗證自己的觀點案铺。
見過數據分析做的比較好的公司蔬芥,一個是bi經理是產品經理出身,懂業(yè)務控汉、懂產品笔诵、懂運營,所以他帶隊做的分析項目自然貼合業(yè)務需求姑子。還有一個是公司將數據化運營提升到了很高的高度乎婿,培養(yǎng)公司業(yè)務具有數據意識,了解數據分析的思路街佑,認同數據分析的價值谢翎,知道如何利用分析結果。
可以是數據分析師向業(yè)務多走一步沐旨,也可以是業(yè)務人員向數據多走一步森逮,使得兩方面有一定的重疊,做好這個銜接希俩,數據分析可能就會更有用吊宋。嗯,你們邁出的這一小步颜武,就是你們公司的一大步璃搜。
一方面,培養(yǎng)全公司業(yè)務的數據意識鳞上,是需要時間并且有難度的这吻。另一方面,作為一個數據分析師篙议,也應該更多的了解業(yè)務唾糯,這樣才能把“業(yè)務的需求”轉化為數據需求怠硼,再進一步把分析結果轉化為有意義、可落地移怯、可產生價值的方案香璃。同時也能反過來完善自己的知識體系,提升自身的業(yè)務理解能力和數據分析能力舟误。
問題來了葡秒,怎樣去了解業(yè)務呢,只能說嵌溢,世上無捷徑眯牧,除非你改行。能想到的方法赖草,就是交流交流再交流学少,當業(yè)務需要分析一個活動效果的時候,多問一句秧骑,你關心哪些指標版确?哪些參數會影響一個活動的成效?當業(yè)務要分析轉化率的時候乎折,多問一句阀坏,影響轉化率的因素有哪些,有哪些方法可以提高轉化率笆檀。都是一個公司的,沒事請業(yè)務吃頓飯盒至,沒有什么是一頓飯解決不了的酗洒,如果有,那就兩頓枷遂,吃著吃著樱衷,不僅你懂了業(yè)務,業(yè)務也懂你了酒唉。
交流矩桂,聽起來很簡單,做起來是最難的痪伦,尤其大部分數據分析師都是數學侄榴、統(tǒng)計學、計算機等這種理工科出身网沾。會有人期待一個更簡單的方法癞蚕。例如:數據部門只做技術,分析全都交給業(yè)務部門如何辉哥,我們買bi工具桦山,讓業(yè)務實現自主分析攒射。你說用bi來節(jié)省工作量降低時間成本我信,你給bi這么艱巨的任務恒水,且不說bi工具的分析能力有限会放,無法實現深度分析和挖掘,業(yè)務部門的數據意識上去了嗎钉凌?沒有統(tǒng)籌咧最,各個業(yè)務部門的分析結果相互沖突怎么辦呢?業(yè)務部門的分析結果不客觀甩骏,對于公司來說窗市,是最好的嗎?
所以饮笛,對于一整個數據分析體系而言咨察,工具和技術只是輔助,業(yè)務和思路才是核心和重點福青。
談到技術摄狱,再進入到第二個銜接點。
互聯(lián)網公司一直處于技術的前沿无午,技術可能都不是問題(如果跟一個互聯(lián)網公司說你技術不行媒役,就希望他們公司程序員加班太多打人的力氣都變小了吧),更多的可能是對技術的選擇宪迟。
私以為互聯(lián)網行業(yè)的數據分析需求可以大體上分為三類:
業(yè)務常規(guī)需求酣衷,主要是輔助業(yè)務日常工作用
指標監(jiān)控與數據呈現類,為管理和決策提供支持次泽,也為后面的針對性的挖掘分析提供入口
有主題有針對性的挖掘分析穿仪,為運營、產品的改善提供數據依據意荤,具有一定的驅動價值
對于第1類和第2類需求啊片,有用開源報表的、有用商用報表的玖像、有用bi的紫谷、有寫echart的也有用excel的。對于第三類需求捐寥,有用sas的笤昨、spss、python的握恳、r的甚至有用c++的咬腋。
要說哪一類技術或工具才是最好的呢,我相信沒有睡互,如何選擇根竿,更多的是要結合業(yè)務場景陵像,有時是多種工具同時使用,才是最佳的寇壳。如何才能做好這一點醒颖,我想就是要有清晰的分析思路,和熟練的分析技能(對各種工具的了解)壳炎。也就是打通第二個銜接點泞歉。
對于很多分析師來說,這一點要比第一個銜接點容易的多匿辩。但是我再多說一點的是腰耙,分析手段的選擇,不僅要考慮分析實現的可行性铲球,也要考慮分析成本挺庞,主要的就是時間成本。R語言現在大量應用于互聯(lián)網公司稼病,我想也是因為它提供大量的統(tǒng)計函數和算法选侨,降低了數據分析成本的原因,當然然走,少不了它開源的巨大優(yōu)勢援制。
同樣,對于第1類和第2類需求芍瑞,選擇實現方案晨仑,也要考慮成本。相比較來說拆檬,這兩類需求的實現難度更低寻歧,相信對于任何公司來說,也都是并非核心技術秩仆。有堅持用excel的,也有堅持碼代碼的猾封。當然澄耍,具體怎樣選擇也要結合業(yè)務場景,但是綜合起來看晌缘,如果有方法一天就實現齐莲,就盡量不要花兩天時間去開發(fā)。例如一個好的報表工具例如finereport磷箕,相比于開源report或者echart來說选酗,還是節(jié)約一定的時間成本的,省下的程序員岳枷,還能打掃打掃衛(wèi)生啊芒填。
以上是我對互聯(lián)網行業(yè)中數據分析業(yè)務的一些淺薄的看法呜叫,如有不當的地方,歡迎批評指正和交流殿衰。
作者:知乎達人“jiago王”朱庆,知乎專欄“撩撩數據吧”。帆軟數據人闷祥,樂于交流的數據小兵娱颊。