(一晃有一年多沒(méi)有動(dòng)筆寫(xiě)東西了领突。最近的各種變化,促成了寫(xiě)一些“小感”的意愿案怯,給自己過(guò)去的一年半君旦,一個(gè)交代。)
當(dāng)下嘲碱,正在組建一支初步定位于“數(shù)據(jù)產(chǎn)品”的團(tuán)隊(duì)金砍。回顧過(guò)去帶一支商業(yè)分析團(tuán)隊(duì)麦锯,與公司內(nèi)各種角色的配合經(jīng)歷恕稠,有個(gè)問(wèn)題越來(lái)越困擾我:我們做的是數(shù)據(jù)分析么?
從我個(gè)人角度扶欣,做些不準(zhǔn)確的抽象:
- 統(tǒng)計(jì)業(yè)務(wù)指標(biāo)鹅巍,附加業(yè)務(wù)信息,多渠道呈現(xiàn)料祠。
- 用數(shù)字和淺層的圖表骆捧,描述業(yè)務(wù)狀況。
- 量化業(yè)務(wù)目標(biāo)术陶,形成KPI凑懂,然后層層拆解與核對(duì)。
- 以業(yè)務(wù)動(dòng)作和特性梧宫,解釋業(yè)務(wù)結(jié)果接谨,再用數(shù)據(jù)來(lái)“貫通”這個(gè)過(guò)程。
- 從業(yè)務(wù)理解出發(fā)塘匣,用數(shù)據(jù)搭建運(yùn)營(yíng)框架或產(chǎn)品框架脓豪。
- 數(shù)據(jù)源治理,數(shù)據(jù)表設(shè)計(jì)忌卤,指標(biāo)管理扫夜。
- 羅列多個(gè)指標(biāo),從一些模棱兩可的結(jié)論中,選出出某些“洞察”或者“策略”笤闯。
- 先有判斷堕阔,或者先有目的,再用數(shù)字“驗(yàn)證”颗味。
- 根據(jù)業(yè)務(wù)需求超陆,交付需求方想要的“東西”。
- 浦马。时呀。。
這些工作晶默,都有價(jià)值谨娜,也都有邏輯可循,并沒(méi)有對(duì)錯(cuò)及好壞磺陡。但這些是數(shù)據(jù)分析么趴梢?換個(gè)角度思考,上述做法仅政,有許多并不是“分析”垢油,而有的是“分析”,但分析的是業(yè)務(wù)問(wèn)題或者商業(yè)問(wèn)題圆丹。
不是“分析”的工作,一定條件下可以往“分析”轉(zhuǎn)變躯喇,或者以“分析”作為支撐辫封。而何謂“分析”?討論“分析”這個(gè)定義廉丽,我們需要從“起點(diǎn)”倦微、“對(duì)象”、“目的”正压、“路徑”欣福、“評(píng)價(jià)”幾個(gè)維度展開(kāi)。起點(diǎn)是什么焦履?往往最關(guān)鍵拓劝。
再往下問(wèn)一層,就是數(shù)據(jù)分析的起點(diǎn)是什么嘉裤?從我個(gè)人角度看:
“數(shù)據(jù)分析的起點(diǎn)應(yīng)該是蘊(yùn)含在可獲取的量化數(shù)據(jù)集中的有效信息郑临。”
怎么理解這句話(huà)呢屑宠?
首先厢洞,“量化數(shù)據(jù)集”,可理解成“標(biāo)尺”。舉個(gè)栗子躺翻,客戶(hù)吐槽產(chǎn)品體驗(yàn)的一段文本丧叽,不是量化數(shù)據(jù)集,而從文本轉(zhuǎn)化而來(lái)的客戶(hù)滿(mǎn)意度分值公你,是量化數(shù)據(jù)集踊淳。
其次,“有效信息”省店,是指量化的數(shù)據(jù)嚣崭,需要有實(shí)際的業(yè)務(wù)含義。舉個(gè)栗子懦傍,根據(jù)客戶(hù)吐槽文本雹舀,轉(zhuǎn)化而來(lái)的對(duì)產(chǎn)品的喜好分值,是有效的粗俱;而文本中“的”字的使用次數(shù)说榆,也是個(gè)量化的結(jié)果,但一般就不是有效的信息寸认。
最后签财,是“可獲取”,是指在成本可接受的情況下偏塞,能收集到唱蒸,或通過(guò)商業(yè)理解及算法能“挖掘”而出的可能。再來(lái)個(gè)栗子灸叼,用戶(hù)通過(guò)各種方式向好友推薦產(chǎn)品的次數(shù)神汹,也許花再多的錢(qián)和精力,也統(tǒng)計(jì)不到倆人見(jiàn)面吃飯時(shí)候聊天的內(nèi)容古今;但是卻有可能挖掘用戶(hù)在線(xiàn)上與好友互動(dòng)的行為屁魏,由算法評(píng)估出推薦的程度。
從起點(diǎn)捉腥,業(yè)務(wù)分析 VS 數(shù)據(jù)分析
為什么要這么拆開(kāi)來(lái)看呢氓拼?這兩者不應(yīng)該是一體么?
從前我也這么認(rèn)為抵碟,但漸漸地我發(fā)現(xiàn)桃漾,現(xiàn)在的分析師們,也許太沉溺于皮毛的業(yè)務(wù)描述立磁,而丟掉了從“量化數(shù)據(jù)集”中挖掘信息的能力呈队。我希望以“起點(diǎn)”的討論,激起大家的思考唱歧,填補(bǔ)日常工作當(dāng)中也許已經(jīng)缺失很久的部分宪摧。
業(yè)務(wù)分析(或者說(shuō)商業(yè)分析)的起點(diǎn)粒竖,往往是業(yè)務(wù)問(wèn)題。往細(xì)了說(shuō)几于,也許是舉棋不定需要做的決策蕊苗,也許是需要驗(yàn)證的某個(gè)功能,也許是需要看清楚形勢(shì)沿彭,也許是需要用于爭(zhēng)取資源的“支撐”朽砰,也許。喉刘。瞧柔。
以我的觀察,日常工作中睦裳,往往是需求方以這些起點(diǎn)造锅,直接引申成了分析需求;而分析師丟失了將業(yè)務(wù)起點(diǎn)轉(zhuǎn)換為數(shù)據(jù)分析起點(diǎn)的過(guò)程廉邑,或者說(shuō)不具備這個(gè)能力哥蔚。再加上分析師往往不夠理解業(yè)務(wù)本質(zhì),不了解業(yè)務(wù)執(zhí)行細(xì)節(jié)蛛蒙,沒(méi)有全面的信息來(lái)源糙箍,導(dǎo)致后續(xù)的執(zhí)行鏈條,和對(duì)數(shù)據(jù)的應(yīng)用牵祟,全都在淺層的業(yè)務(wù)邏輯上打轉(zhuǎn)深夯。
我的觀察也許比較片面,但讀者可以根據(jù)下面的列表诺苹,判斷一下自己是否有如下表現(xiàn)塌西。若有,說(shuō)明忽略了“數(shù)據(jù)分析的起點(diǎn)”筝尾,應(yīng)該反思怎么做,能回歸數(shù)據(jù)分析办桨,找到業(yè)務(wù)解讀和數(shù)據(jù)解讀的平衡筹淫。
- 對(duì)取好的數(shù)據(jù),拿來(lái)就用呢撞,不做數(shù)據(jù)集的認(rèn)知损姜,檢驗(yàn)數(shù)據(jù)質(zhì)量,比如空值殊霞、異常值摧阅、數(shù)據(jù)分布、全距绷蹲、方差標(biāo)準(zhǔn)差棒卷、變異系數(shù)等等顾孽。
- 對(duì)數(shù)據(jù)字段的加工,只做匯總和算數(shù)平均比规,不做字段內(nèi)的數(shù)學(xué)轉(zhuǎn)化若厚,如對(duì)數(shù)化、標(biāo)準(zhǔn)化或離散化蜒什;也不做字段間的組合運(yùn)算或模型轉(zhuǎn)化测秸,如指數(shù)化、PCA灾常、線(xiàn)性擬合霎冯、指示函數(shù)化等。
- 對(duì)于時(shí)間序列數(shù)據(jù)钞瀑,只會(huì)用折線(xiàn)圖展示原始指標(biāo)或者初步匯總的數(shù)據(jù)沈撞,缺乏趨勢(shì)線(xiàn)、預(yù)測(cè)線(xiàn)仔戈、異常值关串、波動(dòng)范圍等輔助觀察手段;缺乏周期性的觀察和檢驗(yàn)监徘;缺乏時(shí)間序列之間的相關(guān)性觀察和檢驗(yàn)晋修。
- 對(duì)于截面數(shù)據(jù),只會(huì)展示數(shù)值凰盔,而不考慮組合排序墓卦、離散化、編碼户敬、橫向?qū)Ρ嚷浼簟⒛:垲?lèi)、異常值識(shí)別等處理尿庐。
- 對(duì)于表格或者數(shù)據(jù)對(duì)比場(chǎng)景忠怖,只展示環(huán)比或者同比,缺乏累計(jì)同比抄瑟、定基比凡泣、差分、雙重差分皮假、交叉對(duì)比鞋拟、與外部輸入信息對(duì)比等多角度的對(duì)比方式。
- 在需要分層或者分類(lèi)的場(chǎng)景中惹资,只是對(duì)指標(biāo)進(jìn)行取舍贺纲,只通過(guò)2-3個(gè)指標(biāo)數(shù)值的分段,“切豆腐塊”褪测。缺乏多維下的聚類(lèi)猴誊、異常識(shí)別等處理潦刃;也缺乏多指標(biāo)降維的處理,及指標(biāo)間關(guān)系的研究稠肘。
- 在預(yù)測(cè)性問(wèn)題中福铅,只用線(xiàn)性回歸,且不嚴(yán)謹(jǐn)考慮回歸的擬合效果项阴;而不嘗試多種方法對(duì)比滑黔,或分階段建模,或搭建集成模型环揽。(見(jiàn)過(guò)許多R平方值0.5以下的結(jié)果略荡,也對(duì)外展示的報(bào)告)
- 。歉胶。汛兜。
暫且列舉這么多,如果大家命中了以上列表通今,真的需要靜下心來(lái)想一想粥谬,脫離了數(shù)據(jù)分析的起點(diǎn),你的分析價(jià)值會(huì)有多大辫塌?