(文章始發(fā)個人公眾號:川術(shù);歡迎關(guān)注)
引言
作為數(shù)據(jù)分析師湃番,我們的日常工作中,“核對數(shù)據(jù)”在所難免尊惰;某些“命途多舛”的時節(jié)泥兰,甚至幾天都在解決口徑核對的問題。同樣的一個指標(biāo)名稱鞋诗,數(shù)值卻千差萬別;各方有各方的說辭全庸,聽上去都有道理融痛,可湊到一起,除了“撕逼”再無其他拌消。為了解決這樣的困局安券,最近我開始介入到口徑治理這樣的項目中氓英。折騰快一個月,發(fā)現(xiàn)自己最初也低估了事情的難度铝阐。打算邊干徘键,邊總結(jié),邊寫螟凭,寫成一個數(shù)據(jù)質(zhì)量系列它呀。希望這段經(jīng)驗?zāi)転楦嗳怂谩?/p>
原因剖析
一棒厘、對數(shù)據(jù)業(yè)務(wù)發(fā)展階段沒有準(zhǔn)確的認(rèn)知
我所在的是某互聯(lián)網(wǎng)獨角獸公司下隧。在這樣的公司,大家往往會產(chǎn)生“我們數(shù)據(jù)量很大=我們的數(shù)據(jù)很全面=我們的業(yè)務(wù)是數(shù)據(jù)驅(qū)動的=我們能用好數(shù)據(jù)=我們能把數(shù)據(jù)分析做好”的美好幻覺何乎。說實話土辩,這個幻覺只有第一部分準(zhǔn)確,而往往是數(shù)據(jù)量極大脯燃,才會使得后面的問題更加突出辕棚。本文的目的并不是一一戳破幻覺,因此暫不展開逝嚎。
如上圖补君,我是這么總結(jié)一個公司或者部門的數(shù)據(jù)業(yè)務(wù)發(fā)展階段。要做到口徑清晰挽铁,人人用對,至少發(fā)展到“分析師能描述&業(yè)務(wù)方懂量化”的程度楣铁。而現(xiàn)實是更扁,我們還沒有達(dá)到“分析師取對數(shù)&業(yè)務(wù)方要數(shù)據(jù)”的層次。
何謂“能描述”溃列?即分析師能深入理解業(yè)務(wù)上下文膛薛,能構(gòu)造一個或者多個信效度都優(yōu)秀的指標(biāo),將業(yè)務(wù)問題準(zhǔn)確表達(dá)相叁。何謂“懂量化”辽幌?即業(yè)務(wù)方(數(shù)據(jù)結(jié)果的使用者)椿访,能夠理解分析師構(gòu)造的指標(biāo)邏輯和目的,能夠?qū)⒅笜?biāo)的變化與業(yè)務(wù)變化對應(yīng)上加酵,并且在表達(dá)和應(yīng)用中哭当,保持“同名同意”。
二陋葡、數(shù)據(jù)基礎(chǔ)設(shè)施不健全
取相同指標(biāo)彻采,10個人有10個數(shù)據(jù)源外加10種sql寫法,3個環(huán)節(jié)都還會出錯岭粤,要對齊特笋,概率比中500萬高不了多少。因此猎物,在數(shù)據(jù)基礎(chǔ)設(shè)施上總結(jié)起來就一句話:“異人,同源溜宽,同路质帅,同法”留攒。同源,即將數(shù)據(jù)分析師應(yīng)用的數(shù)據(jù)源盡量減少魄揉。數(shù)據(jù)倉庫的層次清晰:
- 最細(xì)顆粒度的底層表拭宁,不同主體具備唯一性瓣俯,專人高頻維護(hù)兵怯。
- 不同業(yè)務(wù)部門的數(shù)據(jù)匯總需求,做成主題式的表或視圖驼仪,繼承于唯一性的底層表袜漩。
同路,即指標(biāo)維護(hù)有相應(yīng)的平臺奠货;核心指標(biāo)的口徑和樣例代碼座掘,長期穩(wěn)定,變更要有嚴(yán)格審核流程雹顺。
同法,即不同的分析師遵照同一平臺和規(guī)范贩挣,定義指標(biāo)并寫代碼掰曾。
(數(shù)據(jù)基礎(chǔ)設(shè)施完善是一個專題括享,會有專門討論的文章铸抑。)
三洽议、數(shù)據(jù)使用者高估自己的頭腦
前面說到過數(shù)據(jù)量大造成的一系列幻覺挂疆。其中“我們是數(shù)據(jù)驅(qū)動=我們能用好數(shù)據(jù)”這個環(huán)節(jié)下翎,尤其容易蒙蔽雙眼。老板強(qiáng)調(diào)“數(shù)據(jù)驅(qū)動決策”本沒有錯胆萧,但并不意味著強(qiáng)調(diào)了俐东,我們就掌握數(shù)據(jù)驅(qū)動订晌。很營養(yǎng)的東西吃多了蚌吸,并不會身強(qiáng)體健,而會消化不良推励。這當(dāng)中有一個“學(xué)習(xí)消化”的環(huán)節(jié)肉迫。
訓(xùn)練自己的大腦,使其具備更清晰的邏輯思維能力跌造,更多樣化的思考框架族购,是應(yīng)用數(shù)據(jù)的前提。現(xiàn)實情況中寝杖,我們總會發(fā)現(xiàn),不管是分析師還是業(yè)務(wù)人員磕蒲,面對著一堆數(shù)據(jù)只盹、圖表或者模型結(jié)果,不知所云站削;管理層聽得似懂非懂孵稽,聽眾不懂裝懂。我們大多數(shù)人(包括90%時間的我自己)街氢,面對問題和數(shù)據(jù)睦袖,只能應(yīng)用最低效的思考方式荣刑,說好聽點叫“啟發(fā)式思維”伦乔,說難聽點就是“想一出是一出董习,全靠蒙”。不訓(xùn)練招刹,哪來的腦力提高窝趣?
舉一個更具體的例子,我稱之為“數(shù)據(jù)質(zhì)量悖論”:
因為數(shù)據(jù)對不上的問題妇拯,許多業(yè)務(wù)人員沒有安全感洗鸵,會從多個數(shù)據(jù)源(多個分析師或者多個數(shù)據(jù)產(chǎn)品)取數(shù)核對,而多個數(shù)據(jù)源的計算邏輯是他們的“腦力”所不能支持的甘凭,因此會有更多核對不上的問題火邓,造成更大的不安全感。這種不安全感會轉(zhuǎn)化成對數(shù)據(jù)團(tuán)隊負(fù)面的反饋和評價贡翘,進(jìn)而造成更多人的不安全感和數(shù)據(jù)團(tuán)隊的信心缺失鸣驱,這個循環(huán)的波及面就會迅速擴(kuò)大。
這個悖論踊东,聽上去讓人很絕望,這就是數(shù)據(jù)對齊很難的一大核心原因再芋。有解決方案嗎坚冀?應(yīng)該是有的,但我們正在尋找中司训。有一點可以明確,那就是控制自己腦子獲取的數(shù)據(jù)量勾徽。我們都應(yīng)該承認(rèn):我們是不夠聰明的统扳,而數(shù)據(jù)是復(fù)雜的(多指標(biāo)交叉多維度)。所以吹由,不要輕易“四處要數(shù)據(jù)”盯腌。
四、分析師沒有規(guī)范&數(shù)據(jù)使用者沒有質(zhì)量意識
這一點腕够,也許是目前困境的最直白表述帚湘。
目前,我們的某些分析師取數(shù)寫碼非炒笾睿“想當(dāng)然”资柔,即只按自身理解來提取數(shù)據(jù)焙贷,完全不理會已有的數(shù)據(jù)平臺上對于指標(biāo)的標(biāo)準(zhǔn)定義和樣例代碼辙芍。加上業(yè)務(wù)方?jīng)]有數(shù)據(jù)質(zhì)量意識羹与,拿了就用;再加上業(yè)務(wù)領(lǐng)導(dǎo)也沒有數(shù)據(jù)質(zhì)量意識吃衅,聽了就信腾誉,信了就決策峻呕。惑灵。眼耀。
從這個角度說,我希望所有數(shù)據(jù)的使用者干花,拿到一個結(jié)果楞黄,先好好審核,有沒有計算口徑說明肿仑,是不是合理且標(biāo)準(zhǔn)的定義碎税,多反問對接的分析師。以我的理念伟端,在數(shù)據(jù)報告或者產(chǎn)品中匪煌,不寫出口徑定義的分析師,都是耍流氓霜医,這是一種及其不負(fù)責(zé)任的行為驳规。
許多分析師,總把注意力集中在模型值朋、算法巩搏、業(yè)務(wù)決策、產(chǎn)品方案等看上去高大上的事情上丰辣,不是說這不對,但這需要根基飘哨。根基就是踏踏實實的數(shù)據(jù)質(zhì)量:
- 高質(zhì)量的sql代碼:注釋全面琐凭、口徑明確、層次清晰胚吁。
- 嚴(yán)謹(jǐn)愁憔、負(fù)責(zé)的職業(yè)素養(yǎng)。
- 全面半抱、及時的溝通習(xí)慣膜宋。
五、數(shù)據(jù)應(yīng)用能力尚待提高
簡單地說棉磨,就是所有人学辱,都要多學(xué)習(xí),而且是互相學(xué)習(xí)衙傀。如果人人都懂業(yè)務(wù)萨咕、懂?dāng)?shù)據(jù)分析、懂產(chǎn)品聪建、懂開發(fā)茫陆,那我相信就沒有這么多數(shù)據(jù)對不上的“幺蛾子”。但我知道這是不可能實現(xiàn)的挥下。但人具備復(fù)合型的知識,非常有必要现斋。我們不需要門門精通偎蘸,但需要樣樣入門。鍛煉我們的思維蔓肯,梳理我們的邏輯振乏,不要用我們既有的知識去理解發(fā)展當(dāng)中的問題秉扑。
最后,入門數(shù)據(jù)分析误澳,推薦我的書
《數(shù)據(jù)化運營俗稱手冊》