為什么數(shù)據(jù)對齊這么難饵史?(數(shù)據(jù)質(zhì)量系列之一)

(文章始發(fā)個人公眾號:川術(shù);歡迎關(guān)注)

引言

作為數(shù)據(jù)分析師湃番,我們的日常工作中,“核對數(shù)據(jù)”在所難免尊惰;某些“命途多舛”的時節(jié)泥兰,甚至幾天都在解決口徑核對的問題。同樣的一個指標(biāo)名稱鞋诗,數(shù)值卻千差萬別;各方有各方的說辭全庸,聽上去都有道理融痛,可湊到一起,除了“撕逼”再無其他拌消。為了解決這樣的困局安券,最近我開始介入到口徑治理這樣的項目中氓英。折騰快一個月,發(fā)現(xiàn)自己最初也低估了事情的難度铝阐。打算邊干徘键,邊總結(jié),邊寫螟凭,寫成一個數(shù)據(jù)質(zhì)量系列它呀。希望這段經(jīng)驗?zāi)転楦嗳怂谩?/p>

原因剖析

一棒厘、對數(shù)據(jù)業(yè)務(wù)發(fā)展階段沒有準(zhǔn)確的認(rèn)知

我所在的是某互聯(lián)網(wǎng)獨角獸公司下隧。在這樣的公司,大家往往會產(chǎn)生“我們數(shù)據(jù)量很大=我們的數(shù)據(jù)很全面=我們的業(yè)務(wù)是數(shù)據(jù)驅(qū)動的=我們能用好數(shù)據(jù)=我們能把數(shù)據(jù)分析做好”的美好幻覺何乎。說實話土辩,這個幻覺只有第一部分準(zhǔn)確,而往往是數(shù)據(jù)量極大脯燃,才會使得后面的問題更加突出辕棚。本文的目的并不是一一戳破幻覺,因此暫不展開逝嚎。

數(shù)據(jù)業(yè)務(wù)發(fā)展階段的認(rèn)知

如上圖补君,我是這么總結(jié)一個公司或者部門的數(shù)據(jù)業(yè)務(wù)發(fā)展階段。要做到口徑清晰挽铁,人人用對,至少發(fā)展到“分析師能描述&業(yè)務(wù)方懂量化”的程度楣铁。而現(xiàn)實是更扁,我們還沒有達(dá)到“分析師取對數(shù)&業(yè)務(wù)方要數(shù)據(jù)”的層次。
何謂“能描述”溃列?即分析師能深入理解業(yè)務(wù)上下文膛薛,能構(gòu)造一個或者多個信效度都優(yōu)秀的指標(biāo),將業(yè)務(wù)問題準(zhǔn)確表達(dá)相叁。何謂“懂量化”辽幌?即業(yè)務(wù)方(數(shù)據(jù)結(jié)果的使用者)椿访,能夠理解分析師構(gòu)造的指標(biāo)邏輯和目的,能夠?qū)⒅笜?biāo)的變化與業(yè)務(wù)變化對應(yīng)上加酵,并且在表達(dá)和應(yīng)用中哭当,保持“同名同意”。

二陋葡、數(shù)據(jù)基礎(chǔ)設(shè)施不健全

取相同指標(biāo)彻采,10個人有10個數(shù)據(jù)源外加10種sql寫法,3個環(huán)節(jié)都還會出錯岭粤,要對齊特笋,概率比中500萬高不了多少。因此猎物,在數(shù)據(jù)基礎(chǔ)設(shè)施上總結(jié)起來就一句話:“異人,同源溜宽,同路质帅,同法”留攒。同源,即將數(shù)據(jù)分析師應(yīng)用的數(shù)據(jù)源盡量減少魄揉。數(shù)據(jù)倉庫的層次清晰:

  • 最細(xì)顆粒度的底層表拭宁,不同主體具備唯一性瓣俯,專人高頻維護(hù)兵怯。
  • 不同業(yè)務(wù)部門的數(shù)據(jù)匯總需求,做成主題式的表或視圖驼仪,繼承于唯一性的底層表袜漩。
    同路,即指標(biāo)維護(hù)有相應(yīng)的平臺奠货;核心指標(biāo)的口徑和樣例代碼座掘,長期穩(wěn)定,變更要有嚴(yán)格審核流程雹顺。
    同法,即不同的分析師遵照同一平臺和規(guī)范贩挣,定義指標(biāo)并寫代碼掰曾。
    (數(shù)據(jù)基礎(chǔ)設(shè)施完善是一個專題括享,會有專門討論的文章铸抑。)

三洽议、數(shù)據(jù)使用者高估自己的頭腦

前面說到過數(shù)據(jù)量大造成的一系列幻覺挂疆。其中“我們是數(shù)據(jù)驅(qū)動=我們能用好數(shù)據(jù)”這個環(huán)節(jié)下翎,尤其容易蒙蔽雙眼。老板強(qiáng)調(diào)“數(shù)據(jù)驅(qū)動決策”本沒有錯胆萧,但并不意味著強(qiáng)調(diào)了俐东,我們就掌握數(shù)據(jù)驅(qū)動订晌。很營養(yǎng)的東西吃多了蚌吸,并不會身強(qiáng)體健,而會消化不良推励。這當(dāng)中有一個“學(xué)習(xí)消化”的環(huán)節(jié)肉迫。
訓(xùn)練自己的大腦,使其具備更清晰的邏輯思維能力跌造,更多樣化的思考框架族购,是應(yīng)用數(shù)據(jù)的前提。現(xiàn)實情況中寝杖,我們總會發(fā)現(xiàn),不管是分析師還是業(yè)務(wù)人員磕蒲,面對著一堆數(shù)據(jù)只盹、圖表或者模型結(jié)果,不知所云站削;管理層聽得似懂非懂孵稽,聽眾不懂裝懂。我們大多數(shù)人(包括90%時間的我自己)街氢,面對問題和數(shù)據(jù)睦袖,只能應(yīng)用最低效的思考方式荣刑,說好聽點叫“啟發(fā)式思維”伦乔,說難聽點就是“想一出是一出董习,全靠蒙”。不訓(xùn)練招刹,哪來的腦力提高窝趣?
舉一個更具體的例子,我稱之為“數(shù)據(jù)質(zhì)量悖論”:

因為數(shù)據(jù)對不上的問題妇拯,許多業(yè)務(wù)人員沒有安全感洗鸵,會從多個數(shù)據(jù)源(多個分析師或者多個數(shù)據(jù)產(chǎn)品)取數(shù)核對,而多個數(shù)據(jù)源的計算邏輯是他們的“腦力”所不能支持的甘凭,因此會有更多核對不上的問題火邓,造成更大的不安全感。這種不安全感會轉(zhuǎn)化成對數(shù)據(jù)團(tuán)隊負(fù)面的反饋和評價贡翘,進(jìn)而造成更多人的不安全感和數(shù)據(jù)團(tuán)隊的信心缺失鸣驱,這個循環(huán)的波及面就會迅速擴(kuò)大。

這個悖論踊东,聽上去讓人很絕望,這就是數(shù)據(jù)對齊很難的一大核心原因再芋。有解決方案嗎坚冀?應(yīng)該是有的,但我們正在尋找中司训。有一點可以明確,那就是控制自己腦子獲取的數(shù)據(jù)量勾徽。我們都應(yīng)該承認(rèn):我們是不夠聰明的统扳,而數(shù)據(jù)是復(fù)雜的(多指標(biāo)交叉多維度)。所以吹由,不要輕易“四處要數(shù)據(jù)”盯腌。

四、分析師沒有規(guī)范&數(shù)據(jù)使用者沒有質(zhì)量意識

這一點腕够,也許是目前困境的最直白表述帚湘。
目前,我們的某些分析師取數(shù)寫碼非炒笾睿“想當(dāng)然”资柔,即只按自身理解來提取數(shù)據(jù)焙贷,完全不理會已有的數(shù)據(jù)平臺上對于指標(biāo)的標(biāo)準(zhǔn)定義和樣例代碼辙芍。加上業(yè)務(wù)方?jīng)]有數(shù)據(jù)質(zhì)量意識羹与,拿了就用;再加上業(yè)務(wù)領(lǐng)導(dǎo)也沒有數(shù)據(jù)質(zhì)量意識吃衅,聽了就信腾誉,信了就決策峻呕。惑灵。眼耀。
從這個角度說,我希望所有數(shù)據(jù)的使用者干花,拿到一個結(jié)果楞黄,先好好審核,有沒有計算口徑說明肿仑,是不是合理且標(biāo)準(zhǔn)的定義碎税,多反問對接的分析師。以我的理念伟端,在數(shù)據(jù)報告或者產(chǎn)品中匪煌,不寫出口徑定義的分析師,都是耍流氓霜医,這是一種及其不負(fù)責(zé)任的行為驳规。
許多分析師,總把注意力集中在模型值朋、算法巩搏、業(yè)務(wù)決策、產(chǎn)品方案等看上去高大上的事情上丰辣,不是說這不對,但這需要根基飘哨。根基就是踏踏實實的數(shù)據(jù)質(zhì)量:

  • 高質(zhì)量的sql代碼:注釋全面琐凭、口徑明確、層次清晰胚吁。
  • 嚴(yán)謹(jǐn)愁憔、負(fù)責(zé)的職業(yè)素養(yǎng)。
  • 全面半抱、及時的溝通習(xí)慣膜宋。

五、數(shù)據(jù)應(yīng)用能力尚待提高

簡單地說棉磨,就是所有人学辱,都要多學(xué)習(xí),而且是互相學(xué)習(xí)衙傀。如果人人都懂業(yè)務(wù)萨咕、懂?dāng)?shù)據(jù)分析、懂產(chǎn)品聪建、懂開發(fā)茫陆,那我相信就沒有這么多數(shù)據(jù)對不上的“幺蛾子”。但我知道這是不可能實現(xiàn)的挥下。但人具備復(fù)合型的知識,非常有必要现斋。我們不需要門門精通偎蘸,但需要樣樣入門。鍛煉我們的思維蔓肯,梳理我們的邏輯振乏,不要用我們既有的知識去理解發(fā)展當(dāng)中的問題秉扑。
最后,入門數(shù)據(jù)分析误澳,推薦我的書
《數(shù)據(jù)化運營俗稱手冊》

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末忆谓,一起剝皮案震驚了整個濱河市踱承,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌昙沦,老刑警劉巖载荔,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件懒熙,死亡現(xiàn)場離奇詭異,居然都是意外死亡徘钥,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進(jìn)店門定庵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吏饿,“玉大人踪危,你說我怎么就攤上這事≈砺洌” “怎么了贞远?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長笨忌。 經(jīng)常有香客問我蓝仲,道長,這世上最難降的妖魔是什么官疲? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮途凫,結(jié)果婚禮上垢夹,老公的妹妹穿的比我還像新娘。我一直安慰自己维费,他們只是感情好果元,可當(dāng)我...
    茶點故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著犀盟,像睡著了一般而晒。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上阅畴,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天倡怎,我揣著相機(jī)與錄音,去河邊找鬼贱枣。 笑死监署,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的冯事。 我是一名探鬼主播焦匈,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼昵仅!你這毒婦竟也來了缓熟?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤摔笤,失蹤者是張志新(化名)和其女友劉穎够滑,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吕世,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡彰触,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了命辖。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片况毅。...
    茶點故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡分蓖,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出尔许,到底是詐尸還是另有隱情么鹤,我是刑警寧澤,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布味廊,位于F島的核電站蒸甜,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏余佛。R本人自食惡果不足惜柠新,卻給世界環(huán)境...
    茶點故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望辉巡。 院中可真熱鬧恨憎,春花似錦、人聲如沸红氯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽痢甘。三九已至,卻和暖如春茉贡,著一層夾襖步出監(jiān)牢的瞬間塞栅,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工腔丧, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留放椰,地道東北人。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓愉粤,卻偏偏與公主長得像砾医,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子衣厘,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內(nèi)容