本文聊聊數(shù)據(jù)統(tǒng)計(jì)的誤差管理额湘。
年初的一篇短文里摘能,提到了量化“數(shù)據(jù)不充分”和嘗試“容納誤導(dǎo)”刻盐,經(jīng)過半年來ab測(cè)試實(shí)踐锨侯,有了更深的體會(huì)鹦马。
先插入一段學(xué)生時(shí)代的記憶淋袖,中學(xué)學(xué)工有縫紉機(jī)制作睡褲的課程悼凑,老師問了一個(gè)問題罚屋,大針腳4cm晦炊,小針腳2cm鞠鲜,如果需要3cm間隙的兩行針,該怎么辦呢断国?
我們異口同聲地說贤姆,大加小除以二,然后老師像看鬼一樣看著我們說稳衬,怎么市重點(diǎn)的學(xué)生連這么簡(jiǎn)單的問題也不會(huì)霞捡?任何職校專科都沒問題薄疚。
我們?nèi)珕T懵b碧信。
愣了很久以后老師說赊琳,比大的小一點(diǎn)、比小的大一點(diǎn)啊砰碴。
很多年以后我領(lǐng)悟到躏筏,這位老師無意中(或許不是無意?)正在教我們這些熟練于“小乘佛法”的所謂優(yōu)秀學(xué)生以“大乘佛法”:
這個(gè)回答一直到本科才領(lǐng)悟到(文科生可能今生就覺得縫紉老師傻)呈枉,即首先根據(jù)縫紉機(jī)原理的常識(shí)趁尼,判斷針腳尺寸變化是單調(diào)的,進(jìn)而在目測(cè)中間位置隨機(jī)選點(diǎn)猖辫,輸出一定量的距離y以后酥泞,可以達(dá)到某種置信范圍內(nèi)的3cm的期望(實(shí)際上2和4也是期望,機(jī)械誤差無可避免)--這里也需要假設(shè)反復(fù)測(cè)試的時(shí)候沒有被老師大聲呵斥住册,這樣可能導(dǎo)致有極大影響的因子出現(xiàn)婶博,通不過t測(cè)試。
這個(gè)故事除了炫耀一路重點(diǎn)書呆子以外(此處應(yīng)有彈幕荧飞。。名党。)叹阔,還提出了兩個(gè)很重要的概念:
1、假設(shè)從生活抽象到理論的難度是1传睹,那么理論返回來指導(dǎo)生活的難度可能是100耳幢。
王陽明說的所謂知行合一,具體來說涉及生活提煉到理論(書本知識(shí)是來自他人的生活)和理論指導(dǎo)生活欧啤。
那么書本知識(shí)的精確和僵化睛藻,同現(xiàn)實(shí)生活的繁復(fù)和隨機(jī),怎么調(diào)和呢邢隧,王的方法是哲學(xué)思辨〉暧。現(xiàn)代社會(huì)借助電腦多了一種方法,概率論和數(shù)理統(tǒng)計(jì)倒慧。
大部分團(tuán)隊(duì)對(duì)于數(shù)據(jù)按摘,還是處于一個(gè)“比大的小一點(diǎn),比小的大一點(diǎn)”狀態(tài)纫谅,也就是經(jīng)驗(yàn)方法能解決問題炫贤,而數(shù)據(jù)方法就像“大加小除以二”一樣,毫無現(xiàn)實(shí)可操作性付秕,無法解決問題兰珍,成為一種點(diǎn)綴。
在無數(shù)培訓(xùn)询吴、講座掠河、博客都能看到励幼,有人問,如果有某某誤差怎么辦口柳,如果埋點(diǎn)漏了怎么辦苹粟,如果不準(zhǔn)怎么辦。甚至出現(xiàn)了將錯(cuò)誤進(jìn)行到底跃闹,號(hào)稱“因?yàn)楦静恍杪顸c(diǎn)所以也不會(huì)漏”這種賣點(diǎn)噱頭嵌削。
實(shí)際上數(shù)據(jù)統(tǒng)計(jì)作為一系列理論,要應(yīng)用到現(xiàn)實(shí)望艺,本身就必須容納和體現(xiàn)業(yè)務(wù)苛秕、技術(shù)、市場(chǎng)環(huán)境的種種影響找默,埋點(diǎn)的方式和范圍也在其中艇劫。
思想上,接受數(shù)據(jù)統(tǒng)計(jì)要能服務(wù)于現(xiàn)實(shí)惩激,誤差管理是正常的店煞、必備的環(huán)節(jié),既不是硬著頭皮說數(shù)據(jù)沒錯(cuò)风钻,也不是因?yàn)閿?shù)據(jù)有誤差顷蟀,就回滾到拍腦袋。
2骡技、“縫紉機(jī)原理的常識(shí)基礎(chǔ)上鸣个,判斷針腳尺寸是單調(diào)的”
2cm和4cm的針腳中間位置,大體是3cm布朦,而不會(huì)是5cm囤萤,這是所謂的單調(diào)預(yù)判。
讀者可能會(huì)說是趴,這誰不知道呢涛舍?我們不妨把問題稍作復(fù)雜化,一段時(shí)間內(nèi)埋點(diǎn)sdk有問題右遭,數(shù)據(jù)有少量偏差做盅,這時(shí)是否理解取數(shù)、傳輸窘哈、存儲(chǔ)的原理(涉及基本的應(yīng)用開發(fā)和通信知識(shí))吹榴,就成為能否評(píng)估量化數(shù)據(jù)誤差的關(guān)鍵。
誤差管理要求雜學(xué)和扎實(shí)的基礎(chǔ)滚婉,我們很容易發(fā)現(xiàn)图筹,現(xiàn)在混得好的互聯(lián)網(wǎng)市場(chǎng)人員,越來越多是程序員出身。
互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)統(tǒng)計(jì)需要太多IT常識(shí)远剩,如果連dom扣溺,activity,cookie都不知道瓜晤,基本上等于在給廣告公司送錢锥余,有些博客就專門寫寫如何防范乙方數(shù)據(jù)作假,也能解決大量的生活實(shí)際問題痢掠,造(de)福(zui)一方驱犹。
有種說法是,數(shù)據(jù)要切實(shí)應(yīng)用足画,需要業(yè)務(wù)+數(shù)學(xué)+工具(技術(shù)和統(tǒng)計(jì))雄驹,這三者都對(duì)誤差有很大的影響:
對(duì)于純技術(shù)背景的分析人員來說,他們奮斗一周克服的數(shù)據(jù)坑淹辞,可能是隨便拉個(gè)業(yè)務(wù)妹子都知道的常識(shí)(比如上個(gè)季度我們和xx終止合作了呀医舆,或者zf規(guī)定xx和yy不能一起賣了呀);
工具本身的結(jié)構(gòu)性誤差象缀,包括采集蔬将、傳輸、保存的邏輯和流程攻冷,可以通過保持用同一個(gè)工具來看趨勢(shì)娃胆,用兩套完全不同的工具來做驗(yàn)證,來盡量控制等曼。當(dāng)發(fā)生明顯誤差時(shí),可以定位到是采集凿蒜、傳輸禁谦、保存中哪個(gè)步驟的問題,加以定量和解決废封;
算法的誤差州泊,目前更大來自于“洗數(shù)據(jù)”這一部分,而這一步極其有賴于對(duì)業(yè)務(wù)和工具的深刻理解和掌握漂洋,在洗數(shù)據(jù)之后的步驟遥皂,理論研究已經(jīng)走到了“完全只差更快的電腦”的地步了,現(xiàn)在就站在那里等數(shù)據(jù)刽漂。演训。。贝咙。經(jīng)常有分析人員一面看著kaggle上面一個(gè)個(gè)優(yōu)雅華麗的case样悟,一面回首自己手上的勉強(qiáng)可算數(shù)據(jù)的一堆爛帳,黯然下樓買泡面。
回到標(biāo)題的大道至簡(jiǎn)
所謂“簡(jiǎn)”窟她,可能是當(dāng)暮然回首的時(shí)候陈症,發(fā)現(xiàn)自己也就解決了“比大的小一點(diǎn)、比小的大一點(diǎn)”的隨便拍腦袋即可搞定的事情震糖,只不過是通過理論而已录肯。
所謂“大道”,讀者或許也發(fā)現(xiàn)吊说,結(jié)果看似一樣论咏,實(shí)際完全兩個(gè)境界,小乘和大乘的差距就在于疏叨,前者是解決了一個(gè)件事潘靖,而后者是解決了一個(gè)領(lǐng)域的問題。
數(shù)據(jù)指導(dǎo)業(yè)務(wù)蚤蔓,有非常艱難的冷啟動(dòng)階段卦溢,可能費(fèi)了很大的力氣,才剛剛到達(dá)起點(diǎn)的拍腦袋即可搞定的水平秀又,然而未來無可限量单寂。
所以現(xiàn)在那么多的CTO都號(hào)稱“數(shù)據(jù)基礎(chǔ)工作是無需評(píng)效益,優(yōu)先級(jí)永遠(yuǎn)最高的”吐辙,這一方面是因?yàn)榱餍袝r(shí)尚(CTO其實(shí)比CMO更時(shí)尚宣决,只是方式不同),另一方面昏苏,如果按照短期利益來評(píng)優(yōu)先尊沸,費(fèi)那么大的勁可能還短期趕不上拍腦袋的效率和效果,數(shù)據(jù)基礎(chǔ)設(shè)施的投入或許是永遠(yuǎn)不值得做的贤惯。
大致就這樣了洼专,謝謝能閱讀到這里的朋友們,歡迎各種形式交流討論孵构。