大道至簡(jiǎn)-互聯(lián)網(wǎng)數(shù)據(jù)統(tǒng)計(jì)的誤差管理

本文聊聊數(shù)據(jù)統(tǒng)計(jì)的誤差管理额湘。

年初的一篇短文里摘能,提到了量化“數(shù)據(jù)不充分”和嘗試“容納誤導(dǎo)”刻盐,經(jīng)過半年來ab測(cè)試實(shí)踐锨侯,有了更深的體會(huì)鹦马。

先插入一段學(xué)生時(shí)代的記憶淋袖,中學(xué)學(xué)工有縫紉機(jī)制作睡褲的課程悼凑,老師問了一個(gè)問題罚屋,大針腳4cm晦炊,小針腳2cm鞠鲜,如果需要3cm間隙的兩行針,該怎么辦呢断国?

我們異口同聲地說贤姆,大加小除以二,然后老師像看鬼一樣看著我們說稳衬,怎么市重點(diǎn)的學(xué)生連這么簡(jiǎn)單的問題也不會(huì)霞捡?任何職校專科都沒問題薄疚。

我們?nèi)珕T懵b碧信。

愣了很久以后老師說赊琳,比大的小一點(diǎn)、比小的大一點(diǎn)啊砰碴。

很多年以后我領(lǐng)悟到躏筏,這位老師無意中(或許不是無意?)正在教我們這些熟練于“小乘佛法”的所謂優(yōu)秀學(xué)生以“大乘佛法”:

這個(gè)回答一直到本科才領(lǐng)悟到(文科生可能今生就覺得縫紉老師傻)呈枉,即首先根據(jù)縫紉機(jī)原理的常識(shí)趁尼,判斷針腳尺寸變化是單調(diào)的,進(jìn)而在目測(cè)中間位置隨機(jī)選點(diǎn)猖辫,輸出一定量的距離y以后酥泞,可以達(dá)到某種置信范圍內(nèi)的3cm的期望(實(shí)際上2和4也是期望,機(jī)械誤差無可避免)--這里也需要假設(shè)反復(fù)測(cè)試的時(shí)候沒有被老師大聲呵斥住册,這樣可能導(dǎo)致有極大影響的因子出現(xiàn)婶博,通不過t測(cè)試。

這個(gè)故事除了炫耀一路重點(diǎn)書呆子以外(此處應(yīng)有彈幕荧飞。。名党。)叹阔,還提出了兩個(gè)很重要的概念:

1、假設(shè)從生活抽象到理論的難度是1传睹,那么理論返回來指導(dǎo)生活的難度可能是100耳幢。

王陽明說的所謂知行合一,具體來說涉及生活提煉到理論(書本知識(shí)是來自他人的生活)和理論指導(dǎo)生活欧啤。

那么書本知識(shí)的精確和僵化睛藻,同現(xiàn)實(shí)生活的繁復(fù)和隨機(jī),怎么調(diào)和呢邢隧,王的方法是哲學(xué)思辨〉暧。現(xiàn)代社會(huì)借助電腦多了一種方法,概率論和數(shù)理統(tǒng)計(jì)倒慧。

大部分團(tuán)隊(duì)對(duì)于數(shù)據(jù)按摘,還是處于一個(gè)“比大的小一點(diǎn),比小的大一點(diǎn)”狀態(tài)纫谅,也就是經(jīng)驗(yàn)方法能解決問題炫贤,而數(shù)據(jù)方法就像“大加小除以二”一樣,毫無現(xiàn)實(shí)可操作性付秕,無法解決問題兰珍,成為一種點(diǎn)綴。

在無數(shù)培訓(xùn)询吴、講座掠河、博客都能看到励幼,有人問,如果有某某誤差怎么辦口柳,如果埋點(diǎn)漏了怎么辦苹粟,如果不準(zhǔn)怎么辦。甚至出現(xiàn)了將錯(cuò)誤進(jìn)行到底跃闹,號(hào)稱“因?yàn)楦静恍杪顸c(diǎn)所以也不會(huì)漏”這種賣點(diǎn)噱頭嵌削。

實(shí)際上數(shù)據(jù)統(tǒng)計(jì)作為一系列理論,要應(yīng)用到現(xiàn)實(shí)望艺,本身就必須容納和體現(xiàn)業(yè)務(wù)苛秕、技術(shù)、市場(chǎng)環(huán)境的種種影響找默,埋點(diǎn)的方式和范圍也在其中艇劫。

思想上,接受數(shù)據(jù)統(tǒng)計(jì)要能服務(wù)于現(xiàn)實(shí)惩激,誤差管理是正常的店煞、必備的環(huán)節(jié),既不是硬著頭皮說數(shù)據(jù)沒錯(cuò)风钻,也不是因?yàn)閿?shù)據(jù)有誤差顷蟀,就回滾到拍腦袋。

2骡技、“縫紉機(jī)原理的常識(shí)基礎(chǔ)上鸣个,判斷針腳尺寸是單調(diào)的”

2cm和4cm的針腳中間位置,大體是3cm布朦,而不會(huì)是5cm囤萤,這是所謂的單調(diào)預(yù)判。

讀者可能會(huì)說是趴,這誰不知道呢涛舍?我們不妨把問題稍作復(fù)雜化,一段時(shí)間內(nèi)埋點(diǎn)sdk有問題右遭,數(shù)據(jù)有少量偏差做盅,這時(shí)是否理解取數(shù)、傳輸窘哈、存儲(chǔ)的原理(涉及基本的應(yīng)用開發(fā)和通信知識(shí))吹榴,就成為能否評(píng)估量化數(shù)據(jù)誤差的關(guān)鍵。

誤差管理要求雜學(xué)和扎實(shí)的基礎(chǔ)滚婉,我們很容易發(fā)現(xiàn)图筹,現(xiàn)在混得好的互聯(lián)網(wǎng)市場(chǎng)人員,越來越多是程序員出身。

互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)統(tǒng)計(jì)需要太多IT常識(shí)远剩,如果連dom扣溺,activity,cookie都不知道瓜晤,基本上等于在給廣告公司送錢锥余,有些博客就專門寫寫如何防范乙方數(shù)據(jù)作假,也能解決大量的生活實(shí)際問題痢掠,造(de)福(zui)一方驱犹。

有種說法是,數(shù)據(jù)要切實(shí)應(yīng)用足画,需要業(yè)務(wù)+數(shù)學(xué)+工具(技術(shù)和統(tǒng)計(jì))雄驹,這三者都對(duì)誤差有很大的影響:

對(duì)于純技術(shù)背景的分析人員來說,他們奮斗一周克服的數(shù)據(jù)坑淹辞,可能是隨便拉個(gè)業(yè)務(wù)妹子都知道的常識(shí)(比如上個(gè)季度我們和xx終止合作了呀医舆,或者zf規(guī)定xx和yy不能一起賣了呀);

工具本身的結(jié)構(gòu)性誤差象缀,包括采集蔬将、傳輸、保存的邏輯和流程攻冷,可以通過保持用同一個(gè)工具來看趨勢(shì)娃胆,用兩套完全不同的工具來做驗(yàn)證,來盡量控制等曼。當(dāng)發(fā)生明顯誤差時(shí),可以定位到是采集凿蒜、傳輸禁谦、保存中哪個(gè)步驟的問題,加以定量和解決废封;

算法的誤差州泊,目前更大來自于“洗數(shù)據(jù)”這一部分,而這一步極其有賴于對(duì)業(yè)務(wù)和工具的深刻理解和掌握漂洋,在洗數(shù)據(jù)之后的步驟遥皂,理論研究已經(jīng)走到了“完全只差更快的電腦”的地步了,現(xiàn)在就站在那里等數(shù)據(jù)刽漂。演训。。贝咙。經(jīng)常有分析人員一面看著kaggle上面一個(gè)個(gè)優(yōu)雅華麗的case样悟,一面回首自己手上的勉強(qiáng)可算數(shù)據(jù)的一堆爛帳,黯然下樓買泡面。

回到標(biāo)題的大道至簡(jiǎn)

所謂“簡(jiǎn)”窟她,可能是當(dāng)暮然回首的時(shí)候陈症,發(fā)現(xiàn)自己也就解決了“比大的小一點(diǎn)、比小的大一點(diǎn)”的隨便拍腦袋即可搞定的事情震糖,只不過是通過理論而已录肯。

所謂“大道”,讀者或許也發(fā)現(xiàn)吊说,結(jié)果看似一樣论咏,實(shí)際完全兩個(gè)境界,小乘和大乘的差距就在于疏叨,前者是解決了一個(gè)件事潘靖,而后者是解決了一個(gè)領(lǐng)域的問題。

數(shù)據(jù)指導(dǎo)業(yè)務(wù)蚤蔓,有非常艱難的冷啟動(dòng)階段卦溢,可能費(fèi)了很大的力氣,才剛剛到達(dá)起點(diǎn)的拍腦袋即可搞定的水平秀又,然而未來無可限量单寂。

所以現(xiàn)在那么多的CTO都號(hào)稱“數(shù)據(jù)基礎(chǔ)工作是無需評(píng)效益,優(yōu)先級(jí)永遠(yuǎn)最高的”吐辙,這一方面是因?yàn)榱餍袝r(shí)尚(CTO其實(shí)比CMO更時(shí)尚宣决,只是方式不同),另一方面昏苏,如果按照短期利益來評(píng)優(yōu)先尊沸,費(fèi)那么大的勁可能還短期趕不上拍腦袋的效率和效果,數(shù)據(jù)基礎(chǔ)設(shè)施的投入或許是永遠(yuǎn)不值得做的贤惯。

大致就這樣了洼专,謝謝能閱讀到這里的朋友們,歡迎各種形式交流討論孵构。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末屁商,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子颈墅,更是在濱河造成了極大的恐慌蜡镶,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,946評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件恤筛,死亡現(xiàn)場(chǎng)離奇詭異官还,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)叹俏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,336評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門妻枕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事屡谐∈雒矗” “怎么了?”我有些...
    開封第一講書人閱讀 169,716評(píng)論 0 364
  • 文/不壞的土叔 我叫張陵愕掏,是天一觀的道長(zhǎng)度秘。 經(jīng)常有香客問我,道長(zhǎng)饵撑,這世上最難降的妖魔是什么剑梳? 我笑而不...
    開封第一講書人閱讀 60,222評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮滑潘,結(jié)果婚禮上垢乙,老公的妹妹穿的比我還像新娘。我一直安慰自己语卤,他們只是感情好追逮,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,223評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著粹舵,像睡著了一般钮孵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上眼滤,一...
    開封第一講書人閱讀 52,807評(píng)論 1 314
  • 那天巴席,我揣著相機(jī)與錄音,去河邊找鬼诅需。 笑死漾唉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的堰塌。 我是一名探鬼主播毡证,決...
    沈念sama閱讀 41,235評(píng)論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼蔫仙!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起丐箩,我...
    開封第一講書人閱讀 40,189評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤摇邦,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后屎勘,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體施籍,經(jīng)...
    沈念sama閱讀 46,712評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,775評(píng)論 3 343
  • 正文 我和宋清朗相戀三年概漱,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了丑慎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,926評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖竿裂,靈堂內(nèi)的尸體忽然破棺而出玉吁,到底是詐尸還是另有隱情,我是刑警寧澤腻异,帶...
    沈念sama閱讀 36,580評(píng)論 5 351
  • 正文 年R本政府宣布进副,位于F島的核電站,受9級(jí)特大地震影響悔常,放射性物質(zhì)發(fā)生泄漏影斑。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,259評(píng)論 3 336
  • 文/蒙蒙 一机打、第九天 我趴在偏房一處隱蔽的房頂上張望矫户。 院中可真熱鬧,春花似錦残邀、人聲如沸皆辽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,750評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽膳汪。三九已至,卻和暖如春九秀,著一層夾襖步出監(jiān)牢的瞬間遗嗽,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,867評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工鼓蜒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留痹换,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,368評(píng)論 3 379
  • 正文 我出身青樓都弹,卻偏偏與公主長(zhǎng)得像娇豫,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子畅厢,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,930評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容