端午節(jié)放了三天羊很澄,臨近要上班才想到公眾號到了要交稿子的時候了。這周來不及寫價格與互聯(lián)網(wǎng)相關(guān)的分析文章了考蕾,簡單聊聊多年的老本行,數(shù)據(jù)與模型会宪。
模型肖卧,是我們理解對象的一種結(jié)構(gòu)化方式。所謂的建模掸鹅,是基于一定的假設(shè)對分析對象展開簡化分析的過程喜命。所有的分析,必須時時刻刻記住我們的假設(shè)是什么河劝,其中哪些假設(shè)可以放寬不會影響主要結(jié)論,哪些假設(shè)一旦不成立整個模型會分崩離析矛紫。帶著這樣的模型和假設(shè)赎瞎,從數(shù)據(jù)里面找到可以證偽或不能證偽模型的證據(jù),得出結(jié)論的過程颊咬,即從數(shù)據(jù)中尋求模式(pattern)的過程务甥,也就是我們?nèi)粘Kv的數(shù)據(jù)分析牡辽。以下簡單聊聊數(shù)據(jù)分析過程中大部分人理解存在誤區(qū)的地方。
第一敞临,數(shù)據(jù)分析的本質(zhì)是驗證而非探索得到一個結(jié)論态辛。從數(shù)據(jù)中尋求模式的過程,具備無限發(fā)散的可能挺尿。因此奏黑,首先必須有脫離于數(shù)據(jù)的模型以及模型的假設(shè)。不帶任何假設(shè)看數(shù)據(jù)编矾,得不出任何有價值的結(jié)論熟史。即便是最純粹的數(shù)據(jù)挖掘或機器學(xué)習,同樣需要對樣本有必要的假設(shè)窄俏。給定假設(shè)結(jié)合邏輯蹂匹,可以演繹出一組結(jié)論,數(shù)據(jù)分析的過程便是基于數(shù)據(jù)來驗證這一組結(jié)論的過程凹蜈。
第二限寞,數(shù)據(jù)分析中的驗證,本質(zhì)上只能是證偽而非證實仰坦。嚴格來講履植,所有基于數(shù)據(jù)來驗證模型和假設(shè)的可靠性,都需要關(guān)注P值缎岗。P值不是給定樣本結(jié)果時原假設(shè)為真的概率静尼,而是給定原假設(shè)為真時樣本結(jié)果出現(xiàn)的概率。因此传泊,通過數(shù)據(jù)分析來產(chǎn)出結(jié)論時鼠渺,嚴謹?shù)乃伎挤绞綉?yīng)該是:基于已有的數(shù)據(jù),我們的假設(shè)沒有被挑戰(zhàn)眷细,故而可以在一定程度上認為數(shù)據(jù)支持了我們的假設(shè)拦盹。只能在一定程度上說明這一點,是因為一個模型最大的假設(shè)是模型本身溪椎。
第三普舆,一個模型,最大的假設(shè)是模型本身校读。這是CCER計量經(jīng)濟學(xué)教授朱家祥講授的所有知識里面對我影響最深的一條沼侣。大部分人意識不到這一點,是因為在他們看來歉秫,來自于教科書的模型蛾洛,默認應(yīng)該就是對的。然而,在應(yīng)用數(shù)據(jù)分析的過程中轧膘,模型從來都談不上正確或者錯誤钞螟,只有合適或者不合適的差別。問題是谎碍,模型選擇本身在大部分時候無法通過假設(shè)檢驗得到有效的反饋鳞滨,只能依賴于建模者的經(jīng)驗和品味。對很多缺乏品味的數(shù)據(jù)分析師而言蟆淀,這是一個悲劇拯啦。
第四,一個模型沒有被數(shù)據(jù)證偽扳碍,不能說明該模型對提岔,別的模型錯。更可能出現(xiàn)的情況是笋敞,一個模型沒有被數(shù)據(jù)證偽碱蒙,說明該模型還湊合,但不排除還有別的模型更合適夯巷。大部分情況下我們不知道還有多少潛在的備選模型可能更合適赛惩。這時候,奧卡姆剃刀原理可以幫上忙趁餐,優(yōu)先考慮簡單的模型喷兼。在沒有明確的領(lǐng)域知識時,模型越復(fù)雜后雷,可能犯錯的地方越多季惯。絕大部分時候,最簡單的模型臀突,就是線性模型勉抓。
第五,模型不是越復(fù)雜越好候学,而是藕筋,在可以解釋問題的前提下,越簡單越好梳码。甚至隐圾,在一些情況下,犧牲少許解釋力可以大幅降低模型復(fù)雜度時掰茶,我們應(yīng)該優(yōu)先選擇簡單的模型暇藏。使用簡單的模型對樣本進行擬合的過程中,不可避免會出現(xiàn)殘差濒蒋。如果某項變量可以有效說明殘差里面的一部分內(nèi)容叨咖,把該變量納入模型中可能是值得的。帶著這樣的思路,我們大致可以知道什么樣的變量有必要進入模型甸各。
第六,找到有價值的變量焰坪,依賴于領(lǐng)域知識和DGP(數(shù)據(jù)生成過程)的掌握程度趣倾。很多互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)分析師的領(lǐng)域知識匱乏到了令人發(fā)指的程度,不理解業(yè)務(wù)的目的某饰,業(yè)務(wù)的發(fā)展階段儒恋,業(yè)務(wù)開展過程中所面臨的約束,業(yè)務(wù)變化可能會帶來什么樣的預(yù)期結(jié)果黔漂。這樣的數(shù)據(jù)分析師诫尽,更合適的title是跑數(shù)據(jù)工程師。理解DGP的數(shù)據(jù)分析師更是鳳毛麟角炬守,只有兼具業(yè)務(wù)和技術(shù)視野牧嫉,才能深入理解DGP。遇到了理解DGP的數(shù)據(jù)分析師减途,請珍惜TA酣藻。或者鳍置,請推薦給我辽剧。