數(shù)據(jù)與模型

端午節(jié)放了三天羊很澄,臨近要上班才想到公眾號到了要交稿子的時候了。這周來不及寫價格與互聯(lián)網(wǎng)相關(guān)的分析文章了考蕾,簡單聊聊多年的老本行,數(shù)據(jù)與模型会宪。

模型肖卧,是我們理解對象的一種結(jié)構(gòu)化方式。所謂的建模掸鹅,是基于一定的假設(shè)對分析對象展開簡化分析的過程喜命。所有的分析,必須時時刻刻記住我們的假設(shè)是什么河劝,其中哪些假設(shè)可以放寬不會影響主要結(jié)論,哪些假設(shè)一旦不成立整個模型會分崩離析矛紫。帶著這樣的模型和假設(shè)赎瞎,從數(shù)據(jù)里面找到可以證偽或不能證偽模型的證據(jù),得出結(jié)論的過程颊咬,即從數(shù)據(jù)中尋求模式(pattern)的過程务甥,也就是我們?nèi)粘Kv的數(shù)據(jù)分析牡辽。以下簡單聊聊數(shù)據(jù)分析過程中大部分人理解存在誤區(qū)的地方。

第一敞临,數(shù)據(jù)分析的本質(zhì)是驗證而非探索得到一個結(jié)論态辛。從數(shù)據(jù)中尋求模式的過程,具備無限發(fā)散的可能挺尿。因此奏黑,首先必須有脫離于數(shù)據(jù)的模型以及模型的假設(shè)。不帶任何假設(shè)看數(shù)據(jù)编矾,得不出任何有價值的結(jié)論熟史。即便是最純粹的數(shù)據(jù)挖掘或機器學(xué)習,同樣需要對樣本有必要的假設(shè)窄俏。給定假設(shè)結(jié)合邏輯蹂匹,可以演繹出一組結(jié)論,數(shù)據(jù)分析的過程便是基于數(shù)據(jù)來驗證這一組結(jié)論的過程凹蜈。

第二限寞,數(shù)據(jù)分析中的驗證,本質(zhì)上只能是證偽而非證實仰坦。嚴格來講履植,所有基于數(shù)據(jù)來驗證模型和假設(shè)的可靠性,都需要關(guān)注P值缎岗。P值不是給定樣本結(jié)果時原假設(shè)為真的概率静尼,而是給定原假設(shè)為真時樣本結(jié)果出現(xiàn)的概率。因此传泊,通過數(shù)據(jù)分析來產(chǎn)出結(jié)論時鼠渺,嚴謹?shù)乃伎挤绞綉?yīng)該是:基于已有的數(shù)據(jù),我們的假設(shè)沒有被挑戰(zhàn)眷细,故而可以在一定程度上認為數(shù)據(jù)支持了我們的假設(shè)拦盹。只能在一定程度上說明這一點,是因為一個模型最大的假設(shè)是模型本身溪椎。

第三普舆,一個模型,最大的假設(shè)是模型本身校读。這是CCER計量經(jīng)濟學(xué)教授朱家祥講授的所有知識里面對我影響最深的一條沼侣。大部分人意識不到這一點,是因為在他們看來歉秫,來自于教科書的模型蛾洛,默認應(yīng)該就是對的。然而,在應(yīng)用數(shù)據(jù)分析的過程中轧膘,模型從來都談不上正確或者錯誤钞螟,只有合適或者不合適的差別。問題是谎碍,模型選擇本身在大部分時候無法通過假設(shè)檢驗得到有效的反饋鳞滨,只能依賴于建模者的經(jīng)驗和品味。對很多缺乏品味的數(shù)據(jù)分析師而言蟆淀,這是一個悲劇拯啦。

第四,一個模型沒有被數(shù)據(jù)證偽扳碍,不能說明該模型對提岔,別的模型錯。更可能出現(xiàn)的情況是笋敞,一個模型沒有被數(shù)據(jù)證偽碱蒙,說明該模型還湊合,但不排除還有別的模型更合適夯巷。大部分情況下我們不知道還有多少潛在的備選模型可能更合適赛惩。這時候,奧卡姆剃刀原理可以幫上忙趁餐,優(yōu)先考慮簡單的模型喷兼。在沒有明確的領(lǐng)域知識時,模型越復(fù)雜后雷,可能犯錯的地方越多季惯。絕大部分時候,最簡單的模型臀突,就是線性模型勉抓。

第五,模型不是越復(fù)雜越好候学,而是藕筋,在可以解釋問題的前提下,越簡單越好梳码。甚至隐圾,在一些情況下,犧牲少許解釋力可以大幅降低模型復(fù)雜度時掰茶,我們應(yīng)該優(yōu)先選擇簡單的模型暇藏。使用簡單的模型對樣本進行擬合的過程中,不可避免會出現(xiàn)殘差濒蒋。如果某項變量可以有效說明殘差里面的一部分內(nèi)容叨咖,把該變量納入模型中可能是值得的。帶著這樣的思路,我們大致可以知道什么樣的變量有必要進入模型甸各。

第六,找到有價值的變量焰坪,依賴于領(lǐng)域知識和DGP(數(shù)據(jù)生成過程)的掌握程度趣倾。很多互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)分析師的領(lǐng)域知識匱乏到了令人發(fā)指的程度,不理解業(yè)務(wù)的目的某饰,業(yè)務(wù)的發(fā)展階段儒恋,業(yè)務(wù)開展過程中所面臨的約束,業(yè)務(wù)變化可能會帶來什么樣的預(yù)期結(jié)果黔漂。這樣的數(shù)據(jù)分析師诫尽,更合適的title是跑數(shù)據(jù)工程師。理解DGP的數(shù)據(jù)分析師更是鳳毛麟角炬守,只有兼具業(yè)務(wù)和技術(shù)視野牧嫉,才能深入理解DGP。遇到了理解DGP的數(shù)據(jù)分析師减途,請珍惜TA酣藻。或者鳍置,請推薦給我辽剧。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市税产,隨后出現(xiàn)的幾起案子怕轿,更是在濱河造成了極大的恐慌,老刑警劉巖辟拷,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件撞羽,死亡現(xiàn)場離奇詭異,居然都是意外死亡梧兼,警方通過查閱死者的電腦和手機放吩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來羽杰,“玉大人渡紫,你說我怎么就攤上這事】既” “怎么了惕澎?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長颜骤。 經(jīng)常有香客問我唧喉,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任八孝,我火速辦了婚禮董朝,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘干跛。我一直安慰自己子姜,他們只是感情好,可當我...
    茶點故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布楼入。 她就那樣靜靜地躺著哥捕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪嘉熊。 梳的紋絲不亂的頭發(fā)上遥赚,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天,我揣著相機與錄音阐肤,去河邊找鬼凫佛。 笑死,一個胖子當著我的面吹牛泽腮,可吹牛的內(nèi)容都是我干的御蒲。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼诊赊,長吁一口氣:“原來是場噩夢啊……” “哼厚满!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起碧磅,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤碘箍,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡诫咱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年柳畔,在試婚紗的時候發(fā)現(xiàn)自己被綠了趾娃。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出盗蟆,到底是詐尸還是另有隱情,我是刑警寧澤舒裤,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布喳资,位于F島的核電站,受9級特大地震影響腾供,放射性物質(zhì)發(fā)生泄漏仆邓。R本人自食惡果不足惜鲜滩,卻給世界環(huán)境...
    茶點故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望节值。 院中可真熱鬧徙硅,春花似錦、人聲如沸察署。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽贴汪。三九已至,卻和暖如春休吠,著一層夾襖步出監(jiān)牢的瞬間扳埂,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工瘤礁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留阳懂,地道東北人。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓柜思,卻偏偏與公主長得像岩调,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子赡盘,可洞房花燭夜當晚...
    茶點故事閱讀 44,947評論 2 355

推薦閱讀更多精彩內(nèi)容