預測人們對某件事物的偏好:比如一部電影或一本書。這樣的模型可以納入成百上千個特征變量哥捕,再利用變量選擇的方法篩選出對于因變量最為重要的那些特征變量。模型的終極目標是最大化模型的預測準確度。在模型優(yōu)化過程當中资溃,變量本身的含義和解釋就顯得無足輕重了泳梆。尤其是當模型中的變量個數(shù)很多時鳖悠,我們不可能逐一地解釋每個變量的含義。
也就是說优妙,如果建模的目的是最大化模型的預測精度乘综,那么你大可不必花很多心思在變量的解釋上。例如套硼,一個亞馬遜的圖書推薦模型可能包含這樣一個變量卡辰,即“你是否讀過 Wes McKinney 的 O’Reilly 系列書 Python for Data Analysis”,這個變量對于預測你是否會讀這本書當然有用。但是九妈,是否讀過這本書就代表你會買下它朴恳?這可說不定。而且這個解釋本身聽起來就像是一段同義反復允蚣。當我們的建模標準時預測準確度時于颖,我們可以這么
做,不必擔心如何理解或者解釋變量間可能存在的因果關系嚷兔。但是森渐,如果你真的想要構建研究因果關系的模型時,就不能這么干了冒晰。實際生活中不是所有的問題都是預測問題同衣,你可能真的想要研究變量之間的因果關系。到
底什么是因果關系壶运?說白了耐齐,如果你想要做出某種行為導致了某個結(jié)果的論斷,這便是因果關系推斷蒋情。因果關系模型并不是一套完全不同于預測模型的統(tǒng)計方法埠况。恰好相反,它其實是根植于傳統(tǒng)預測模型(如邏輯回歸棵癣、線性回歸)的框架內(nèi)的辕翰。但是,你的思路和目標就不再是優(yōu)化模型以提高預測的準確性了狈谊,而是盡力分離出變量之間的因果關系喜命。
相關性不代表因果
計算事物之間的相關性非常簡單,但是相關性完全不等于因果關系河劝。對因果關系的最自然的提問方式是:x對y的影響是什么壁榕。或者p(x|y)的概率是多少赎瞎?
例如牌里,受廣告影響的客戶有多大的概率購買產(chǎn)品?藥物是否能夠有效治療煎娇?
實話說二庵,因果推斷中的參數(shù)估計是非常困難的。比如說缓呛,廣告到底有沒有作用催享?它的作用有多大?這是一個典型的因果推斷問題哟绊,但是卻基本不可能有精確的答案因妙。因為其中因果關系的強度實在是太難估量了。人們通常花大力氣研究那些簡單易測的變量攀涵,但這些變量卻并未能測出他們想要的東西铣耘,而大家不管三七二十一,都根據(jù)這些變量的研究結(jié)果做出決策以故,這樣的研究是非常不負責任的蜗细。比如,營銷人員會因為銷售業(yè)績好而受到公司的獎勵怒详,因為公司認為他們的營銷努力為公司帶來了更高的銷售額炉媒。這是一個典型的因果關系推斷,但是其中一個值得懷疑的地方是昆烁,銷售業(yè)績好可能是因為那些消費者本來就有強烈的購物欲望吊骤,跟營銷人員的工作沒有關系。這里面就有一個“干擾因子”的問題静尼,它是因果關系推斷的核心概念白粉。
約會網(wǎng)站的例子
假如有一個寂寞的小伙子在約會網(wǎng)站上勾搭異性,當他有了目標的時候鼠渺,希望約她出來鸭巴,但是他需要說什么?
小伙子覺得對方很漂亮系冗,想直接夸他漂亮奕扣,但是這樣合適嗎?也就是說在搭訕中里就直接夸贊對方漂亮小伙子 有好處嗎掌敬?對方會買賬嗎?
理論上來說池磁,可以做一個實驗奔害,可以將所有漂亮的妹子分為兩組,一組搭訕的時候夸漂亮地熄,一組不夸华临。這樣就可以確定搭訕中直接夸贊對方是否有用。
其實約會網(wǎng)站中有做過分析端考,利用近 50 萬會員的數(shù)據(jù)雅潭,分析了一些常用詞和短語在第一次郵件(搭訕郵件)接觸的時候?qū)貜吐实挠绊憽7治龅慕Y(jié)果可見圖:
Y 軸表示回復率却特。平均來看扶供,所有郵件的回復率約為32%。然后裂明,他們將這些郵件按關鍵詞椿浓,如“漂亮”或“驚艷”來分類,并觀察各類郵件的回復率。如果用條件概率來表達上述結(jié)果扳碍,可以說他們估計的結(jié)果是:P( 回復 ) = 0.32提岔,而 P( 回復|“漂亮”) = 0.22。
他們把上述發(fā)現(xiàn)總結(jié)為搭訕的第一原則:“避免過度恭維笋敞〖蠲桑”他們還把這條發(fā)現(xiàn)發(fā)在了公司的博客上,題為“在線約會應該如何搭訕”夯巷。文中說到:“你也許認為人們都喜歡被‘光彩照人’‘漂亮’及‘性感’這樣的詞語包圍赛惩,但從在線約會搭訕的數(shù)據(jù)分析來看倒并非如此。在見面之前鞭莽,用這些詞語搭訕往往會事與愿違坊秸。另外,當你告訴一位女士她很漂亮的時候澎怒,很可能是你不夠帥褒搔。”
從統(tǒng)計學的角度來說喷面,上面的例子叫作觀察性研究星瘾。觀察性研究指的是數(shù)據(jù)的生成過程沒有受人為干擾,是自然生成的惧辈。這與人工設計的實驗正好相反——在實驗中各種因素都被人為控制琳状,以研究某一個特定因素對實驗結(jié)果的影響。從觀察性研究的角度來說盒齿,能否根據(jù)上圖就推斷念逞,在郵件中使用“驚艷”(fasinating)可以提高回復率,而使用“漂亮”(beautiful)就會降低回復率呢边翁?
事實上翎承,如果“漂亮”可以被完整地定義,它在這個例子中可被視作一個干擾因子符匾。也就是說叨咖,如果這個女士真的“漂亮”,會同時影響到是否給她發(fā)郵件以及她是否會回復啊胶。當一個變量同時影響到“實驗”本身甸各,以及“實驗”的結(jié)果時,它就是一個干擾因子焰坪。
隨機試驗 - 因果推斷的方法
確立因果關系的黃金準則是使用隨機化實驗趣倾。顧名思義,隨機化實驗的關鍵在于隨機化:樣本被隨機化為兩個子樣本琳彩,一個作為實驗組(接受處理)誊酌,另一個作為控制組部凑。隨機化之后,兩組樣本的表現(xiàn)差異就可以視作是“處理”因素引起的碧浊。從統(tǒng)計學角度來看涂邀,隨機化保證了兩個子樣本都是來自同一個總體的同質(zhì)樣本,因此對于兩個子樣本來說箱锐,潛在干擾因子的可能影響是同等的比勉。這從理論上排除了所有潛在干擾因子的影響。
隨機實驗的效果很好驹止,因為在隨機化的過程中浩聋,所有可能成為干擾因子的因素都被排除了(比如是否有吸煙史)。隨機化保證了有抽煙史的人將會以同樣的概率被分到兩個子樣本中臊恋,于是“吸煙史”這樣一個干擾因子就被隨機化排除了衣洁。
隨機實驗的絕妙之處在于,不單是我們所能想到的抖仅,就連那些我們很難考慮到的無數(shù)其他干擾因子的影響坊夫,也被排除了。
因此撤卢,雖然我們可以通過算法針對某些變量找到一些不錯的劃分环凿,但是這些劃分不可能對所有變量都有同樣好的效果。這也正是我們需要隨機化的原因放吩,因為隨機化無論對于我們能考慮到的變量還是沒有考慮的變量都有同等的效果智听。隨機實驗在醫(yī)學研究中也有自己的軟肋。根據(jù)醫(yī)學研究的“臨床均衡”原則渡紫,只有當醫(yī)學界確實不清楚哪一種治療方法更好時到推,隨機化分組才是道德上可以接受的。如果研究人員基本確信某藥物對某疾病有效惕澎,而將一部分人隨機化分組到控制組中(也就是說环肘,不給予該藥物治療),這是不符合醫(yī)療道德的集灌。
觀察性研究
雖然一般情況下因果關系推斷的黃金準則是采用隨機實驗或 A/B測試,但正如我們反復強調(diào)的复哆,它們并不總是可行的欣喧。有時候我們不得不退而求其次,用觀察性研究的方法解決問題梯找。觀察性研究是當控制實驗(隨機實驗)不可行時而采用的一項分析因果關系的實
證性研究方法唆阿。
觀察數(shù)據(jù)常常會遇到兩個問題:
- 辛普森悖論
- 魯賓因果關系模型
因果推斷的幾個原則
第一,當進行因果推斷時锈锤,深入地了解數(shù)據(jù)的生成過程至關重要驯鳖。因為任何模型都會有相應的模型假設闲询,數(shù)據(jù)本身的數(shù)據(jù)生成過程可能會明顯背離這些假設。如果假設明顯不符合數(shù)據(jù)的生成模型浅辙,那模型的使用就應該打上問號扭弧。
第二,數(shù)據(jù)分析的第一步應該置身數(shù)據(jù)之外记舆,弄清楚到底想要分析的問題是什么鸽捻。可以把問題寫下來泽腮,這會幫助你思考御蒲,然后再一步一步地思考使用什么樣的工具解決這些問題。在使用工具分析數(shù)據(jù)的過程中诊赊,要不時地回頭想想當初想要回答的問題厚满,以及正在做的事情是不是在正確的軌道上。這聽起來很有道理碧磅,也稀松平常碘箍,但人們往往都會忘了這么做,忘記了自己分析問題的初衷续崖。
最后敲街,當你運用算法分析數(shù)據(jù)時,不要被算法和代碼沖昏了頭腦严望。不要以為只要算法收斂多艇,模型參數(shù)估計顯著就一切大吉了。在數(shù)據(jù)分析時像吻,要時刻保持一顆清醒的頭腦峻黍,人腦可以發(fā)現(xiàn)電腦所不能發(fā)現(xiàn)的邏輯性的、常識性的錯誤拨匆;人也應該在數(shù)據(jù)分析中扮演主導型的角色姆涩。