歡迎訪問我的個(gè)人網(wǎng)站:data-scientist
統(tǒng)計(jì)模型是一個(gè)在開發(fā)和測試?yán)碚撝袕?qiáng)有力的工具,包括因果解釋岖研,預(yù)測和描述卿操。在很多原則中都是用統(tǒng)計(jì)模型,并且認(rèn)為統(tǒng)計(jì)模型有很高的解釋性和預(yù)測能力孙援。解釋性和預(yù)測性的沖突是普遍存在的害淤,因此我們必須了解和處理它們之間的關(guān)系。
1.introduction
1.1解釋性模型
Causal theoretical model. 統(tǒng)計(jì)模型用于測試因果假設(shè)拓售,通常是測量變量X對Y的潛在影響窥摄。
解釋模型的作用通常是通過因果假設(shè)來進(jìn)行理論創(chuàng)建。
1.2 預(yù)測性模型
預(yù)測同學(xué)通常是通過統(tǒng)計(jì)模型和數(shù)據(jù)挖掘來進(jìn)行預(yù)測新的數(shù)據(jù)或未來础淤。通過新的觀測X來預(yù)測新的結(jié)果Y崭放。預(yù)測包括時(shí)序預(yù)測哨苛,點(diǎn)預(yù)測,區(qū)間預(yù)測币砂,分布預(yù)測活拍下預(yù)測建峭,通常使用貝葉斯,頻繁項(xiàng)决摧,數(shù)據(jù)挖掘算法和統(tǒng)計(jì)模型亿蒸。
1.3 描述性模型
描述性模型通常是用一種更簡潔的方式來總結(jié)和表示數(shù)據(jù)的結(jié)構(gòu)。
1.4 預(yù)測模型的科學(xué)價(jià)值
通常統(tǒng)計(jì)學(xué)家認(rèn)為預(yù)測模型不具有科學(xué)性掌桩,所以被統(tǒng)計(jì)學(xué)家所拋棄边锁。即使在統(tǒng)計(jì)學(xué)派中也被分為兩類,預(yù)測性作為主要目的被認(rèn)為是unacademic波岛。
當(dāng)然預(yù)測模型也是必要的科學(xué)嘗試砚蓬。預(yù)測模型的主要功能
(1)大規(guī)模的豐富的數(shù)據(jù)集通常很復(fù)雜,并且模式難以進(jìn)行假設(shè)盆色,使用預(yù)測模型可以解釋一些潛在的新的機(jī)制灰蛙。
(2)預(yù)測模型可以被用于發(fā)現(xiàn)新的測量和評價(jià)的體系
(3)對于復(fù)雜模式和關(guān)系的挖掘,預(yù)測模型通掣舳悖可以得到更好的結(jié)果摩梧。
(4)科學(xué)發(fā)展需要嚴(yán)格的相關(guān)研究,預(yù)測模型是一種介于理論和實(shí)驗(yàn)的產(chǎn)物.雖然解釋模型可以解釋變量之間的因果關(guān)系宣旱,但是預(yù)測能力可能不如預(yù)測模型
(5)預(yù)測能力評估提供一種straightforward的方式來比較解釋模型的預(yù)測能力
(6)預(yù)測模型來量化預(yù)測能力仅父,創(chuàng)建benchmark上十分重要。因?yàn)轭A(yù)測模型可以有相比于解釋模型更高的預(yù)測能力浑吟。一個(gè)較低的預(yù)測模型通常意味著我們需要進(jìn)行新的數(shù)據(jù)收集笙纤,測量方式,或新的經(jīng)驗(yàn)注意的方式组力。當(dāng)解釋模型的結(jié)果接近預(yù)測模型時(shí)表示我們對現(xiàn)象的理解已經(jīng)很全面了省容。另一方面,當(dāng)解釋性模型的結(jié)果距離預(yù)測模型的benchmark較低時(shí)燎字,說明我們還需要接下來的探索和理解腥椒。
1.5預(yù)測和解釋模型的不同
預(yù)測模型和解釋模型的沖突在于它們的科學(xué)性的根基。
預(yù)測模型和解釋模型的不同在于數(shù)據(jù)不能精確的來表示和結(jié)果之間的關(guān)系候衍。
在解釋模型中笼蛛,X,y時(shí)估計(jì)函數(shù)f的工具蛉鹿,同時(shí)滨砍,x,y也用于測試因果假設(shè)。
但是在預(yù)測模型中,函數(shù)f時(shí)工具惋戏,用于產(chǎn)生產(chǎn)生對y的預(yù)測领追。事實(shí)上,即使?jié)撛诘囊蚬P(guān)系是y=f(x),但是y=f1(x)可能在x1而不是x上取得更好的結(jié)果日川,因?yàn)楣烙?jì)可能是有偏的估計(jì),有偏估計(jì)可能會(huì)有更好的結(jié)果矩乐。
因果關(guān)聯(lián):在解釋性模型中f代表著潛在的因果關(guān)系的函數(shù)龄句,X被認(rèn)為可以造成y。而預(yù)測模型中散罕,函數(shù)f是找到X,Y 之間的關(guān)系分歇。
理論-數(shù)據(jù): 在解釋模型中,f是完全建立在支持解釋預(yù)先估計(jì)的在X欧漱,Y 之間的因果關(guān)系职抡。而在預(yù)測模型中,直接的解釋X误甚,Y 之間的因果關(guān)系是不需要的缚甩,雖然有時(shí)候一些透明的f是期望的。
Retrospective-prospective: 預(yù)測模式是forward-looking窑邦,f時(shí)用于預(yù)測新的數(shù)據(jù)擅威。相反的是在解釋模型中,更多的是回溯冈钦,f用于檢測現(xiàn)有的數(shù)據(jù)和假說郊丛。
Bias-variance: 方差和偏差,
[圖片上傳失敗...(image-8f86e5-1553739784176)]
在解釋性模型中瞧筛,我們的目標(biāo)是最小化bias來獲得最精確的表達(dá)厉熟。相反,預(yù)測模型尋找最小化的bias和estimation variance的組合誤差较幌,有時(shí)會(huì)犧牲一些理論的準(zhǔn)確度來提高經(jīng)驗(yàn)的準(zhǔn)確度揍瑟,
1.6 void in the statistics literature
使用預(yù)測模型和解釋模型的爭論一直存在,但是并沒有被翻譯成統(tǒng)計(jì)語言乍炉。在模型選擇中一直存在著爭議月培,
There may be no significant difference between the point of view of inferring the true structure and that of making a prediction if an infinitely large quantity of data is available or if the data are noiseless. However, in modeling based on a finite quantity of real data, there is a significant gap between these two points of view, because an optimal model for prediction purposes may be different from one obtained by estimating the ‘true model.’
- two modeling path
2.1 研究設(shè)計(jì)和數(shù)據(jù)收集
(1)
對于解釋和預(yù)測,數(shù)據(jù)的收集也不太一樣恩急,考慮樣本的大小杉畜。
在解釋模型中,目標(biāo)是估計(jì)theory-based f 并且來使用它去推斷衷恭,統(tǒng)計(jì)的能力是主要的考慮此叠。減少bias需要足夠的數(shù)據(jù)來進(jìn)行模型測試。到達(dá)一定數(shù)量的數(shù)據(jù)后随珠,超過的部分對于精度的提高可以忽略不計(jì)灭袁,而對于預(yù)測模型猬错,f通常是數(shù)據(jù)決定的,通常更多的數(shù)據(jù)會(huì)帶來更好的結(jié)果茸歧。
(2)對于抽樣的方式:
在hierarchical data中倦炒,對于預(yù)測模型,group size的增加比group number 更有效软瞎,而解釋模型則相反逢唤。
(3)實(shí)驗(yàn)設(shè)計(jì)的考量:
解釋模型需要更多的可解釋數(shù)據(jù),但是這受限于實(shí)驗(yàn)環(huán)境和可獲得的資源涤浇,同時(shí)解釋需要需要非常干凈的數(shù)據(jù)鳖藕,
預(yù)測模型需要更多的其他的數(shù)據(jù),數(shù)據(jù)維度越多越好只锭。
(4)數(shù)據(jù)收集的設(shè)施:
解釋性模型需要構(gòu)建一個(gè)比較好的理論來支持,比如item的心理上含義著恩。預(yù)測模型更多的是要保證預(yù)測數(shù)據(jù)的質(zhì)量和數(shù)據(jù)的含義清楚。
(5)實(shí)驗(yàn)設(shè)計(jì)的方式:
Factorial designs 關(guān)注與因果解釋蜻展,找到結(jié)果的含義
Response surface methodology design喉誊, 使用優(yōu)化技術(shù)和非線性變換來提高解釋性
2.2 數(shù)據(jù)準(zhǔn)備
(1)缺失值的處理
如果你有很少一部分的缺失數(shù)據(jù),對于解釋模型纵顾,可以直接扔掉裹驰。而對于預(yù)測模型,則不需要扔掉這些數(shù)據(jù)片挂。
在回歸模型幻林,對缺失變量進(jìn)行dummy處理可以增加預(yù)測模型的表現(xiàn),但是對于解釋模型卻不符合要求音念。
確實(shí)值的意義是否對預(yù)測有影響或者對于預(yù)測的含義不明確沪饺,所以用確實(shí)值來做解釋模型通常不太合理。
(2)數(shù)據(jù)切分data partitioning
通常避免過擬合的方式是在保留測試集上進(jìn)行評估模型闷愤,防止過擬合,通過交叉驗(yàn)證整葡,或其他采樣的方式,boost 來使得預(yù)測模型在小數(shù)據(jù)集上進(jìn)行讥脐。
數(shù)據(jù)切分的目的是為了最小化方差和偏差之和遭居。對于預(yù)測模型來說更小的樣本通常會(huì)導(dǎo)致更大的bias,因此通過data partitioning 可以有效的提高模型的表現(xiàn)旬渠,但是對于解釋模型的幫助很小俱萍。對于預(yù)測模型,數(shù)據(jù)切分是一個(gè)關(guān)鍵的步驟告丢。
對于解釋模型枪蘑,做data partitioning 通常用于評估模型的魯棒性和預(yù)測能力。
2.3 EDA
在解釋模型中,EDA指向特定的因果關(guān)系岳颇,然而在預(yù)測模型中照捡,EDA更多的是free-form,為了支撐模型來找個(gè)更多未知的關(guān)系话侧,可能并沒有正式的公式栗精。
eda可以是毫無目的的探索,或者來驗(yàn)證已有的假設(shè)瞻鹏,評估潛在的模型悲立,共線性和變量的轉(zhuǎn)換。
降維乙漓,在預(yù)測模型中可以減少采樣方差级历。PCA或其他降維方式解釋性會(huì)比較差释移,但是可以作為壓縮變量變量放入模型中叭披,
2.4 變量選擇。
在解釋模型中玩讳,變量選擇根據(jù)變量之間的因果結(jié)果和變量自身的操作涩蜘。更加關(guān)注因果關(guān)系
預(yù)測模型主要關(guān)系x,y之間的關(guān)聯(lián)關(guān)系而不是因果關(guān)系。主要關(guān)注響應(yīng)熏纯,數(shù)據(jù)質(zhì)量同诫,數(shù)據(jù)的可獲得性。對于時(shí)間序列的建模樟澜,X必須是在y之前能獲得的误窖。
2.5 選擇方式(choice of methods)
causation–association, theory–data, retrospective–prospective and bias–variance
四種不同的方式將會(huì)導(dǎo)致不同的結(jié)果。解釋性模型可以很容易的連接到潛在的理論秩贰。
對于預(yù)測模型霹俺,頂部的優(yōu)先級模型可以產(chǎn)生更加準(zhǔn)確的結(jié)果,但是模型f可能更加未知毒费。雖然模型的透明性很多情況下未知丙唧,但是有很多情況下都是先提高準(zhǔn)確度,然后再試圖理解模型觅玻。
Bias-variance方面對于提高預(yù)測模型比較有效想际,比如ridge regression和lasso, 通過對稀疏懲罰的方式來引入bias但是降低variance.另外還有ensembke模型和bagging, boosting溪厘。
2.6 model evaluation and selection
從一系列的模型中選擇最優(yōu)的模型胡本,評估模型的表現(xiàn)在解釋模型和預(yù)測模型中采用不同的方式。
Validation:
在解釋模型中畸悬,驗(yàn)證包含兩個(gè)部分打瘪,模型驗(yàn)證f是否能夠表示F和模型是能能很好的fit現(xiàn)有數(shù)據(jù)。
而對于預(yù)測模型,主要關(guān)注的是泛化能力闺骚,即模型在保留測試集上的表現(xiàn)彩扔。
對于解釋模型,驗(yàn)證主要考率模型的系數(shù)是否over/under-specification,goodness of fit tests僻爽, 還有一些模型的診斷包括殘差分析 residual analysis.
對于預(yù)測模型虫碉,最大的挑戰(zhàn)是防止過擬合,通過對比測試集和訓(xùn)練集的表現(xiàn)胸梆,來檢查是否出現(xiàn)過擬合敦捧。
對于大規(guī)模的數(shù)據(jù)驗(yàn)證,對于解釋模型和預(yù)測模型不太相同碰镜。比如說檢查共線性對于解釋模型非常相關(guān)兢卵,多重共線性可以導(dǎo)致標(biāo)準(zhǔn)差的增大,因此很多已有的文獻(xiàn)來剔除共線性绪颖。相反對于預(yù)測模型來說秽荤,多重共線性不是罪惡的。
去重共線性對于系數(shù)的解釋能力很關(guān)鍵柠横,和考率一個(gè)變量對另一個(gè)變量影響是十分關(guān)鍵窃款。另外還可以評估變量變化對于結(jié)果的影響。監(jiān)測波動(dòng)要去除共線性牍氛。
model evaluation
考慮兩方面的能力晨继,解釋能力和預(yù)測能力。
解釋模型考慮變量對于結(jié)果的關(guān)系搬俊,研究者常用R2值和統(tǒng)計(jì)意義的F統(tǒng)計(jì)來表明對結(jié)果的影響紊扬。
相反預(yù)測模型聚焦于預(yù)測準(zhǔn)確度和預(yù)測能力,考慮f在新數(shù)據(jù)上的表現(xiàn)唉擂。不同的任務(wù)需要考慮的評價(jià)指標(biāo)不一樣餐屎,例如ranking模型或者分類模型不一樣。
model selection
在解釋模型中楔敌,比較模型之前的解釋能力啤挎。使用stepwise的方法來增加刪除變量,變量的增刪通過統(tǒng)計(jì)模型來清楚的表達(dá)卵凑。主要通過AIC庆聘,BIC來進(jìn)行篩選。
AIC和BIC 提供估計(jì)不同的事情勺卢。 If the question of which estimator is better is to make sense, we must decide whether the average likelihood of a family [=BIC] or its predictive accuracy [=AIC] is what we want to estimate.
2.7 Model use and reporting
解釋模型傾向于驗(yàn)證現(xiàn)有的因果推斷理論伙判,查看統(tǒng)計(jì)結(jié)果是否合理。
對于預(yù)測模型黑忱,f通常用于對新數(shù)據(jù)預(yù)測宴抚。在實(shí)際的應(yīng)用中勒魔,目標(biāo)通常專注讓預(yù)測模型來支持科學(xué)研究,通過構(gòu)建新的理論來產(chǎn)生新的假說菇曲,解釋性模型的文章?lián)涊d模型理論構(gòu)建和未被觀測的參數(shù)和統(tǒng)計(jì)推斷冠绢,預(yù)測部分聚焦于預(yù)測能力和比較不同的模型結(jié)果。
總結(jié):
(1)在模型研究中常潮,需要制定一個(gè)優(yōu)化的目標(biāo)
(2)即使目標(biāo)是預(yù)測模型或者是解釋模型弟胀,兩方面的模型都要做來驗(yàn)證互相的結(jié)果。
對于預(yù)測模型喊式,或許解釋不是必須的孵户,但是能夠解釋目的和重要性十分重要。
Reference:
[1] Shmueli G. To explain or to predict?[J]. Statistical science, 2010, 25(3): 289-310.