仔細評估模型預測

仔細評估模型預測

2016年12月2日
約翰·摩

(本文首次發(fā)表于的R -贏矢量博客 梦皮,并親切地促進了R-博客)

有一件事我教的是:評估回歸模型的性能時呕臂, 你不應(yīng)該使用關(guān)聯(lián)作為你的分數(shù) 截歉。
這是因為相關(guān)性告訴你結(jié)果的重新縮放是否有用脓诡,但是你想知道手中的結(jié)果是否真的有用。 例如:火星氣候軌道器軟件在磅-秒為單位期待的命令發(fā)出推力命令擂红,發(fā)動機是在牛頓秒為單位 仪际。 這兩個量通過1.4881639的常數(shù)比相關(guān),因此以磅 - 秒為單位測量的任何值與以牛頓 - 秒為單位的相同測量值具有1.0的相關(guān)性昵骤。 然而树碱,一個不是另一個,區(qū)別是為什么火星氣候軌道器“遇到火星在低于預期的高度和由于大氣壓力分解变秦。
需要毫無意外地引發(fā)了與計算相關(guān)相關(guān)的隱式重新縮放方便的直接F-測試是我們提供的原因之一SIGR [- R庫成榜。 然而,即使事情可能變得混亂伴栓。

請閱讀一個討厭的小例子伦连。

考慮以下“無害數(shù)據(jù)幀”。

d <-data.frame(prediction = c(0,0钳垮,-1,-2,0,0额港,-1饺窿,-2), actual = c(2,3,1,2,2,3,1,2))

檢查“的質(zhì)量推薦的測試prediction
相關(guān)的”移斩,“ actual
”是F-檢驗(這是測試stats::lm
使用)肚医。 我們可以直接運行該測試sigr
(假設(shè)我們已經(jīng)安裝包)绢馍,如下所示:

sigr :: formatFTest(d,'prediction'肠套,'actual'舰涌,format ='html')$ formatStr

F測試總結(jié)*:(R 2

  • = -16,F(xiàn)(1,6)= - 5.6你稚,P = NS)瓷耙。

sigr
報告的R平方-16(請參閱這里的R平方的一些討論)。 這可能是混亂的刁赖,但它正確傳達我們沒有模式搁痛,實際上是“ prediction
”是比只使用平均(一個非常傳統(tǒng)的空模型)差。
然而宇弛, cor.test
似乎認為“ prediction
”是一個可用的模型:

cor.test(d $ prediction鸡典,d $ actual) Pearson的乘積矩相關(guān) data:d $ prediction和d $ actual t = 1.1547,df = 6枪芒,p值= 0.2921備選假設(shè):真相關(guān)不等于0 95%的置信區(qū)間: -0.3977998 0.8697404樣本估計: 科爾 0.4264014

這是所有的預測彻况,其中sum((d$actual-d$prediction)^2)==66
比大sum((d$actual-mean(d$actual))^2)==4
。 我們專注于影響措施(如R平方)舅踪,因為我們可以通過添加更多的數(shù)據(jù)行來驅(qū)動p值纽甘。 我們的觀點是:使用這個模型比使用實際(2)的平均值作為常數(shù)預測器更糟糕。 在我看來硫朦,這不是一個好的預測贷腕。 和lm
似乎同樣興奮的“ prediction
”。

summary(lm(actual?prediction咬展,data = d))呼叫: lm(公式=實際預測泽裳,數(shù)據(jù)= d)殘留: 最小1Q中位數(shù)3Q最大 -0.90909 -0.43182 0.09091 0.52273 0.72727 系數(shù): 估計標準 誤差t值Pr(> | t |) (截距)2.2727 0.3521 6.455 0.000655 預測值0.3636 0.3149 1.155 0.292121 --- --- Signif。 代碼:0''0.001'*'0.01''0.05'破婆。 0.1“1殘余標準誤差:在6自由度上為0.7385多次R平方:0.1818涮总,調(diào)整R平方:0.04545 F統(tǒng)計:1.333對1和6DF,p-值:0.2921

一個理由不相信lm
的結(jié)果是沒有得分“質(zhì)量prediction
”祷舀。 它拿下的質(zhì)量“ 0.3636prediction + 2.2727
”瀑梗。它可以是“案件0.3636
prediction + 2.2727
”實際上是一個很好的預測。 但 這并不能幫助我們裳扯,如果是“ prediction
”即將展現(xiàn)在我們的老板或投產(chǎn)抛丽。 我們可以嘗試通過堅持以緩解這種lm
盡量呆在通過關(guān)閉攔截更接近原始或使用“偏移0+
”符號。 這看起來像下面饰豺。

summary(lm(actual?0 + prediction亿鲜,data = d))呼叫: lm(公式=實際?0 +預測,數(shù)據(jù)= d)殘留: 最小1Q中位數(shù)3Q最大 0.00 0.00 1.00 2.25 3.00 系數(shù): 估計標準 誤差t值Pr(> | t |)預測-1.0000 0.6094 -1.641 0.145殘余標準誤差:1.927在7自由度上多次R平方:0.2778冤吨,調(diào)整R平方:0.1746 F統(tǒng)計:2.692對1和7DF蒿柳,p-值:0.1448

即使是lm(0+)
的調(diào)整后的預測是不好的饶套,因為我們看到如下:

d $ lmPred <-predict(lm(actual?0 + prediction,data = d)) sum((d $ actual-d $ lmPred)^ 2) [1] 26

是的垒探, lm(0+)
找到了一種方法妓蛮,提高了預測; 但是改進的預測仍然非常糟糕(比使用良好選擇的常數(shù)更差)。 它是很難說“ -prediction
”是同一型號為“ prediction
”圾叼。
現(xiàn)在sigr
是相當新的代碼蛤克,因此它是一個有點大膽的說,這是正確的褐奥,當它與標準方法不同意咖耘。 然而sigr
就在這種情況下。 標準方法沒有那么多錯誤撬码,因為兩個原因:
他們正在回答不同的問題儿倒。 F檢驗旨在檢查手中的預測是否好; “cor.test
”和“ lm %>% summary
”被設(shè)計為檢查預測的任何重新縮放是實際上良好。 這些是不同的問題呜笑。 使用“ cor.test
”或“ lm %>% summary
”來測試潛在變量的工具是一個不錯的主意夫否。 在這些測試中隱藏的重新處理與稍后在模型中使用變量一致。使用它們來評分應(yīng)該直接使用的模型結(jié)果是錯誤的叫胁。
從標準R代碼的角度來看凰慈,什么是正確的“空模型”是不明顯的。還記得我們最初的觀點:對質(zhì)量的措施lm(0+)
的設(shè)計驼鹅,看看如何lm(0+)
工作微谓。 這意味著lm(0+)
得分它的輸出(而不是它的輸入)的質(zhì)量,它得到信貸的預測翻轉(zhuǎn)跡象输钩。 它也認為自然零模型是一個它可以形成沒有可變驅(qū)動效應(yīng)豺型。 由于在這些模型中沒有攔截或“DC-術(shù)語”(由“引發(fā)0+
”符號)盛大平均不被視為一個似是而非的空模式,因為它是不是在建模情況的概念空間lm
被提交买乃。 或者從help(summary.lm)
R ^ 2姻氨,'由模型解釋的方差分數(shù)', R ^ 2 = 1-Sum(R [i] ^ 2)/ Sum((y [i] -y *)^ 2) 其中y *是y [i]的平均值剪验,否則為0肴焊。

我承認,這非常令人困惑功戚。 但它對應(yīng)于文檔娶眷,從建模的角度來看是有意義的。 它是正確的啸臀。 空模型從平均值到零的無聲切換在其定義的上下文中是有意義的茂浮。對于測試我們的預測沒有意義,但是這只是使用正確的F檢驗而不是試圖攻擊的另一個原因“ cor.test
”或“ lm(0+) %>% summary
”來計算它壳咕。
而這正是sigr
大概是:標準測試(使用R
提供的實現(xiàn))略有不同的調(diào)用約定席揽,以便更好地意向文件(在我們的情況下,幾乎總是測量模型谓厘,從模型構(gòu)建單獨的質(zhì)量)幌羞。 它是一個新的庫,所以它還沒有實現(xiàn)其目標所需的文檔竟稳,但我們最終會到達那里属桦。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市他爸,隨后出現(xiàn)的幾起案子聂宾,更是在濱河造成了極大的恐慌,老刑警劉巖诊笤,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件系谐,死亡現(xiàn)場離奇詭異,居然都是意外死亡讨跟,警方通過查閱死者的電腦和手機纪他,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來晾匠,“玉大人茶袒,你說我怎么就攤上這事×构荩” “怎么了薪寓?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長澜共。 經(jīng)常有香客問我向叉,道長,這世上最難降的妖魔是什么咳胃? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任植康,我火速辦了婚禮,結(jié)果婚禮上展懈,老公的妹妹穿的比我還像新娘销睁。我一直安慰自己,他們只是感情好存崖,可當我...
    茶點故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布冻记。 她就那樣靜靜地躺著,像睡著了一般来惧。 火紅的嫁衣襯著肌膚如雪冗栗。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天,我揣著相機與錄音隅居,去河邊找鬼钠至。 笑死,一個胖子當著我的面吹牛胎源,可吹牛的內(nèi)容都是我干的棉钧。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼涕蚤,長吁一口氣:“原來是場噩夢啊……” “哼宪卿!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起万栅,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤佑钾,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后烦粒,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體休溶,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年撒遣,在試婚紗的時候發(fā)現(xiàn)自己被綠了邮偎。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡义黎,死狀恐怖禾进,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情廉涕,我是刑警寧澤泻云,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站狐蜕,受9級特大地震影響宠纯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜层释,卻給世界環(huán)境...
    茶點故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一婆瓜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧贡羔,春花似錦廉白、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至楣嘁,卻和暖如春磅轻,著一層夾襖步出監(jiān)牢的瞬間珍逸,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工聋溜, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留谆膳,地道東北人。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓勤婚,卻偏偏與公主長得像摹量,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子馒胆,可洞房花燭夜當晚...
    茶點故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 最近總是習慣了夜晚,閉上眼凝果,腦袋里會蹦出很多光怪陸離的事情祝迂,大腦一開始運轉(zhuǎn),就沒來由的亢奮器净,夜不能寐型雳。 以前我總是...
    CHINCHINFU閱讀 309評論 0 0
  • 的確可能在今年的s7世界總決賽上EDG的表現(xiàn)不是特別的好,打了一個0杠三的成績山害,大家都感覺edg應(yīng)該沒有什么希望了...
    黃銅刀閱讀 198評論 0 0
  • 回家的路上纠俭,躺著一只被壓死的貓 我從旁邊過去,看了它一眼 然后繼續(xù)向前浪慌。我也不記得在馬路...
    ladidada閱讀 203評論 0 0
  • 我還真是蠻拼的冤荆。。权纤。钓简。。汹想。 晚上我要去吃薯條和漢堡外邓。。古掏。损话。。槽唾。 沒有別的什么事情了丧枪。。夏漱。豪诲。。挂绰。 快放假了屎篱。服赎。。交播。重虑。...
    豬耗菌閱讀 983評論 14 7