機(jī)器學(xué)習(xí)第二周-如何評價(jià)模型好壞

一、數(shù)據(jù)拆分

如果將全部的原始數(shù)據(jù)當(dāng)做訓(xùn)練集直接訓(xùn)練出模型蜈敢,然后投入到真實(shí)環(huán)境中辜荠,這種做法是不恰當(dāng)?shù)模赡艽嬖谝欢▎栴}抓狭,這時(shí)候可以對原始數(shù)據(jù)集進(jìn)行拆分伯病,拆成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,根據(jù)測試結(jié)果判斷模型效果否过。

進(jìn)行訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集切分(train test split)時(shí)午笛,一般將原始數(shù)據(jù)的80%作為訓(xùn)練數(shù)據(jù)來訓(xùn)練模型,另外20%作為測試數(shù)據(jù)苗桂,通過測試數(shù)據(jù)直接判斷模型的效果药磺,在模型進(jìn)入真實(shí)環(huán)境前改進(jìn)模型。

分類準(zhǔn)確度accuracy:被正確分類的樣本比例或者是數(shù)量

超參數(shù)煤伟,在機(jī)器學(xué)習(xí)算法模型執(zhí)行之前需要指定的參數(shù)癌佩。

二木缝、評價(jià)分類結(jié)果指標(biāo)

混淆矩陣:對于極度偏斜(Skewed Data)的數(shù)據(jù),只使用分類準(zhǔn)確度是不能衡量驼卖。這時(shí)就需要使用混淆矩陣(Confusion Matrix)做進(jìn)一步分析氨肌。對于二分類問題來說,所有的問題被分為0和1兩類酌畜,混淆矩陣是2*2的矩陣。

精準(zhǔn)率:分母為所有預(yù)測為1的個數(shù)卿叽,分子是其中預(yù)測對了的個數(shù)桥胞,即預(yù)測值為1,且預(yù)測對了的比例考婴。精準(zhǔn)率為我們關(guān)注的那個事件贩虾,預(yù)測的有多準(zhǔn)。

召回率:所有真實(shí)值為1的數(shù)據(jù)中沥阱,預(yù)測對了的個數(shù)缎罢。也就是我們關(guān)注的那個事件真實(shí)的發(fā)生情況下,我們成功預(yù)測的比例是多少考杉。

F1 Score:F1 Score 是精準(zhǔn)率和召回率的調(diào)和平均值策精。調(diào)和平均值的特點(diǎn)是如果二者極度不平衡,如某一個值特別高崇棠、另一個值特別低時(shí)咽袜,得到的F1 Score值也特別低;只有二者都非常高枕稀,F(xiàn)1才會高询刹。這樣才符合我們對精準(zhǔn)率和召回率的衡量標(biāo)準(zhǔn)。

ROC曲線

????????分類閾值萎坷,即設(shè)置判斷樣本為正例的閾值thr

????????TPR:預(yù)測為1凹联,且預(yù)測對了的數(shù)量,占真實(shí)值為1的數(shù)據(jù)百分比哆档。很好理解蔽挠,就是召回率。

????????FPR:預(yù)測為1虐呻,但預(yù)測錯了的數(shù)量象泵,占真實(shí)值不為1的數(shù)據(jù)百分比。與TPR相對應(yīng)斟叼,F(xiàn)PR除以真實(shí)值為0的這一行所有的數(shù)字和 ?偶惠。

????????ROC曲線(Receiver OperationCharacteristic Cureve),描述TPR和FPR之間的關(guān)系朗涩。x軸是FPR忽孽,y軸是TPR。ROC曲線距離左上角越近,證明分類器效果越好兄一。如果一條算法1的ROC曲線完全包含算法2厘线,則可以斷定性能算法1>算法2。很多時(shí)候兩個分類器的ROC曲線交叉出革,無法判斷哪個分類器性能更好造壮,這時(shí)可以計(jì)算曲線下的面積AUC,作為性能度量骂束。

AUC

????????一般在ROC曲線中耳璧,我們關(guān)注是曲線下面的面積, 稱為AUC(Area Under Curve)展箱。這個AUC是橫軸范圍(0,1 )旨枯,縱軸是(0,1)所以總面積是小于1的。ROC曲線下方由梯形組成混驰,矩形可以看成特征的梯形攀隔。因此,AUC的面積可以這樣算:(上底+下底)* 高 / 2栖榨,曲線下面的面積可以由多個梯形面積疊加得到昆汹。AUC越大,分類器分類效果越好治泥。

?

三筹煮、評價(jià)回歸結(jié)果指標(biāo)

均方誤差MSE

????測試集中的數(shù)據(jù)量m不同,因?yàn)橛欣奂硬僮骶蛹校噪S著數(shù)據(jù)的增加 败潦,誤差會逐漸積累;因此衡量標(biāo)準(zhǔn)和?m?相關(guān)准脂。為了抵消掉數(shù)據(jù)量的形象劫扒,可以除去數(shù)據(jù)量,抵消誤差狸膏。通過這種處理方式得到的結(jié)果叫做?均方誤差MSE

均方根誤差RMSE

????使用均方誤差MSE受到量綱的影響沟饥。例如在衡量房產(chǎn)時(shí),y的單位是(萬元)湾戳,那么衡量標(biāo)準(zhǔn)得到的結(jié)果是(萬元平方)贤旷。為了解決量綱的問題,可以將其開方(為了解決方差的量綱問題砾脑,將其開方得到平方差)得到均方根誤差RMSE(Root Mean Squarde Error)

平均絕對誤差MAE

????????對于線性回歸算法還有另外一種非常樸素評測標(biāo)準(zhǔn)幼驶。要求真實(shí)值??與 預(yù)測結(jié)果??之間的距離最小,可以直接相減做絕對值韧衣,加m次再除以m盅藻,即可求出平均距離购桑,被稱作平均絕對誤差MAE(Mean Absolute Error):

R方(R-squared)

????????定義:衡量模型擬合度的一個量,是一個比例形式,被解釋方差/總方差氏淑。公式:R-squared = SSR/TSS=1 -? RSS/TSS

其中:TSS是執(zhí)行回歸分析前勃蜘,響應(yīng)變量固有的方差。

? ? ? ? ? RSS殘差平方和就是假残,回歸模型不能解釋的方差缭贡。

? ? ? ? ? SSR回歸模型可以解釋的方差。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末守问,一起剝皮案震驚了整個濱河市匀归,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌耗帕,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件袱贮,死亡現(xiàn)場離奇詭異仿便,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)攒巍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進(jìn)店門嗽仪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人柒莉,你說我怎么就攤上這事闻坚。” “怎么了兢孝?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵窿凤,是天一觀的道長。 經(jīng)常有香客問我跨蟹,道長雳殊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任窗轩,我火速辦了婚禮夯秃,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘痢艺。我一直安慰自己仓洼,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布堤舒。 她就那樣靜靜地躺著色建,像睡著了一般。 火紅的嫁衣襯著肌膚如雪植酥。 梳的紋絲不亂的頭發(fā)上镀岛,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天弦牡,我揣著相機(jī)與錄音,去河邊找鬼漂羊。 笑死驾锰,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的走越。 我是一名探鬼主播椭豫,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼旨指!你這毒婦竟也來了赏酥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤谆构,失蹤者是張志新(化名)和其女友劉穎裸扶,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體搬素,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡呵晨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了熬尺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片摸屠。...
    茶點(diǎn)故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖粱哼,靈堂內(nèi)的尸體忽然破棺而出季二,到底是詐尸還是另有隱情,我是刑警寧澤揭措,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布胯舷,位于F島的核電站,受9級特大地震影響蜂筹,放射性物質(zhì)發(fā)生泄漏需纳。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一艺挪、第九天 我趴在偏房一處隱蔽的房頂上張望不翩。 院中可真熱鬧,春花似錦麻裳、人聲如沸口蝠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽妙蔗。三九已至,卻和暖如春疆瑰,著一層夾襖步出監(jiān)牢的瞬間眉反,已是汗流浹背昙啄。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留寸五,地道東北人梳凛。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像梳杏,于是被迫代替她去往敵國和親韧拒。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容