python機器學(xué)習(xí)補充3:learning_curve(繪制學(xué)習(xí)曲線)

學(xué)習(xí)曲線:一種用來判斷訓(xùn)練模型的一種方法嚼鹉,通過觀察繪制出來的學(xué)習(xí)曲線圖沪摄,我們可以比較直觀的了解到我們的模型處于一個什么樣的狀態(tài)植榕,如:過擬合(overfitting)或欠擬合(underfitting)


要看深刻了解上面的圖形意義吮螺,你需要了解偏差(bias)提鸟、方差(variance)對于訓(xùn)練模型的意義宾濒,可以參考這里https://blog.csdn.net/qq_36523839/article/details/82490802腿短,當你了解后,我們來看看上面的圖形代表的意義:(橫坐標表示訓(xùn)練樣本的數(shù)量,縱坐標表示準確率)

1:觀察左上圖橘忱,訓(xùn)練集準確率與驗證集準確率收斂赴魁,但是兩者收斂后的準確率遠小于我們的期望準確率(上面那條紅線),所以由圖可得該模型屬于欠擬合(underfitting)問題鹦付。由于欠擬合尚粘,所以我們需要增加模型的復(fù)雜度,比如敲长,增加特征郎嫁、增加樹的深度、減小正則項等等祈噪,此時再增加數(shù)據(jù)量是不起作用的泽铛。

? ? 2:觀察右上圖,訓(xùn)練集準確率高于期望值辑鲤,驗證集則低于期望值盔腔,兩者之間有很大的間距,誤差很大月褥,對于新的數(shù)據(jù)集模型適應(yīng)性較差弛随,所以由圖可得該模型屬于過擬合(overfitting)問題。由于過擬合宁赤,所以我們降低模型的復(fù)雜度舀透,比如減小樹的深度、增大分裂節(jié)點樣本數(shù)决左、增大樣本數(shù)愕够、減少特征數(shù)等等。

? ? 3:一個比較理想的學(xué)習(xí)曲線圖應(yīng)當是:低偏差佛猛、低方差惑芭,即收斂且誤差小。

在深刻了解到了學(xué)習(xí)曲線圖的意義后继找,可以著手揮著該圖了遂跟。

如何繪制學(xué)習(xí)曲線:

以下為sklearn官方文檔的解釋,這里僅做必要的解釋:

通過使用sklearn提供的繪制模板婴渡,我們也可以根據(jù)數(shù)據(jù)的情況來改變繪制的條件幻锁。官方提供的兩個樣例分別是GaussianNB、SVC兩個模型對于load_digits數(shù)據(jù)集進行擬合后繪制的學(xué)習(xí)曲線圖缩搅。


plot_learning_curve函數(shù)官方放提供的模板函數(shù),可以無需修改触幼,初學(xué)時我們僅需要知道傳入的參數(shù)意義即可硼瓣。

先說說函數(shù)里面的一個東西,也是畫曲線的核心sklearn.model_selection的learning_curve,該學(xué)習(xí)曲線函數(shù)返回的是train_sizes堂鲤,train_scores亿傅,test_scores:

? ? 在畫訓(xùn)練集的曲線時:橫軸為 train_sizes,縱軸為 train_scores_mean瘟栖;

? ??畫測試集的曲線時:橫軸為train_sizes葵擎,縱軸為test_scores_mean。

title:圖像的名字半哟。

cv:默認cv=None酬滤,如果需要傳入則如下:

? ? cv : int, 交叉驗證生成器或可迭代的可選項,確定交叉驗證拆分策略寓涨。

?????????cv的可能輸入是:

???????????- 無盯串,使用默認的3倍交叉驗證,

???????????- 整數(shù)戒良,指定折疊數(shù)体捏。

???????????- 要用作交叉驗證生成器的對象。

???????????- 可迭代的yielding訓(xùn)練/測試分裂糯崎。

ShuffleSplit:我們這里設(shè)置cv几缭,交叉驗證使用ShuffleSplit方法,一共取得100組訓(xùn)練集與測試集沃呢,每次的測試集為20%年栓,它返回的是每組訓(xùn)練集與測試集的下標索引,由此可以知道哪些是train樟插,那些是test韵洋。

ylim:tuple, shape (ymin, ymax), 可選的。定義繪制的最小和最大y值黄锤,這里是(0.7搪缨,1.01)。

n_jobs : 整數(shù)鸵熟,可選并行運行的作業(yè)數(shù)(默認值為1)副编。windows開多線程需要在"__name__"==__main__中運行。

好了流强,以上為查閱資料以及文檔對于上面參數(shù)的解釋痹届,下面看看運行的結(jié)果:

如上圖,左邊(樸素貝葉斯分類器)收斂但準雖然確度為0.85左右打月,屬于欠擬合队腐;右邊(rbf核的SVM)訓(xùn)練分數(shù)一直都在一個很高的地方,可能屬于一個過擬合問題奏篙,這時可以通過更多的訓(xùn)練樣本來驗證這個分數(shù)柴淘。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末迫淹,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子为严,更是在濱河造成了極大的恐慌敛熬,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件第股,死亡現(xiàn)場離奇詭異应民,居然都是意外死亡,警方通過查閱死者的電腦和手機夕吻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進店門诲锹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人梭冠,你說我怎么就攤上這事辕狰。” “怎么了控漠?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵蔓倍,是天一觀的道長。 經(jīng)常有香客問我盐捷,道長偶翅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任碉渡,我火速辦了婚禮聚谁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘滞诺。我一直安慰自己形导,他們只是感情好,可當我...
    茶點故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布习霹。 她就那樣靜靜地躺著朵耕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪淋叶。 梳的紋絲不亂的頭發(fā)上阎曹,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天,我揣著相機與錄音煞檩,去河邊找鬼处嫌。 笑死,一個胖子當著我的面吹牛斟湃,可吹牛的內(nèi)容都是我干的熏迹。 我是一名探鬼主播,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼凝赛,長吁一口氣:“原來是場噩夢啊……” “哼注暗!你這毒婦竟也來了厨剪?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤友存,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后陶衅,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體屡立,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年搀军,在試婚紗的時候發(fā)現(xiàn)自己被綠了膨俐。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡罩句,死狀恐怖焚刺,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情门烂,我是刑警寧澤乳愉,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布,位于F島的核電站屯远,受9級特大地震影響蔓姚,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜慨丐,卻給世界環(huán)境...
    茶點故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一坡脐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧房揭,春花似錦备闲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至伶唯,卻和暖如春觉既,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背乳幸。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工瞪讼, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人粹断。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓符欠,卻偏偏與公主長得像,于是被迫代替她去往敵國和親瓶埋。 傳聞我的和親對象是個殘疾皇子希柿,可洞房花燭夜當晚...
    茶點故事閱讀 43,724評論 2 351

推薦閱讀更多精彩內(nèi)容