《統(tǒng)計(jì)學(xué)習(xí)方法》----讀書筆記1

1.統(tǒng)計(jì)學(xué)習(xí)包括監(jiān)督學(xué)習(xí)暮现、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí)楚昭,其一般步驟如下:

  1. 得到一個(gè)有限的訓(xùn)練集合栖袋;
  2. 確定包含學(xué)習(xí)模型集合;
  3. 確定學(xué)習(xí)策略抚太;
  4. 確定學(xué)習(xí)算法塘幅;
  5. 選擇最優(yōu)模型;
  6. 利用學(xué)習(xí)出的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析尿贫;

2.統(tǒng)計(jì)學(xué)習(xí)三要素:

  • 模型
  • 策略
  • 算法

2.1模型

統(tǒng)計(jì)學(xué)習(xí)中首先要考慮的問(wèn)題是學(xué)習(xí)什么樣的模型电媳,在監(jiān)督學(xué)習(xí)過(guò)程中,模型基本可以理解為所要學(xué)習(xí)的條件概率分布或者決策函數(shù)庆亡。

2.2策略

有了模型匾乓,統(tǒng)計(jì)學(xué)習(xí)需要考慮的是按照什么樣的準(zhǔn)則選擇最優(yōu)的模型。這個(gè)過(guò)程可以理解成為使用一定的策略選擇最優(yōu)的模型又谋。在選擇的過(guò)程中一般會(huì)用到下面幾種損失函數(shù)來(lái)評(píng)價(jià)模型的好壞:

  1. 0-1損失函數(shù)
0-1損失函數(shù)
  1. 平方損失函數(shù)
平方損失函數(shù)

3.絕對(duì)損失函數(shù)

絕對(duì)損失函數(shù)

4.對(duì)數(shù)損失函數(shù)

對(duì)數(shù)損失函數(shù)

一般來(lái)說(shuō)損失函數(shù)的值越小拼缝,模型就越好谅辣。我們通過(guò)損失函數(shù)來(lái)評(píng)價(jià)一個(gè)模型效果的好壞碗殷,然后選擇最優(yōu)的模型卸伞。

2.3算法

算法指的是學(xué)習(xí)模型的具體的計(jì)算方法歪泳。統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略继阻,從假設(shè)空間中選擇最優(yōu)模型耻涛,最后使用某種具體的算法,例如SGD瘟檩,來(lái)求解最優(yōu)模型抹缕。一般來(lái)說(shuō),通過(guò)策略中的損失函數(shù)會(huì)將統(tǒng)計(jì)學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一個(gè)最優(yōu)化問(wèn)題芒帕,訓(xùn)練模型的過(guò)程也就轉(zhuǎn)化為了求解最優(yōu)解的過(guò)程歉嗓。

3.過(guò)擬合

在模型選擇中丰介,我們希望選擇或者學(xué)習(xí)一個(gè)合適的模型背蟆。如果存在著一個(gè)“真”模型,那么我們所選擇的模型應(yīng)該逼近“真”模型哮幢。但是我在根據(jù)訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行擬合的時(shí)候带膀,如果一味追求提高對(duì)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)能力,所選擇模型的復(fù)雜度往往比“真”模型更高橙垢,這種現(xiàn)象稱為過(guò)擬合垛叨。過(guò)擬合造成的結(jié)果就是模型對(duì)已知數(shù)據(jù)的預(yù)測(cè)能力很好但是對(duì)未知數(shù)據(jù)預(yù)測(cè)效果很差。我們?cè)谶M(jìn)行模型訓(xùn)練求解的過(guò)程中應(yīng)該盡量避免過(guò)擬合的發(fā)生柜某。

4.正則化

模型選擇的一個(gè)經(jīng)典方法是正則化嗽元。所謂的正則化,可以理解成為在損失函數(shù)的基礎(chǔ)上加上一個(gè)正則化項(xiàng)或者說(shuō)懲罰項(xiàng)喂击。正則化項(xiàng)一般是模型復(fù)雜度(可以簡(jiǎn)單的理解成為模型參數(shù)的個(gè)數(shù))的單調(diào)遞增函數(shù)剂癌,模型越復(fù)雜,正則化值就越大翰绊。其一般形式如下:

正則化的一般形式

其中佩谷,第1項(xiàng)是原有的損失函數(shù)項(xiàng),第2項(xiàng)是正則化項(xiàng)监嗜,λ為調(diào)整二者之間關(guān)系的系數(shù)谐檀,一般為正數(shù)。正則化有很多不同的形式裁奇,常用的一般有L1和L2范數(shù)桐猬。

回歸問(wèn)題中的L2范數(shù)正則化
回歸問(wèn)題中的L1范數(shù)正則化

5.交叉驗(yàn)證

交叉驗(yàn)證是另一種用來(lái)建立可靠的具有一定泛化能力的手段。一般來(lái)說(shuō)交叉驗(yàn)證是將數(shù)據(jù)集隨機(jī)的分為訓(xùn)練集刽肠、驗(yàn)證集合測(cè)試集课幕,三者的比例一般為7:2:1厦坛。其中訓(xùn)練集用來(lái)訓(xùn)練模型,驗(yàn)證集用于模型的選擇乍惊,測(cè)試集用于對(duì)最終學(xué)習(xí)方法的評(píng)估杜秸。一般來(lái)說(shuō)我們選擇一個(gè)在驗(yàn)證集上具有最小預(yù)測(cè)誤差的模型作為最優(yōu)模型。
常用的三種交叉驗(yàn)證方法:

  • Holdout 驗(yàn)證
  • K折交叉驗(yàn)證
  • 留一交叉驗(yàn)證
    這里面最常用的就是K折交叉驗(yàn)證润绎。方法為:初始采樣分割成K個(gè)子樣本撬碟,一個(gè)單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù),其他K-1個(gè)樣本用來(lái)訓(xùn)練莉撇。交叉驗(yàn)證重復(fù)K次呢蛤,每個(gè)子樣本驗(yàn)證一次,平均K次的結(jié)果或者使用其它結(jié)合方式棍郎,最終得到一個(gè)單一評(píng)測(cè)其障。這個(gè)方法的優(yōu)勢(shì)在于,同時(shí)重復(fù)運(yùn)用隨機(jī)產(chǎn)生的子樣本進(jìn)行訓(xùn)練和驗(yàn)證涂佃,每次的結(jié)果驗(yàn)證一次励翼,10折交叉驗(yàn)證是最常用的
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末辜荠,一起剝皮案震驚了整個(gè)濱河市汽抚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌伯病,老刑警劉巖造烁,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異午笛,居然都是意外死亡惭蟋,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門药磺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)告组,“玉大人,你說(shuō)我怎么就攤上這事与涡∪切常” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵驼卖,是天一觀的道長(zhǎng)氨肌。 經(jīng)常有香客問(wèn)我,道長(zhǎng)酌畜,這世上最難降的妖魔是什么怎囚? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上恳守,老公的妹妹穿的比我還像新娘考婴。我一直安慰自己,他們只是感情好催烘,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布沥阱。 她就那樣靜靜地躺著,像睡著了一般伊群。 火紅的嫁衣襯著肌膚如雪考杉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天舰始,我揣著相機(jī)與錄音崇棠,去河邊找鬼。 笑死丸卷,一個(gè)胖子當(dāng)著我的面吹牛枕稀,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播谜嫉,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼萎坷,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了骄恶?” 一聲冷哼從身側(cè)響起食铐,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤匕垫,失蹤者是張志新(化名)和其女友劉穎僧鲁,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體象泵,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡寞秃,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了偶惠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片春寿。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖忽孽,靈堂內(nèi)的尸體忽然破棺而出绑改,到底是詐尸還是另有隱情,我是刑警寧澤兄一,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布厘线,位于F島的核電站,受9級(jí)特大地震影響出革,放射性物質(zhì)發(fā)生泄漏造壮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一骂束、第九天 我趴在偏房一處隱蔽的房頂上張望耳璧。 院中可真熱鬧成箫,春花似錦、人聲如沸旨枯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)攀隔。三九已至凳厢,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間竞慢,已是汗流浹背先紫。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留筹煮,地道東北人遮精。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像败潦,于是被迫代替她去往敵國(guó)和親本冲。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容