1.什么是機(jī)器學(xué)習(xí)
略钦幔。
直接谷歌:機(jī)器學(xué)習(xí)西瓜書 周志華老師寫的
2.機(jī)器學(xué)習(xí)種類
監(jiān)督式學(xué)習(xí):從標(biāo)注數(shù)據(jù)中學(xué)習(xí)預(yù)測(cè)模型常柄,本質(zhì)是學(xué)習(xí)輸入到輸出的映射統(tǒng)計(jì)規(guī)律。
主要運(yùn)用在
分類問題:利用已知訓(xùn)練數(shù)據(jù)集選擇方法學(xué)習(xí)一個(gè)分類器铜异,利用該分類器對(duì)新輸入實(shí)例進(jìn)行分類秸架。例如圖像處理(人臉識(shí)別、識(shí)花識(shí)貓識(shí)狗等等)蚂子,文本分類(正面意見缭黔、反面意見,詞頻分類馏谨,垃圾郵件等等)。常用方法:k鄰近哎媚,感知機(jī)喊儡,決策樹,樸素貝葉斯艾猜,邏輯斯蒂回歸,支持向量機(jī)淤毛,神經(jīng)網(wǎng)絡(luò)等等炸庞。二分類問題常用判斷指標(biāo):精確率precision,召回率recall 埠居,F(xiàn)1值 事期。定義概念略纸颜,這部分是統(tǒng)計(jì)學(xué)知識(shí)。
標(biāo)注問題:學(xué)習(xí)一個(gè)模型唠倦,使它對(duì)觀測(cè)序列給出標(biāo)記序列作為預(yù)測(cè)涮较。自然語言處理廣泛運(yùn)用。常用方法如隱馬爾可夫模型候齿,條件隨機(jī)場(chǎng)闺属。
回歸問題:用于預(yù)測(cè)輸入變量和輸出變量之間的關(guān)系。按輸入變量個(gè)數(shù)可以分為一元回歸掂器,多元回歸,按輸入輸出變量之間的關(guān)系類型可以分為線性回歸灭必,非線性回歸巍膘。最簡(jiǎn)單的線性回歸其實(shí)就是以前中學(xué)學(xué)過的線性代數(shù)學(xué)過了∠啃福回歸問題更多用來預(yù)測(cè)市場(chǎng)走勢(shì)与斤、股價(jià)、客戶滿意度等磷支。
李航老師《統(tǒng)計(jì)學(xué)系方法》第二版里有常用的10種監(jiān)督學(xué)習(xí)方法總結(jié)
無監(jiān)督學(xué)習(xí):從無標(biāo)注數(shù)據(jù)中學(xué)習(xí)預(yù)測(cè)模型食寡,本質(zhì)是學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律。常用方法有聚類善榛、降維、話題分析移盆、圖分析。
強(qiáng)化學(xué)習(xí):在與環(huán)境的連續(xù)互動(dòng)中學(xué)習(xí)最優(yōu)行為策略的機(jī)器學(xué)習(xí)問題据途。
半監(jiān)督:利用少量標(biāo)注叙甸、大量未標(biāo)注數(shù)據(jù)預(yù)測(cè)模型
主動(dòng)學(xué)習(xí):機(jī)器不斷給出實(shí)例進(jìn)行標(biāo)注,利用標(biāo)注數(shù)據(jù)學(xué)習(xí)預(yù)測(cè)模型的機(jī)器學(xué)習(xí)問題便脊。
3.代價(jià)函數(shù)與優(yōu)化目標(biāo)
監(jiān)督學(xué)習(xí)中光戈,在假設(shè)空間F中選取模型f作為決策函數(shù),對(duì)于給定的輸入X由f(X)給出對(duì)應(yīng)輸出Y久妆,輸出的預(yù)測(cè)值f(X)與真實(shí)值Y不一定相等筷弦,由此給出一個(gè)代價(jià)函數(shù)cost function來度量不一致的程度。而學(xué)習(xí)的目的就是期望預(yù)測(cè)值與真實(shí)值差距最小烂琴,也就是我們預(yù)測(cè)的結(jié)果可以無限接近真實(shí)情況。
4.泛化能力
由該方法學(xué)習(xí)到的模型對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力梗夸,我們稱為模型的泛化能力号醉。模型的誤差越小,泛化能力越強(qiáng)畔派。
由此我們知道當(dāng)我們有數(shù)據(jù)集時(shí)线椰,需要對(duì)數(shù)據(jù)進(jìn)行劃分,將它分為測(cè)試集train和訓(xùn)練集test。在訓(xùn)練集上進(jìn)行訓(xùn)練卿捎,得到f(X)后與測(cè)試集Y進(jìn)行比較爵嗅,使誤差最小。
5.過擬合
預(yù)測(cè)學(xué)習(xí)中睹晒,我們希望有一個(gè)最合適對(duì)模型,其參數(shù)能最接近真實(shí)模型戚啥。然而如果一味追求對(duì)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)能力锉试,則預(yù)測(cè)模型的復(fù)雜度往往會(huì)超過真實(shí)模型,表現(xiàn)為對(duì)訓(xùn)練集預(yù)測(cè)完美拖云,但對(duì)未知數(shù)據(jù)預(yù)測(cè)很差应又。這種情況稱為過擬合。避免過擬合通常會(huì)采取正則化或者交叉驗(yàn)證的辦法株扛。
6.正則化與交叉驗(yàn)證
正則化就是在函數(shù)后面加一個(gè)正則項(xiàng)或叫做懲罰項(xiàng)。正則項(xiàng)一般是模型復(fù)雜度單調(diào)遞增函數(shù)盆繁,即模型越復(fù)雜旬蟋,正則項(xiàng)越大。正則項(xiàng)符合奧卡姆剃刀原理:在所有可能選擇的模型中秕狰,能夠很好的解釋已知數(shù)據(jù)且十分簡(jiǎn)單的才是最好的模型躁染,也是最應(yīng)該選擇的模型架忌。
交叉驗(yàn)證一般用來選擇參數(shù)。將給定數(shù)據(jù)進(jìn)行切分饰恕,重復(fù)使用,在此基礎(chǔ)上反復(fù)訓(xùn)練埋嵌、測(cè)試。切分多少份范舀,就訓(xùn)練多少次了罪。一般情況下,取最后的平均值來得出最優(yōu)參數(shù)泊藕,得出最佳模型娃圆。