uniform機器學習極簡入門7—機器學習入門概述

uniform機器學習極簡入門這個系列已經(jīng)介紹了6節(jié)課荤牍,大家對機器學習(統(tǒng)計學習)有了些了解(當然之前都是些基礎)案腺,今天我們從宏觀整體上介紹下什么是機器學習,以及目前機器學習的分類康吵,包括我們后續(xù)會陸續(xù)和大家介紹的方向劈榨。有了這個宏觀理解后,可以針對性的在實踐中選擇自己合適的場景方法晦嵌,而不是盲目的用一個方法來套同辣。

1 機器學習目標及分類

機器學習(也稱為統(tǒng)計機器學習)是通過數(shù)據(jù)來構(gòu)建概率統(tǒng)計模型拷姿,然后利用訓練好的模型來預測和分析未知數(shù)據(jù)。

目前統(tǒng)計學習可以分為以下四類

  1. 無監(jiān)督學習
  2. 半監(jiān)督學習
  3. 有監(jiān)督學習
  4. 強化學習

我們這個系列也會盡量把這四種方法對應的模型和理論都介紹下邑闺,前面幾節(jié)其實就是圍繞無監(jiān)督學習展開的模型跌前。
無監(jiān)督模型表示數(shù)據(jù)完全無標記數(shù)據(jù);半監(jiān)督學習模型則有少量標記數(shù)據(jù)和大量未標記數(shù)據(jù)陡舅;有監(jiān)督學習則是在有大量已表述數(shù)據(jù)下學習的模型抵乓。強化學習有些不太一樣,他們的訓練數(shù)據(jù)需要agent和environment不斷交互中產(chǎn)生靶衍。

監(jiān)督學習模型可以是概率模型也可以是非概率模型灾炭,由條件概率分布P(Y|X)或者決策函數(shù)y=f(x)表示。這類的學習方法應該是我們后續(xù)重點介紹的模型颅眶,因為在實際工程中蜈出,通過監(jiān)督學習來解決問題的場景特別多。

強化學習近幾年也再次火起來(因為alphaGo采用的模型就是深度強化學習模型)涛酗,最近的人機游戲?qū)Q也是采用強化學習來訓練的铡原,強化學習也被認為是我們尋找通用人工智能的最有希望的方式,所以建議大家可以多多關注目前強化學習的一些新paper商叹,我們后面也會詳細介紹這里涉及到的一些模型燕刻。

統(tǒng)計機器學習有三要素(見李航老師的《統(tǒng)計學習方法》)

  1. 模型
    模型指的是我們采用的函數(shù)空間,可能是概率模型也可能是決策函數(shù)剖笙。

  2. 策略
    有了模型來表示卵洗,我們需要某種指標來告訴我們?nèi)绾螌W習模型的參數(shù),其實就是我們的損失函數(shù)了弥咪,一般損失函數(shù)有以下幾種

  • 0-1損失函數(shù)
    L(Y, f(X))=1\ \ \ \ if\ f(X)\neq Y
    L(Y, f(X))=0\ \ \ \ if\ f(X) = Y
  • 平方損失函數(shù)
    L(Y, f(X))=[Y-f(X)]^2
  • 對數(shù)損失函數(shù)
    L(Y, f(X))=Ylog(f(X))+(1-Y)log(1-f(X)
    由1的模型我們可以得到我們假設的f(X)結(jié)構(gòu)过蹂,然后根據(jù)策略,可以得到我們優(yōu)化的目標
  1. 算法
    有了策略(優(yōu)化目標)聚至,那我們只需要某種算法就可以來求解對應的模型參數(shù)了酷勺。其實這里問題就轉(zhuǎn)換為了最優(yōu)化問題。(后面我們會單獨介紹一節(jié)扳躬,關于現(xiàn)有傳統(tǒng)機器學習和深度學習涉及到的優(yōu)化方法鸥印。)

2 模型衡量指標

模型訓練的目標是為了對未知數(shù)據(jù)的分析,因此我們需要尋找某個指標來衡量這樣的結(jié)果坦报。

上面的損失函數(shù)是我們訓練模型的目標库说,那又該怎么評價我們學習到的模型效果是否具有泛化能力?這里我們簡單介紹幾個方法:

  1. 準確率
    accuracy=\frac{1}{m}\sum_{i=1}^{m}I(y=f(x))
  2. 精準率和召回率

精準率 precision 檢索出的信息中有多少是正確的信息片择。
召回率 recall 有多少有用的信息被檢索出潜的。

為了公式化表示上面這兩個指標,我們一般會借助如下表格

真實\預測
TP FN
FP TN

precision=\frac{TP}{TP+FP}
recall=\frac{TP}{TP+FN}
我們的目標就是希望召回率和精準率盡可能高字管,另外還有個綜合指標就是F1-score,一般我們定義如下
F1=\frac{2PR}{P+R}

  1. ROC
    很多機器學習是為測試樣本產(chǎn)生一個實值或者概率預測啰挪,然后將這個預測值與某個閾值比較信不,如果大于該閾值則為正樣本,否則負樣本亡呵。
    ROC的定義同樣也需要用到之前的表格抽活,其橫坐標和縱坐標定義如下

TPR=\frac{TP}{TP+FN}
FPR=\frac{FP}{FP+TN}

3 過擬合與欠擬合

模型訓練目標就是把損失函數(shù)降到最低,是否這種評價指標在測試集合就一定最優(yōu)呢锰什?

假設我們有如下數(shù)據(jù):


Data

我們需要進行擬合這些數(shù)據(jù)下硕,假設我們采用多項式模型
y(x) = w_0 + w_1*x + w_2*x^2+ ...
=\sum_{i=0}^{n}w_i*x^i
這里存在一個參數(shù)n究竟該選擇多少?
我們分別選擇n=1, 3, 10進行擬合得到如下圖

Fit

  1. n=1
    從圖中看出汁胆,仍然存在很多點偏離較大梭姓,這種情況下,屬于欠擬合嫩码。判斷欠擬合的方法就是該模型在訓練集合上的表現(xiàn)就很差誉尖,預測能力較弱,此時需要增加模型的復雜度铸题。

  2. n=3
    從圖中可以看出铡恕,該模型復雜度對Data的擬合具有較好的結(jié)果

  3. n=10
    我們看到圖像在未知數(shù)據(jù)區(qū)間的表現(xiàn)很奇怪,有個上揚的趨勢丢间,這就是對未知數(shù)據(jù)的預測探熔,可見效果并不是很好,雖然它對已知數(shù)據(jù)擬合效果很好千劈。此時被稱為過擬合,模型往往是由于過于復雜牌捷,過分擬合了訓練集合墙牌,而缺失了泛化能力。

一般模型復雜度和預測誤差存在如下曲線:


模型復雜度和預測誤差關系

模型越復雜暗甥,往往能夠降低訓練集合的誤差喜滨,但是測試集合的誤差可能會反而增加。模型需要符合奧卡姆剃刀原理撤防。

所有可選擇的模型中虽风,能夠很好地解釋已知數(shù)據(jù)并且模型越簡單越好。

如何限制模型的復雜度寄月?可以采用正則化的方法來懲罰模型復雜度辜膝。
還記得我們在剛開始介紹最大似然法時候有提到的MAP(最大后驗概率),其實先概率就是一種正則化的方法漾肮。

所以通用的損失函數(shù)一般定義如下
J(\theta)=\frac{1}{n}\sum_{i=1}^{n}L(y^{(i)},f(x^{(i)};\theta)) + \lambda \Omega(\theta)
第一項表示經(jīng)驗損失(訓練集合上的擬合誤差)厂抖;第二項表示模型復雜度的懲罰項。

在深度學習中克懊,有個訓練的trick叫做early stop忱辅,就是不希望模型過分擬合訓練集合七蜘,而是更多讓模型擁有泛化能力。

另外墙懂,在訓練中建議采用交叉驗證的方法橡卤,例如s折交叉驗證。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末损搬,一起剝皮案震驚了整個濱河市碧库,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌场躯,老刑警劉巖谈为,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異踢关,居然都是意外死亡伞鲫,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門签舞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來秕脓,“玉大人,你說我怎么就攤上這事儒搭》图埽” “怎么了?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵搂鲫,是天一觀的道長傍药。 經(jīng)常有香客問我,道長魂仍,這世上最難降的妖魔是什么拐辽? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮擦酌,結(jié)果婚禮上俱诸,老公的妹妹穿的比我還像新娘。我一直安慰自己赊舶,他們只是感情好睁搭,可當我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著笼平,像睡著了一般园骆。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上寓调,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天遇伞,我揣著相機與錄音,去河邊找鬼捶牢。 笑死鸠珠,一個胖子當著我的面吹牛巍耗,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播渐排,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼掩浙,長吁一口氣:“原來是場噩夢啊……” “哼爆捞!你這毒婦竟也來了晴竞?” 一聲冷哼從身側(cè)響起崔慧,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎可缚,沒想到半個月后霎迫,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡帘靡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年知给,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片描姚。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡涩赢,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出轩勘,到底是詐尸還是另有隱情筒扒,我是刑警寧澤,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布绊寻,位于F島的核電站花墩,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏澄步。R本人自食惡果不足惜冰蘑,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望驮俗。 院中可真熱鬧懂缕,春花似錦允跑、人聲如沸王凑。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽索烹。三九已至,卻和暖如春弱睦,著一層夾襖步出監(jiān)牢的瞬間百姓,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工况木, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留垒拢,地道東北人旬迹。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像求类,于是被迫代替她去往敵國和親奔垦。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容