(二) 監(jiān)督學(xué)習(xí)

1. 什么是監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)(supervised learning)蛹磺,通俗來說锹安,就是學(xué)習(xí)一個(gè)模型畅买,使模型對(duì)任意給定的輸入值并闲,給出一個(gè)貼近相應(yīng)真實(shí)輸出的預(yù)測(cè)值。

主要由以下三個(gè)重要部分組成:模型谷羞、參數(shù)帝火、目標(biāo)函數(shù)。


2. 模型

簡(jiǎn)單來說湃缎,可以理解為定義一個(gè)明確的公式犀填,表示輸入和輸出之間的關(guān)系。在已知輸入后嗓违,能計(jì)算得到固定的輸出九巡。舉例如下:

假設(shè)所用模型為常見的線性模型,則有預(yù)測(cè)值的加權(quán)求和公式:\hat{y}_i= \sum_{j=1}^ryfaeviw_jx_{ij}
其中蹂季,w_j冕广,為第j個(gè)特征的權(quán)重疏日。x_{ij},為第i個(gè)樣本的第j個(gè)特征撒汉。 \hat{y}_i制恍,為第i個(gè)樣本的預(yù)測(cè)值。

對(duì)于不同類型的任務(wù)神凑,預(yù)測(cè)值\hat{y}_i有不同的解釋:

  • 若解決的是分類問題(二分類,0/1)何吝,則為L(zhǎng)ogistic回歸(Logistic regression)溉委,實(shí)際輸出1/(1+exp(-\hat{y}_i)),表示該樣本為正例的概率爱榕。
  • 若解決的是回歸問題瓣喊,則為線性回歸(Linear regression),實(shí)際輸出\hat{y}_i黔酥,表示預(yù)測(cè)值藻三。


3. 參數(shù)

在上述線性模型的例子中,對(duì)于新的輸入x_i跪者,能計(jì)算得到\hat{y}_i的前提是:權(quán)重w_j已知棵帽。

因此,權(quán)重集合\Theta=\{w_j|j=1,...,d \}渣玲,即為模型需要預(yù)先從已知x和真實(shí)y的樣本中學(xué)習(xí)得到的參數(shù)逗概。


4. 目標(biāo)函數(shù)

那么,如何從已知的樣本中學(xué)習(xí)到合適的參數(shù)呢忘衍?需要我們定義一個(gè)目標(biāo)函數(shù)逾苫,并求其最小化的解。

目標(biāo)函數(shù)通常包含兩部分:訓(xùn)練誤差枚钓、正則化項(xiàng)铅搓,即:Obj(\Theta) = L(\Theta) + \Omega(\Theta)

其中,L(\Theta)搀捷,為訓(xùn)練誤差星掰,表示模型對(duì)于訓(xùn)練數(shù)據(jù)的擬合程度,擬合程度越高則誤差越小指煎。 \Omega(\Theta)蹋偏,為正則化項(xiàng),也稱懲罰項(xiàng)至壤,表示模型復(fù)雜度威始,值越大則模型復(fù)雜度越高。

因此像街,目標(biāo)函數(shù)的最小化黎棠,表示尋求訓(xùn)練誤差和正則化項(xiàng)的同時(shí)小晋渺,即,模型對(duì)于訓(xùn)練數(shù)據(jù)的擬合程度較好脓斩,同時(shí)模型又盡量簡(jiǎn)單木西,泛化能力強(qiáng)(對(duì)于未知的數(shù)據(jù),依然能保持較好的預(yù)測(cè)效果随静,而非對(duì)訓(xùn)練數(shù)據(jù)過擬合)八千。

對(duì)于訓(xùn)練誤差/損失函數(shù),可進(jìn)一步表示為:L = \sum_{i=1}^{n}l(y_i, \hat{y_i})
其中燎猛,y_i恋捆,為第個(gè)樣本的真實(shí)值。\hat{y_i}重绷,為預(yù)測(cè)值沸停。l,為損失函數(shù)昭卓,表示如何計(jì)算真實(shí)值與預(yù)測(cè)值之間的誤差愤钾。n為訓(xùn)練樣本的個(gè)數(shù)。

常用的正則化項(xiàng)包括:
L1正則化(L1范數(shù))候醒,\Omega(\Theta) = \lambda\|w\|_1能颁,即權(quán)重向量w中,各元素的絕對(duì)值之和
L2正則化(L2范數(shù))倒淫,\Omega(\Theta) = \lambda\|w\|^2劲装,即權(quán)重向量w中,各元素的平方和再求平方根




參考

Introduction to Boosted Trees: Tianqi Chen

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末昌简,一起剝皮案震驚了整個(gè)濱河市占业,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌纯赎,老刑警劉巖谦疾,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異犬金,居然都是意外死亡念恍,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門晚顷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來峰伙,“玉大人,你說我怎么就攤上這事该默⊥ィ” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵栓袖,是天一觀的道長(zhǎng)匣摘。 經(jīng)常有香客問我店诗,道長(zhǎng),這世上最難降的妖魔是什么音榜? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任庞瘸,我火速辦了婚禮,結(jié)果婚禮上赠叼,老公的妹妹穿的比我還像新娘擦囊。我一直安慰自己,他們只是感情好嘴办,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布霜第。 她就那樣靜靜地躺著,像睡著了一般户辞。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上癞谒,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天底燎,我揣著相機(jī)與錄音,去河邊找鬼弹砚。 笑死双仍,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的桌吃。 我是一名探鬼主播朱沃,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼茅诱!你這毒婦竟也來了逗物?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤瑟俭,失蹤者是張志新(化名)和其女友劉穎翎卓,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體摆寄,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡失暴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了微饥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逗扒。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖欠橘,靈堂內(nèi)的尸體忽然破棺而出矩肩,到底是詐尸還是另有隱情,我是刑警寧澤肃续,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布蛮拔,位于F島的核電站述暂,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏建炫。R本人自食惡果不足惜畦韭,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望肛跌。 院中可真熱鬧艺配,春花似錦、人聲如沸衍慎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽稳捆。三九已至赠法,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間乔夯,已是汗流浹背砖织。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留末荐,地道東北人侧纯。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像甲脏,于是被迫代替她去往敵國(guó)和親眶熬。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354