林軒田機器學(xué)習(xí)基石課程筆記3 - 機器學(xué)習(xí)類型

上節(jié)課我們主要介紹了解決線性分類問題的一個簡單的方法:PLA黔姜。PLA能夠在平面中選擇一條直線將樣本數(shù)據(jù)完全正確分類拯杠。而對于線性不可分的情況,可以使用Pocket Algorithm來處理。本節(jié)課將主要介紹一下機器學(xué)習(xí)有哪些種類彤蔽,并進(jìn)行歸納。

主要的視頻講解:
林軒田機器學(xué)習(xí)基石 P10
林軒田機器學(xué)習(xí)基石 P11
林軒田機器學(xué)習(xí)基石 P12
林軒田機器學(xué)習(xí)基石 P13

一 Learning with Different Output Space Y

我們在上節(jié)課引入的銀行根據(jù)用戶個人情況判斷是否給他發(fā)信用卡的例子庙洼,這是一個典型的二元分類(binary classification)問題顿痪。也就是說輸出只有兩個,一般 y={-1, +1} 油够,-1代表不發(fā)信用卡(負(fù)類)蚁袭,+1代表發(fā)信用卡(正類)。

二元分類的問題很常見石咬,包括信用卡發(fā)放揩悄、垃圾郵件判別、患者疾病診斷鬼悠、答案正確性估計等等删性。二元分類是機器學(xué)習(xí)領(lǐng)域非常核心和基本的問題适揉。二元分類有線性模型也有非線性模型气堕,根據(jù)實際問題情況岳守,選擇不同的模型其屏。

在這里插入圖片描述

除了二元分類杰标,也有多元分類(Multiclass Classification)問題琉用。顧名思義晶密,多元分類的輸出多于兩個瞬女,y={1, 2, … , K}, K>2. 一般多元分類的應(yīng)用有數(shù)字識別虐秋、圖片內(nèi)容識別等等榕茧。

在這里插入圖片描述

二元分類和多元分類都屬于分類問題,它們的輸出都是離散值客给。二對于另外一種情況用押,比如訓(xùn)練模型,預(yù)測房屋價格起愈、股票收益多少等只恨,這類問題的輸出y=R译仗,即范圍在整個實數(shù)空間,是連續(xù)的官觅。這類問題纵菌,我們把它叫做回歸(Regression)。最簡單的線性回歸是一種典型的回歸模型休涤。

除了分類和回歸問題咱圆,在自然語言處理等領(lǐng)域中,還會用到一種機器學(xué)習(xí)問題:結(jié)構(gòu)化學(xué)習(xí)(Structured Learning)功氨。結(jié)構(gòu)化學(xué)習(xí)的輸出空間包含了某種結(jié)構(gòu)在里面序苏,它的一些解法通常是從多分類問題延伸而來的,比較復(fù)雜捷凄。本系列課程不會詳細(xì)介紹Structured Learning忱详,有興趣的讀者可以自行對它進(jìn)行更深入的研究。

簡單總結(jié)一下跺涤,機器學(xué)習(xí)按照輸出空間劃分的話匈睁,包括二元分類、多元分類桶错、回歸航唆、結(jié)構(gòu)化學(xué)習(xí)等不同的類型。其中二元分類和回歸是最基礎(chǔ)院刁、最核心的兩個類型糯钙,也是我們課程主要介紹的部分。

在這里插入圖片描述

二 Learning with Different Data Label y_n

如果我們拿到的訓(xùn)練樣本 D 既有輸入特征 x退腥,也有輸出 y_n任岸,那么我們把這種類型的學(xué)習(xí)稱為監(jiān)督式學(xué)習(xí)(Supervised Learning)。監(jiān)督式學(xué)習(xí)可以是二元分類狡刘、多元分類或者是回歸演闭,最重要的是知道輸出標(biāo)簽 y_n。與監(jiān)督式學(xué)習(xí)相對立的另一種類型是非監(jiān)督式學(xué)習(xí)(Unsupervised learning)颓帝。非監(jiān)督式學(xué)習(xí)是沒有輸出標(biāo)簽yn的,典型的非監(jiān)督式學(xué)習(xí)包括:聚類(clustering)問題窝革,比如對網(wǎng)頁上新聞的自動分類购城;密度估計,比如交通路況分析虐译;異常檢測瘪板,比如用戶網(wǎng)絡(luò)流量監(jiān)測。通常情況下漆诽,非監(jiān)督式學(xué)習(xí)更復(fù)雜一些侮攀,而且非監(jiān)督的問題很多都可以使用監(jiān)督式學(xué)習(xí)的一些算法思想來實現(xiàn)锣枝。

在這里插入圖片描述

介于監(jiān)督式和非監(jiān)督式學(xué)習(xí)之間的叫做半監(jiān)督式學(xué)習(xí)(Semi-supervised Learning)。顧名思義兰英,半監(jiān)督式學(xué)習(xí)就是說一部分?jǐn)?shù)據(jù)有輸出標(biāo)簽 y_n撇叁,而另一部分?jǐn)?shù)據(jù)沒有輸出標(biāo)簽 y_n。在實際應(yīng)用中畦贸,半監(jiān)督式學(xué)習(xí)有時候是必須的陨闹,比如醫(yī)藥公司對某些藥物進(jìn)行檢測,考慮到成本和實驗人群限制等問題薄坏,只有一部分?jǐn)?shù)據(jù)有輸出標(biāo)簽 y_n趋厉。

監(jiān)督式、非監(jiān)督式胶坠、半監(jiān)督式學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域三個主要類型君账。除此之外,還有一種非常重要的類型:增強學(xué)習(xí)(Reinforcement Learning)沈善。增強學(xué)習(xí)中乡数,我們給模型或系統(tǒng)一些輸入,但是給不了我們希望的真實的輸出 y矮瘟,根據(jù)模型的輸出反饋瞳脓,如果反饋結(jié)果良好,更接近真實輸出澈侠,就給其正向激勵劫侧,如果反饋結(jié)果不好,偏離真實輸出哨啃,就給其反向激勵烧栋。不斷通過“反饋-修正”這種形式,一步一步讓模型學(xué)習(xí)的更好拳球,這就是增強學(xué)習(xí)的核心所在审姓。增強學(xué)習(xí)可以類比成訓(xùn)練寵物的過程,比如我們要訓(xùn)練狗狗坐下祝峻,但是狗狗無法直接聽懂我們的指令“sit down”魔吐。在訓(xùn)練過程中,我們給狗狗示意莱找,如果它表現(xiàn)得好酬姆,我們就給他獎勵,如果它做跟sit down完全無關(guān)的動作奥溺,我們就給它小小的懲罰辞色。這樣不斷修正狗狗的動作,最終能讓它按照我們的指令來行動浮定。實際生活中相满,增強學(xué)習(xí)的例子也很多层亿,比如根據(jù)用戶點擊、選擇而不斷改進(jìn)的廣告系統(tǒng)

簡單總結(jié)一下立美,機器學(xué)習(xí)按照數(shù)據(jù)輸出標(biāo)簽 y_n 劃分的話匿又,包括監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)悯辙、半監(jiān)督式學(xué)習(xí)和增強學(xué)習(xí)等琳省。其中,監(jiān)督式學(xué)習(xí)應(yīng)用最為廣泛躲撰。

在這里插入圖片描述

三 Learning with Different Protocol f(x_n,y_n)

按照不同的協(xié)議针贬,機器學(xué)習(xí)可以分為三種類型:

  • Batch Learning
  • Online
  • Active Learning

batch learning是一種常見的類型。batch learning獲得的訓(xùn)練數(shù)據(jù)D是一批的拢蛋,即一次性拿到整個D桦他,對其進(jìn)行學(xué)習(xí)建模,得到我們最終的機器學(xué)習(xí)模型谆棱。batch learning在實際應(yīng)用中最為廣泛快压。

online是一種在線學(xué)習(xí)模型,數(shù)據(jù)是實時更新的垃瞧,根據(jù)數(shù)據(jù)一個個進(jìn)來蔫劣,同步更新我們的算法。比如在線郵件過濾系統(tǒng)个从,根據(jù)一封一封郵件的內(nèi)容脉幢,根據(jù)當(dāng)前算法判斷是否為垃圾郵件,再根據(jù)用戶反饋嗦锐,及時更新當(dāng)前算法嫌松。這是一個動態(tài)的過程。之前我們介紹的PLA和增強學(xué)習(xí)都可以使用online模型奕污。

active learning是近些年來新出現(xiàn)的一種機器學(xué)習(xí)類型萎羔,即讓機器具備主動問問題的能力,例如手寫數(shù)字識別碳默,機器自己生成一個數(shù)字或者對它不確定的手寫字主動提問贾陷。active learning優(yōu)勢之一是在獲取樣本label比較困難的時候,可以節(jié)約時間和成本嘱根,只對一些重要的label提出需求昵宇。

簡單總結(jié)一下,按照不同的協(xié)議儿子,機器學(xué)習(xí)可以分為batch, online, active。這三種學(xué)習(xí)類型分別可以類比為:填鴨式砸喻,老師教學(xué)以及主動問問題柔逼。

在這里插入圖片描述

四 Learning with Different Input Space X

上面幾部分介紹的機器學(xué)習(xí)分類都是根據(jù)輸出來分類的蒋譬,比如根據(jù)輸出空間進(jìn)行分類,根據(jù)輸出y的標(biāo)記進(jìn)行分類愉适,根據(jù)取得數(shù)據(jù)和標(biāo)記的方法進(jìn)行分類犯助。這部分,我們將談?wù)勢斎?X 有哪些類型维咸。

輸入 X 的第一種類型就是concrete features剂买。比如說硬幣分類問題中硬幣的尺寸、重量等癌蓖;比如疾病診斷中的病人信息等具體特征瞬哼。concrete features對機器學(xué)習(xí)來說最容易理解和使用。

第二種類型是raw features租副。比如說手寫數(shù)字識別中每個數(shù)字所在圖片的mxn維像素值坐慰;比如語音信號的頻譜等。raw features一般比較抽象用僧,經(jīng)常需要人或者機器來轉(zhuǎn)換為其對應(yīng)的concrete features结胀,這個轉(zhuǎn)換的過程就是Feature Transform。

第三種類型是abstract features责循。比如某購物網(wǎng)站做購買預(yù)測時糟港,提供給參賽者的是抽象加密過的資料編號或者ID,這些特征X完全是抽象的院仿,沒有實際的物理含義秸抚。所以對于機器學(xué)習(xí)來說是比較困難的,需要對特征進(jìn)行更多的轉(zhuǎn)換和提取意蛀。

簡單總結(jié)一下耸别,根據(jù)輸入X類型不同,可以分為concetet, raw, abstract县钥。將一些抽象的特征轉(zhuǎn)換為具體的特征秀姐,是機器學(xué)習(xí)過程中非常重要的一個環(huán)節(jié)。在《機器學(xué)習(xí)技法》課程中若贮,我們再詳細(xì)介紹省有。

在這里插入圖片描述

五 總結(jié)

本節(jié)課主要介紹了機器學(xué)習(xí)的類型,包括Out Space谴麦、Data Label蠢沿、Protocol、Input Space四種類型匾效。

在這里插入圖片描述
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末舷蟀,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌野宜,老刑警劉巖扫步,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異匈子,居然都是意外死亡河胎,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進(jìn)店門虎敦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來游岳,“玉大人,你說我怎么就攤上這事其徙∨咂龋” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵擂橘,是天一觀的道長晌区。 經(jīng)常有香客問我,道長通贞,這世上最難降的妖魔是什么朗若? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮昌罩,結(jié)果婚禮上哭懈,老公的妹妹穿的比我還像新娘。我一直安慰自己茎用,他們只是感情好遣总,可當(dāng)我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著轨功,像睡著了一般旭斥。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上古涧,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天垂券,我揣著相機與錄音,去河邊找鬼羡滑。 笑死菇爪,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的柒昏。 我是一名探鬼主播凳宙,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼职祷!你這毒婦竟也來了氏涩?” 一聲冷哼從身側(cè)響起届囚,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎削葱,沒想到半個月后奖亚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡析砸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了爆袍。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片首繁。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖陨囊,靈堂內(nèi)的尸體忽然破棺而出弦疮,到底是詐尸還是另有隱情,我是刑警寧澤蜘醋,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布胁塞,位于F島的核電站,受9級特大地震影響压语,放射性物質(zhì)發(fā)生泄漏啸罢。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一胎食、第九天 我趴在偏房一處隱蔽的房頂上張望扰才。 院中可真熱鬧,春花似錦厕怜、人聲如沸衩匣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽琅捏。三九已至,卻和暖如春递雀,著一層夾襖步出監(jiān)牢的瞬間柄延,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工映之, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留拦焚,地道東北人。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓杠输,卻偏偏與公主長得像赎败,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子蠢甲,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容