學(xué)習(xí)算法的作用
??首先正如西瓜書中所說:
《機(jī)器學(xué)習(xí)》P1:機(jī)器學(xué)習(xí)所研究的主要內(nèi)容壕翩,是關(guān)于在計(jì)算機(jī)上從數(shù)據(jù)中產(chǎn)生“模型”(model)的算法蛉迹,即“學(xué)習(xí)算法”(learning algorithm)
??這句話可以理解為,學(xué)習(xí)算法基于喂入的經(jīng)驗(yàn)數(shù)據(jù)(訓(xùn)練集)建立數(shù)學(xué)模型放妈,若檢驗(yàn)(測(cè)試集)模型誤差在容許范圍內(nèi),則該模型可以基于喂入的輸入數(shù)據(jù)幫助我們對(duì)具體的應(yīng)用場(chǎng)景做出判斷荐操。
《機(jī)器學(xué)習(xí)》P1:機(jī)器學(xué)習(xí)是研究關(guān)于“學(xué)習(xí)算法”的學(xué)問
“數(shù)據(jù)集”:對(duì)樣本空間的采樣
??“數(shù)據(jù)集”(data set)中的每條記錄是一個(gè)“示例”(instance)或樣本(sample)芜抒,數(shù)據(jù)集會(huì)將所描述的物體分為一種或多種“屬性”(attribute)或“特征”(feature),其取值為“屬性值”(attribute value)托启,多個(gè)屬性可以張成“屬性空間”(attribute space)宅倒,其中每個(gè)示例對(duì)應(yīng)一個(gè)“特征向量”(feature vector)。
??建立一個(gè)用于預(yù)測(cè)的模型屯耸,僅有示例數(shù)據(jù)是不夠的拐迁,我們還需要與訓(xùn)練數(shù)據(jù)一一對(duì)應(yīng)的結(jié)果信息,即“示例”的結(jié)果疗绣,稱為“標(biāo)記”(label)线召,也稱作“教學(xué)值”,這類擁有標(biāo)記信息的示例稱為“樣例”(example)
訓(xùn)練與測(cè)試
??基于某種學(xué)習(xí)算法多矮,從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)模型的過程稱為“訓(xùn)練”缓淹,所使用的經(jīng)驗(yàn)數(shù)據(jù)集稱為“訓(xùn)練集”。
??學(xué)習(xí)到的模型對(duì)應(yīng)數(shù)據(jù)集所屬樣本空間的潛在規(guī)律塔逃,因此將習(xí)得的模型稱為“假設(shè)”讯壶,而潛在規(guī)律本身則是“真相”。
??基于學(xué)習(xí)算法的訓(xùn)練過程就是使得“假設(shè)”盡可能接近“真相”湾盗,驗(yàn)證“假設(shè)”合理性的過程稱為“測(cè)試”伏蚊,即測(cè)試訓(xùn)練過程所建模型的準(zhǔn)確性,此時(shí)用到的測(cè)試樣本集稱為“測(cè)試集”(testing sample)格粪。
監(jiān)督學(xué)習(xí):回歸與分類
??對(duì)于有標(biāo)記的訓(xùn)練數(shù)據(jù)躏吊,針對(duì)標(biāo)記信息的“離散”或“連續(xù)性”肺孵,將學(xué)習(xí)過程分為“分類”和“回歸”兩類。
《機(jī)器學(xué)習(xí)》P3:若欲預(yù)測(cè)的是離散值颜阐,例如“好瓜” “壞瓜”平窘,此類學(xué)習(xí)任務(wù)稱為“分類”(classification),若欲預(yù)測(cè)連續(xù)值凳怨,例如西瓜成熟度0.95瑰艘、0.37,此類學(xué)習(xí)任務(wù)稱為“回歸”(regression)肤舞。
無監(jiān)督學(xué)習(xí):聚類
??若對(duì)樣本的預(yù)測(cè)結(jié)果沒有預(yù)期紫新,借助于算法使訓(xùn)練集自動(dòng)分類為若干組,每組稱為一個(gè)“簇”李剖,這個(gè)過程稱為聚類(clustering)芒率。
《機(jī)器學(xué)習(xí)》P3:
??這些自動(dòng)形成的“簇”可能對(duì)應(yīng)一些潛在的概念劃分,例如“淺色瓜” “深色瓜”篙顺,甚至“本地瓜” “外地瓜”偶芍。
??這樣的學(xué)習(xí)過程有助于我們了解數(shù)據(jù)內(nèi)在的規(guī)律,能為更深入地分析數(shù)據(jù)建立基礎(chǔ)德玫。
《機(jī)器學(xué)習(xí)》P3:需要說明的是匪蟀,在聚類學(xué)習(xí)中,“淺色瓜” “本地瓜”這樣的概念我們事先是不知道的宰僧,而且學(xué)習(xí)過程中使用的訓(xùn)練樣本通常不具有標(biāo)記信息材彪。
半監(jiān)督學(xué)習(xí)
參考:目前,利用未標(biāo)記示例的主流學(xué)習(xí)技術(shù)主要有三大類琴儿,即半監(jiān)督學(xué)習(xí)(semi-supervised learning)段化、直推學(xué)習(xí)(transductive learning)和主動(dòng)學(xué)習(xí)(active learning)。
??首先需要說明的是,利用無標(biāo)記數(shù)據(jù)集的算法有多種谜疤,本文主要關(guān)注半監(jiān)督學(xué)習(xí)佃延。
??事實(shí)上對(duì)數(shù)據(jù)進(jìn)行標(biāo)記的代價(jià)較大,標(biāo)記數(shù)據(jù)需要付出大量的人力物力夷磕,具有標(biāo)記的數(shù)據(jù)集較難獲取履肃,但是隨著數(shù)據(jù)收集與存儲(chǔ)技術(shù)的發(fā)展,未經(jīng)標(biāo)記的數(shù)據(jù)卻較容易獲得坐桩。舉個(gè)具體的例子尺棋,
??在計(jì)算機(jī)輔助醫(yī)學(xué)圖像分析中,我們可以從醫(yī)院獲得大量的醫(yī)學(xué)圖像作為訓(xùn)練集用于數(shù)據(jù)分析,但是若要求大夫標(biāo)注出每張圖片上的病灶位置膘螟,這就需要大量的人力成福、物力、時(shí)間荆残。
??針對(duì)上述實(shí)際問題奴艾,出現(xiàn)了半監(jiān)督學(xué)習(xí)的概念。半監(jiān)督學(xué)習(xí)的特點(diǎn)是將未標(biāo)記數(shù)據(jù)與少量標(biāo)記數(shù)據(jù)結(jié)合使用内斯,能夠同時(shí)利用監(jiān)督學(xué)習(xí)的低歧義性與無監(jiān)督學(xué)習(xí)對(duì)數(shù)據(jù)結(jié)構(gòu)性特征的捕捉能力蕴潦。
??首先,為何可以利用無標(biāo)記數(shù)據(jù)集改善學(xué)習(xí)性能俘闯?
參考:
在介紹具體的半監(jiān)督學(xué)習(xí)技術(shù)之前,有必要先探討一下為什么可以利用未標(biāo)記示例來改善學(xué)習(xí)性能潭苞。關(guān)于這個(gè)問題,有不少研究者給出了解釋。例如,D.J. Miller 和 H.S. Uyar [MillerU97] 從數(shù)據(jù)分布估計(jì)的角度給出了一個(gè)直觀的分析真朗。他們假設(shè)所有數(shù)據(jù)服從于某個(gè)由 L 個(gè)高斯分布混合而成的分布,即
其中為混合系數(shù),為參數(shù)此疹。
這樣,標(biāo)記就可視為一個(gè)由選定的混合成分mi和特征向量xi以概率P(ci | xi, mi) 決定的隨機(jī)變量。于是,根據(jù)最大后驗(yàn)概率假設(shè),最優(yōu)分類由式 2 給出:
其中:這樣,學(xué)習(xí)目標(biāo)就變成了利用訓(xùn)練例來估計(jì)P(ci = k | mj = j, xi)和P(mi = j | x)遮婶。這兩項(xiàng)中的第一項(xiàng)與類別標(biāo)記有關(guān),而第二項(xiàng)并不依賴于示例的標(biāo)記,因此,如果有大量的未標(biāo)記示例可用,則意味著能夠用于估計(jì)第二項(xiàng)的示例數(shù)顯著增多,這會(huì)使得第二項(xiàng)的估計(jì)變得更加準(zhǔn)確,從而導(dǎo)致式 2 更加準(zhǔn)確,也就是說,分類器的泛化能力得以提高蝗碎。此后,T. Zhang和F. J. Oles [ZhangO00] 進(jìn)一步分析了未標(biāo)記示例在半監(jiān)督學(xué)習(xí)中的價(jià)值,并指出如果一個(gè)參數(shù)化模型如果能夠分解成P(x, y | θ) = P(y| x, θ) P(x | θ) 的形式,那么未標(biāo)記示例的價(jià)值就體現(xiàn)在它們能夠幫助更好地估計(jì)模型參數(shù)從而導(dǎo)致模型性能的提高。
強(qiáng)化學(xué)習(xí)
??強(qiáng)化學(xué)習(xí)的思路類似于績(jī)效獎(jiǎng)勵(lì)的過程蹭睡,它對(duì)取得好結(jié)果的策
略加強(qiáng)訓(xùn)練以繼續(xù)取得較好的結(jié)果衍菱。
??區(qū)別于前三種學(xué)習(xí)方式,強(qiáng)化學(xué)習(xí)不需要喂入大量的數(shù)據(jù)肩豁,而是通過自己不停地嘗試學(xué)會(huì)某種技能。
??強(qiáng)化學(xué)習(xí)作為一種還不成熟的學(xué)習(xí)算法辫呻,目前最主要的應(yīng)用場(chǎng)景是游戲清钥、機(jī)器人等。
2016年:AlphaGo Master 擊敗李世石放闺,使用強(qiáng)化學(xué)習(xí)的 AlphaGo Zero 僅花了40天時(shí)間祟昭,就擊敗了自己的前輩 AlphaGo Master。
《被科學(xué)家譽(yù)為「世界壯舉」的AlphaGo Zero, 對(duì)普通人意味著什么怖侦?》
2019年1月25日:AlphaStar 在《星際爭(zhēng)霸2》中以 10:1 擊敗了人類頂級(jí)職業(yè)玩家篡悟。
《星際爭(zhēng)霸2人類1:10輸給AI!DeepMind “AlphaStar”進(jìn)化神速》
2019年4月13日:OpenAI 在《Dota2》的比賽中戰(zhàn)勝了人類世界冠軍匾寝。
《2:0搬葬!Dota2世界冠軍OG,被OpenAI按在地上摩擦》
總結(jié)
- 監(jiān)督學(xué)習(xí) 與 無監(jiān)督學(xué)習(xí)
《機(jī)器學(xué)習(xí)》P3:根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息艳悔,學(xué)習(xí)任務(wù)可大致劃分為兩大類:“監(jiān)督學(xué)習(xí)”(supervised learning)和“無監(jiān)督學(xué)習(xí)”(unsupervised learning)急凰,分類和回歸是前者的代表,而聚類則是后者的代表猜年。
??進(jìn)一步理解這段話:
??監(jiān)督學(xué)習(xí)對(duì)模型的輸出有既定的預(yù)期(訓(xùn)練集有l(wèi)abel抡锈,即教學(xué)值)疾忍,而無監(jiān)督學(xué)習(xí)對(duì)輸出沒有預(yù)期(無教學(xué)值),輸入數(shù)據(jù)依賴基于算法建立的模型自動(dòng)分類床三。
??“監(jiān)督學(xué)習(xí)”利用教學(xué)值(label一罩,期望輸出)與模型實(shí)際輸出值(訓(xùn)練集的輸出)間的誤差(合適的LOSS函數(shù)),借助反向傳播算法(BP)修正權(quán)重撇簿,從而使得實(shí)際輸出與理想輸出間的誤差盡可能小聂渊。
??結(jié)合西瓜分類的例子,監(jiān)督學(xué)習(xí)在訓(xùn)練前便已知輸出會(huì)有“好瓜” “壞瓜”的區(qū)分补疑,而無監(jiān)督學(xué)習(xí)會(huì)將西瓜聚類成幾種完全沒有提前定義的種類歧沪,這是在輸出產(chǎn)生后才做出的種類劃分。
??無監(jiān)督學(xué)習(xí)主要是用于發(fā)現(xiàn)數(shù)據(jù)集中的結(jié)構(gòu)性特點(diǎn)莲组,無監(jiān)督的過程具有可解釋性诊胞,無監(jiān)督算法可以告訴我們聚類的依據(jù),每類有多少一致性锹杈,為何要如此分類撵孤。而監(jiān)督學(xué)習(xí)的過程不具備解釋性,依據(jù)反向傳播算法降低LOSS只是單純的計(jì)算過程竭望,無法對(duì)參數(shù)的取值做出解釋邪码,它只是在降低LOSS。
- 半監(jiān)督學(xué)習(xí)
??半監(jiān)督學(xué)習(xí)是大量無標(biāo)記數(shù)據(jù)與少量標(biāo)記數(shù)據(jù)的結(jié)合咬清,與監(jiān)督學(xué)習(xí)相比闭专,半監(jiān)督學(xué)習(xí)準(zhǔn)確率更高、訓(xùn)練成本更低旧烧。
- 強(qiáng)化學(xué)習(xí)
??所謂強(qiáng)化學(xué)習(xí)就是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí)影钉,以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,由于外部給出的信息很少掘剪,強(qiáng)化學(xué)習(xí)系統(tǒng)必須依靠自身的經(jīng)歷進(jìn)行自我學(xué)習(xí)平委。通過這種學(xué)習(xí)獲取知識(shí),改進(jìn)行動(dòng)方案以適應(yīng)環(huán)境夺谁。