?
一昭抒,監(jiān)督學(xué)習(xí)(supervised learning):
監(jiān)督學(xué)習(xí)(supervised learning)的任務(wù)是學(xué)習(xí)一個(gè)模型瞬矩,使模型能夠?qū)θ我饨o定的輸入茶鉴,對(duì)其相應(yīng)的輸出做出一個(gè)好的預(yù)測(cè)。
即:利用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)一個(gè)模型景用,再用模型對(duì)測(cè)試樣本集進(jìn)行預(yù)測(cè)涵叮。
例如kaggle上的泰坦尼克號(hào)比賽。
?
官方提供旅客數(shù)據(jù)——數(shù)據(jù)集1(姓名伞插,年齡割粮,性別,社會(huì)經(jīng)濟(jì)階層媚污,是否生存等)舀瓢,要求參賽選手建立一個(gè)預(yù)測(cè)模型來(lái)回答“另外418名乘客是否會(huì)生存?”
這是一個(gè)典型的監(jiān)督學(xué)習(xí)(supervised learning)的例子耗美。因?yàn)樵撚?xùn)練資料有輸入物件(姓名京髓,年齡,性別商架,社會(huì)經(jīng)濟(jì)階層等)和預(yù)期輸出(是否生存)堰怨。
有無(wú)預(yù)期輸出是監(jiān)督學(xué)習(xí)(supervised learning)與非監(jiān)督學(xué)習(xí)(unsupervised learning)的區(qū)別。
我們的任務(wù)是根據(jù)數(shù)據(jù)集1建立一個(gè)預(yù)測(cè)模型(model)蛇摸,即學(xué)習(xí)算法(learning algorithm)备图。這個(gè)過(guò)程稱為“學(xué)習(xí)(learning)”或“訓(xùn)練(training)”。
由于我們得到的學(xué)得模型只是接近了數(shù)據(jù)的某種潛在規(guī)律,因此被稱為‘假設(shè)(hypothesis)’揽涮。相對(duì)應(yīng)的砸烦,潛在規(guī)律自身則被稱為‘真實(shí)(ground-truth)’。學(xué)習(xí)的目的就在于找到最好的‘假設(shè)(hypothesis)’绞吁。
用學(xué)習(xí)算法(learning algorithm)對(duì)數(shù)據(jù)集2的每個(gè)實(shí)例(姓名,年齡唬格,性別家破,社會(huì),社會(huì)經(jīng)濟(jì)階層等)進(jìn)行判斷——‘是否能生存购岗?’汰聋。
這是一個(gè)二分類任務(wù)(輸出為‘生存’或‘死亡’兩個(gè)維度)。
如果所需結(jié)果為‘生存’喊积,‘半生半死’或‘死亡’等多個(gè)維度烹困,則為多分類任務(wù)。
如果所需結(jié)果為生存率(0~1)乾吻,則為回歸任務(wù)(輸出結(jié)果為連續(xù)值)髓梅。
分類問(wèn)題(離散)與回歸問(wèn)題(連續(xù))等都是監(jiān)督學(xué)習(xí)。
分類問(wèn)題:
?
回歸問(wèn)題:
?
二绎签,非監(jiān)督學(xué)習(xí)(unsupervised learning):
非監(jiān)督學(xué)習(xí)(unsupervised learning)為直接對(duì)數(shù)據(jù)進(jìn)行建模枯饿。沒(méi)有給定事先標(biāo)記過(guò)的訓(xùn)練范例,所用的數(shù)據(jù)沒(méi)有屬性或標(biāo)簽這一概念诡必。事先不知道輸入數(shù)據(jù)對(duì)應(yīng)的輸出結(jié)果是什么奢方。
自動(dòng)對(duì)輸入的資料進(jìn)行分類或分群,以尋找數(shù)據(jù)的模型和規(guī)律爸舒。
如聚類算法:
針對(duì)數(shù)據(jù)集蟋字,自動(dòng)找出數(shù)據(jù)中的結(jié)構(gòu),從而把數(shù)據(jù)分成不同的簇扭勉。
例如:谷歌新聞利用聚類算法把不同的主題放在一起鹊奖。
無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)的優(yōu)點(diǎn):
? ? ?由于沒(méi)有標(biāo)準(zhǔn)的分類方法,有可能從數(shù)據(jù)中挖出啟發(fā)與亮點(diǎn)涂炎。