單細(xì)胞轉(zhuǎn)錄組分析在線性降維后通常要進(jìn)行聚類,使用到
機(jī)器學(xué)習(xí)的常用方法敷燎,主要分為有監(jiān)督學(xué)習(xí)[supervised learning]和無監(jiān)督學(xué)習(xí)unsupervised learning涛舍。
監(jiān)督學(xué)習(xí)澄惊,就是人們常說的分類,通過已有的訓(xùn)練樣本(即已知數(shù)據(jù)以及其對(duì)應(yīng)的輸出)去訓(xùn)練得到一個(gè)最優(yōu)模型(這個(gè)模型屬于某個(gè)函數(shù)的集合富雅,最優(yōu)則表示在某個(gè)評(píng)價(jià)準(zhǔn)則下是最佳的)掸驱,再利用這個(gè)模型將所有的輸入映射為相應(yīng)的輸出,對(duì)輸出進(jìn)行簡單的判斷從而實(shí)現(xiàn)分類的目的没佑,也就具有了對(duì)未知數(shù)據(jù)進(jìn)行分類的能力毕贼。在人對(duì)事物的認(rèn)識(shí)中,我們從孩子開始就被大人們教授這是鳥啊蛤奢、那是豬啊鬼癣、那是房子啊,等等啤贩。我們所見到的景物就是輸入數(shù)據(jù)待秃,而大人們對(duì)這些景物的判斷結(jié)果(是房子還是鳥啊)就是相應(yīng)的輸出瓜晤。當(dāng)我們見識(shí)多了以后锥余,腦子里就慢慢地得到了一些泛化的模型,這就是訓(xùn)練得到的那個(gè)(或者那些)函數(shù)痢掠,從而不需要大人在旁邊指點(diǎn)的時(shí)候,我們也能分辨的出來哪些是房子嘲恍,哪些是鳥足画。監(jiān)督學(xué)習(xí)里典型的例子就是KNN、SVM佃牛。
無監(jiān)督學(xué)習(xí)(也有人叫非監(jiān)督學(xué)習(xí)淹辞,反正都差不多)則是另一種研究的比較多的學(xué)習(xí)方法,它與監(jiān)督學(xué)習(xí)的不同之處俘侠,在于我們事先沒有任何訓(xùn)練樣本象缀,而需要直接對(duì)數(shù)據(jù)進(jìn)行建模蔬将。這聽起來似乎有點(diǎn)不可思議,但是在我們自身認(rèn)識(shí)世界的過程中很多處都用到了無監(jiān)督學(xué)習(xí)央星。比如我們?nèi)⒂^一個(gè)畫展霞怀,我們完全對(duì)藝術(shù)一無所知,但是欣賞完多幅作品之后莉给,我們也能把它們分成不同的派別(比如哪些更朦朧一點(diǎn)毙石,哪些更寫實(shí)一些,即使我們不知道什么叫做朦朧派颓遏,什么叫做寫實(shí)派徐矩,但是至少我們能把他們分為兩個(gè)類)。無監(jiān)督學(xué)習(xí)里典型的例子就是聚類了叁幢。聚類的目的在于把相似的東西聚在一起滤灯,而我們并不關(guān)心這一類是什么。因此曼玩,一個(gè)聚類算法通常只需要知道如何計(jì)算相似度就可以開始工作了鳞骤。
那么,什么時(shí)候應(yīng)該采用監(jiān)督學(xué)習(xí)演训,什么時(shí)候應(yīng)該采用非監(jiān)督學(xué)習(xí)呢弟孟?我也是從一次面試的過程中被問到這個(gè)問題以后才開始認(rèn)真地考慮答案。一種非常簡單的回答就是從定義入手样悟,如果我們?cè)诜诸惖倪^程中有訓(xùn)練集(training data)拂募,則可以考慮用監(jiān)督學(xué)習(xí)的方法;如果沒有訓(xùn)練集窟她,則不可能用監(jiān)督學(xué)習(xí)的方法陈症。但是事實(shí)上,我們?cè)卺槍?duì)一個(gè)現(xiàn)實(shí)問題進(jìn)行解答的過程中震糖,即使我們沒有現(xiàn)成的訓(xùn)練集录肯,我們也能夠憑借自己的雙眼,從待分類的數(shù)據(jù)中人工標(biāo)注一些樣本吊说,并把他們作為訓(xùn)練集论咏,這樣的話就可以把條件改善,用監(jiān)督學(xué)習(xí)的方法來做颁井。當(dāng)然不得不說的是有時(shí)候數(shù)據(jù)表達(dá)的會(huì)非常隱蔽厅贪,也就是說我們手頭的信息不是抽象的形式,而是具體的一大堆數(shù)字雅宾,這樣我們很難憑借人本身對(duì)它們簡單地進(jìn)行分類养涮。這個(gè)說的好像有點(diǎn)不大明白,舉個(gè)例子說就是在bag-of-words模型的時(shí)候,我們利用k-means的方法聚類從而對(duì)數(shù)據(jù)投影贯吓,這時(shí)候用k-means就是因?yàn)槲覀儺?dāng)前到手的只有一大堆數(shù)據(jù)懈凹,而且是很高維的,當(dāng)我們想把他們分為50個(gè)類的時(shí)候悄谐,我們已經(jīng)無力將每個(gè)數(shù)據(jù)標(biāo)記說這個(gè)數(shù)應(yīng)該是哪個(gè)類介评,那個(gè)數(shù)又應(yīng)該是哪個(gè)類了。所以說遇到這種情況也只有無監(jiān)督學(xué)習(xí)能夠幫助我們了尊沸。那么這么說來威沫,能不能再深入地問下去,如果有訓(xùn)練集(或者說如果我們可以獲得到一些訓(xùn)練數(shù)據(jù)的話)洼专,監(jiān)督學(xué)習(xí)就會(huì)比無監(jiān)督學(xué)習(xí)更合適呢棒掠?(照我們單純地想,有高人教總比自己領(lǐng)悟來的準(zhǔn)屁商,來的快吧Q毯堋)我覺得一般來說,是這樣的蜡镶,但是這要具體看看訓(xùn)練數(shù)據(jù)的獲取雾袱。本人在最近課題的研究中,手動(dòng)標(biāo)注了大量的訓(xùn)練集(當(dāng)然這些樣本基本準(zhǔn)確了)官还,而且把樣本畫在特征空間中發(fā)現(xiàn)線性可分性非常好芹橡,只是在分類面附近總有一些混淆的數(shù)據(jù)樣本,從而用線性分類器進(jìn)行分類之后這樣樣本會(huì)被誤判望伦。然而林说,如果用混合高斯模型(GMM)來分的話,這些易混淆的點(diǎn)被正確分類的更多了屯伞。對(duì)這個(gè)現(xiàn)象的一個(gè)解釋腿箩,就是不管是訓(xùn)練集,還是待聚類的數(shù)據(jù)劣摇,并不是所有數(shù)據(jù)都是相互獨(dú)立同分布的珠移。換句話說,數(shù)據(jù)與數(shù)據(jù)的分布之間存在聯(lián)系末融。在我閱讀監(jiān)督學(xué)習(xí)的大量材料中钧惧,大家都沒有對(duì)訓(xùn)練數(shù)據(jù)的這一假設(shè)(獨(dú)立同分布)進(jìn)行說明,直到我閱讀到一本書的提示后才恍然大悟勾习。對(duì)于不同的場景垢乙,正負(fù)樣本的分布如果會(huì)存在偏移(可能是大的偏移,也可能偏移比較杏锫薄),這樣的話用監(jiān)督學(xué)習(xí)的效果可能就不如用非監(jiān)督學(xué)習(xí)了。