1.機(jī)器學(xué)習(xí)中特征的理解
def:特征選擇和降維
特征選擇:原有特征選擇出子集邮府,不改變?cè)瓉淼奶卣骺臻g
降維:將原有的特征重組成為包含信息更多的特征螃成,改變了原有的特征空間
降維的主要方法
Principal Component Analysis(主成分分析)
Singular Value Decomposition(奇異值分解)?
Sammon's Mapping(Sammon映射)?
特征選擇的方法
Filter方法
Chi-squared test(卡方檢驗(yàn))?
information gain(信息增益)萧朝,詳細(xì)可見“簡(jiǎn)單易學(xué)的機(jī)器學(xué)習(xí)算法——決策樹之ID3算法”
correlation coefficient scores(相關(guān)系數(shù))
Wrapper方法
其主要思想是:將子集的選擇看作是一個(gè)搜索尋優(yōu)問題煮纵,生成不同的組合照卦,對(duì)組合進(jìn)行評(píng)價(jià)枪眉,再與其他的組合進(jìn)行比較蹬叭。這樣就將子集的選擇看作是一個(gè)是一個(gè)優(yōu)化問題藕咏,這里有很多的優(yōu)化算法可以解決,尤其是一些啟發(fā)式的優(yōu)化算法秽五,如GA孽查,PSO,DE坦喘,ABC等盲再,詳見“優(yōu)化算法——人工蜂群算法(ABC)”西设,“優(yōu)化算法——粒子群算法(PSO)”。?
Embedded方法
其主要思想是:在模型既定的情況下學(xué)習(xí)出對(duì)提高模型準(zhǔn)確性最好的屬性答朋。這句話并不是很好理解贷揽,其實(shí)是講在確定模型的過程中,挑選出那些對(duì)模型的訓(xùn)練有重要意義的屬性绿映。
主要方法:正則化擒滑,可以見“簡(jiǎn)單易學(xué)的機(jī)器學(xué)習(xí)算法——嶺回歸(Ridge Regression)”,嶺回歸就是在基本線性回歸的過程中加入了正則項(xiàng)叉弦。?
2.機(jī)器學(xué)習(xí)中丐一,有哪些特征選擇的工程方法?
數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限淹冰,而模型和算法只是逼近這個(gè)上限而已
1.計(jì)算每一個(gè)特征與響應(yīng)變量的相關(guān)性:工程上常用的手段有計(jì)算皮爾遜系數(shù)和互信息系數(shù)库车,皮爾遜系數(shù)只能衡量線性相關(guān)性而互信息系數(shù)能夠很好地度量各種相關(guān)性,但是計(jì)算相對(duì)復(fù)雜一些樱拴,好在很多toolkit里邊都包含了這個(gè)工具(如sklearn的MINE)柠衍,得到相關(guān)性之后就可以排序選擇特征了;
2.構(gòu)建單個(gè)特征的模型晶乔,通過模型的準(zhǔn)確性為特征排序珍坊,借此來選擇特征,另外正罢,記得JMLR'03上有一篇論文介紹了一種基于決策樹的特征選擇方法阵漏,本質(zhì)上是等價(jià)的。當(dāng)選擇到了目標(biāo)特征之后翻具,再用來訓(xùn)練最終的模型履怯;
3.**通過L1正則項(xiàng)來選擇特征:L1正則方法具有稀疏解的特性,因此天然具備特征選擇的特性裆泳,但是要注意叹洲,L1沒有選到的特征不代表不重要,原因是兩個(gè)具有高相關(guān)性的特征可能只保留了一個(gè)工禾,如果要確定哪個(gè)特征重要應(yīng)再通過L2正則方法交叉檢驗(yàn)运提;4.訓(xùn)練能夠?qū)μ卣鞔蚍值念A(yù)選模型:RandomForest和Logistic Regression等都能對(duì)模型的特征打分,通過打分獲得相關(guān)性后再訓(xùn)練最終模型帜篇;5.通過特征組合后再來選擇特征:如對(duì)用戶id和用戶特征最組合來獲得較大的特征集再來選擇特征糙捺,這種做法在推薦系統(tǒng)和廣告系統(tǒng)中比較常見,這也是所謂億級(jí)甚至十億級(jí)特征的主要來源笙隙,原因是用戶數(shù)據(jù)比較稀疏,組合特征能夠同時(shí)兼顧全局模型和個(gè)性化模型坎缭,這個(gè)問題有機(jī)會(huì)可以展開講竟痰。6.**通過深度學(xué)習(xí)來進(jìn)行特征選擇:目前這種手段正在隨著深度學(xué)習(xí)的流行而成為一種手段签钩,尤其是在計(jì)算機(jī)視覺領(lǐng)域,原因是深度學(xué)習(xí)具有自動(dòng)學(xué)習(xí)特征的能力坏快,這也是深度學(xué)習(xí)又叫unsupervised feature learning的原因铅檩。從深度學(xué)習(xí)模型中選擇某一神經(jīng)層的特征后就可以用來進(jìn)行最終目標(biāo)模型的訓(xùn)練了。
3.機(jī)器學(xué)習(xí)中的正負(fù)樣本
在分類問題中莽鸿,這個(gè)問題相對(duì)好理解一點(diǎn)昧旨,比如人臉識(shí)別中的例子,正樣本很好理解祥得,就是人臉的圖片兔沃,負(fù)樣本的選取就與問題場(chǎng)景相關(guān),具體而言级及,如果你要進(jìn)行教室中學(xué)生的人臉識(shí)別乒疏,那么負(fù)樣本就是教室的窗子、墻等等饮焦,也就是說怕吴,不能是與你要研究的問題毫不相關(guān)的亂七八糟的場(chǎng)景圖片,這樣的負(fù)樣本并沒有意義县踢。負(fù)樣本可以根據(jù)背景生成转绷,有時(shí)候不需要尋找額外的負(fù)樣本。一般3000-10000的正樣本需要5硼啤,000,000-100,000,000的負(fù)樣本來學(xué)習(xí)议经,充分的說明機(jī)器學(xué)習(xí)是試誤。
在檢測(cè)的問題中問題不像分類那么簡(jiǎn)單丙曙,因?yàn)闄z測(cè)問題需要做的事情是指出哪里有什么爸业,也就是既要給出框,又要說明框中是什么亏镰,在這種情況下扯旷,我們所具備的數(shù)據(jù)就是一些人工標(biāo)注的圖片,這些圖片上有框索抓,并且會(huì)給出框中的物體類別钧忽,我們需要運(yùn)用這些數(shù)據(jù)生成訓(xùn)練中的正負(fù)樣本數(shù)據(jù)
首先,檢測(cè)問題中的正負(fù)樣本并非人工標(biāo)注的那些框框逼肯,而是程序中(網(wǎng)絡(luò))生成出來的框框耸黑,這些框中的一部分被選為正樣本,一部分被選為負(fù)樣本篮幢,另外一部分被當(dāng)作背景或者不參與運(yùn)算大刊。不同的框架有不同的策略,大致都是根據(jù)IOU的值三椿,選取個(gè)閾值范圍進(jìn)行判定缺菌,在訓(xùn)練的過程中還需要注意均衡正負(fù)樣本之間的比例葫辐。**
4.線性分類器與非線性分類器的區(qū)別及優(yōu)劣;
區(qū)別:所謂線性分類器即用一個(gè)超平面將正負(fù)樣本分離開伴郁,表達(dá)式為 y=wx 耿战。這里是強(qiáng)調(diào)的是平面。
而非線性的分類界面沒有這個(gè)限制焊傅,可以是曲面剂陡,多個(gè)超平面的組合等。
典型的線性分類器有感知機(jī)狐胎,LDA鸭栖,邏輯斯特回歸,SVM(線性核)顽爹;
典型的非線性分類器有樸素貝葉斯(有文章說這個(gè)本質(zhì)是線性的纤泵,http://dataunion.org/12344.html),kNN镜粤,決策樹捏题,SVM(非線性核)
優(yōu)缺點(diǎn):1.線性分類器判別簡(jiǎn)單、易實(shí)現(xiàn)肉渴、且需要的計(jì)算量和存儲(chǔ)量小公荧。
為解決比較復(fù)雜的線性不可分樣本分類問題,提出非線性判別函數(shù)同规。:超曲面循狰,非線性判別函數(shù)計(jì)算復(fù)雜,實(shí)際應(yīng)用上受到較大的限制券勺。在線性分類器的基礎(chǔ)上绪钥,用分段線性分類器可以實(shí)現(xiàn)復(fù)雜的分類面。解決問題比較簡(jiǎn)便的方法是采用多個(gè)線性分界面將它們分段連接关炼,用分段線性判別劃分去逼近分界的超曲面程腹。2.如果一個(gè)問題是非線性問題并且它的類邊界不能夠用線性超平面估計(jì)得很好,那么非線性分類器通常會(huì)比線性分類器表現(xiàn)得更精準(zhǔn)儒拂。如果一個(gè)問題是線性的寸潦,那么最好使用簡(jiǎn)單的線性分類器來處理。
5.對(duì)于維度很高的特征社痛,你是選擇線性還是非線性分類器见转?(解釋存疑)
維度很高的特征:特征數(shù)量多,一般線性模型欠擬合蒜哀,所以采用選擇非線性分類器斩箫。。
6.特征比數(shù)據(jù)量還大時(shí),選擇什么樣的分類器校焦?
如果訓(xùn)練集很小赊抖,那么高偏差/低方差分類器(如樸素貝葉斯分類器)要優(yōu)于低偏差/高方差分類器(如k近鄰分類器)统倒,因?yàn)楹笳呷菀走^擬合寨典。
然而,隨著訓(xùn)練集的增大房匆,低偏差/高方差分類器將開始勝出(它們具有較低的漸近誤差)耸成,因?yàn)楦咂罘诸惼鞑蛔阋蕴峁?zhǔn)確的模型。也可以認(rèn)為這是生成模型與判別模型的區(qū)別浴鸿。
7.對(duì)于維度極低的特征井氢,你是選擇線性還是非線性分類器?
key
維度底岳链,一般簡(jiǎn)單的線性模型即可花竞,選擇線性分類器。
8.如何解決過擬合問題掸哑?
key
解釋過擬合:模型在訓(xùn)練集表現(xiàn)好约急,在真實(shí)數(shù)據(jù)表現(xiàn)不好,即模型的繁華能力不夠苗分。從另外一個(gè)方面來講厌蔽,模型在達(dá)到經(jīng)驗(yàn)損失最小的時(shí)候,模型復(fù)雜度較高摔癣,結(jié)構(gòu)風(fēng)險(xiǎn)沒有達(dá)到最優(yōu)奴饮。
解決:1. 學(xué)習(xí)方法上:限制機(jī)器的學(xué)習(xí),使機(jī)器學(xué)習(xí)特征時(shí)學(xué)得不那么徹底择浊,因此這樣就可以降低機(jī)器學(xué)到局部特征和錯(cuò)誤特征的幾率戴卜,使得識(shí)別正確率得到優(yōu)化.2. 數(shù)據(jù)上:要防止過擬合,做好特征的選取琢岩。訓(xùn)練數(shù)據(jù)的選取也是很關(guān)鍵的投剥,良好的訓(xùn)練數(shù)據(jù)本身的局部特征應(yīng)盡可能少,噪聲也盡可能小.
9.L1和L2正則的區(qū)別粘捎,如何選擇L1和L2正則薇缅?
L1 Norm 和L2 Norm的區(qū)別(核心:L2對(duì)大數(shù),對(duì)outlier更敏感T苣ァ):
L1優(yōu)點(diǎn)是能夠獲得sparse模型泳桦,對(duì)于large-scale的問題來說這一點(diǎn)很重要,因?yàn)榭梢詼p少存儲(chǔ)空間娩缰。缺點(diǎn)是加入L1后目標(biāo)函數(shù)在原點(diǎn)不可導(dǎo)灸撰,需要做特殊處理。
L2優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單,能夠起到正則化的作用浮毯。缺點(diǎn)就是L1的優(yōu)點(diǎn):無法獲得sparse模型完疫。實(shí)際上L1也是一種妥協(xié)的做法,要獲得真正sparse的模型债蓝,要用L0正則化壳鹤。
機(jī)器學(xué)習(xí)中的范數(shù)規(guī)則化之(一)L0、L1與L2范數(shù)
10.有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別
有監(jiān)督學(xué)習(xí):對(duì)具有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí)饰迹,以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記(分類)預(yù)測(cè)芳誓。這里,所有的標(biāo)記(分類)是已知的啊鸭。因此锹淌,訓(xùn)練樣本的岐義性低。監(jiān)督學(xué)習(xí)中只要輸入樣本集,機(jī)器就可以從中推演出制定目標(biāo)變量的可能結(jié)果.如協(xié)同過濾推薦算法,通過對(duì)訓(xùn)練集進(jìn)行監(jiān)督學(xué)習(xí),并對(duì)測(cè)試集進(jìn)行預(yù)測(cè),從而達(dá)到預(yù)測(cè)的目的.
無監(jiān)督學(xué)習(xí):對(duì)沒有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí)赠制,以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)赂摆。這里,所有的標(biāo)記(分類)是未知的钟些。因此烟号,訓(xùn)練樣本的岐義性高。聚類就是典型的無監(jiān)督學(xué)習(xí)
無監(jiān)督例子:比如我們?nèi)⒂^一個(gè)畫展厘唾,我們對(duì)藝術(shù)一無所知褥符,但是欣賞完很多幅作品之后,我們面對(duì)一幅新的作品之后抚垃,至少可以知道這幅作品是什么派別的吧喷楣,比如更抽象一些還是更寫實(shí)一點(diǎn),雖然不能很清楚的了解這幅畫的含義鹤树,但是至少我們可以把它分為哪一類铣焊。再比如我們?cè)陔娪霸嚎措娪埃瑢?duì)于之前沒有學(xué)過相關(guān)電影藝術(shù)知識(shí)的我們罕伯,可能不知道什么是一部好電影曲伊,什么是一部不好的電影,可是在觀看了很多部電影之后追他,我們腦中對(duì)電影就有了一個(gè)潛在的認(rèn)識(shí)坟募,當(dāng)我們?cè)俅巫陔娪霸赫J(rèn)真觀看新上映的電影時(shí),腦中就會(huì)對(duì)這部電影產(chǎn)生一個(gè)評(píng)價(jià):怎么這電影這么不好啊邑狸,整個(gè)故事線是混亂的懈糯,一點(diǎn)也不清晰,比我之前看過的那些電影差遠(yuǎn)了单雾,人物的性格也沒有表現(xiàn)出來赚哗,關(guān)鍵是電影主題還搞偏了她紫;哎呀,這個(gè)電影拍得確實(shí)好啊屿储,故事情節(jié)和人物性格都很鮮明贿讹,而且場(chǎng)景很逼真,主角的實(shí)力表演加上他與生俱來的憂郁眼神一下把人物演活了够掠。
監(jiān)督學(xué)習(xí)的典型例子就是決策樹民褂、神經(jīng)網(wǎng)絡(luò)以及疾病監(jiān)測(cè),而無監(jiān)督學(xué)習(xí)就是很早之前的西洋雙陸棋和聚類祖屏。
作者:cloudinsea
鏈接:http://www.reibang.com/p/801d3dc63d80
來源:簡(jiǎn)書
著作權(quán)歸作者所有助赞。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處袁勺。