面試題目總結(jié)-機(jī)器學(xué)習(xí)算法-基礎(chǔ)

1.機(jī)器學(xué)習(xí)中特征的理解

def：特征選擇和降維

特征選擇：原有特征選擇出子集邮府，不改變?cè)瓉淼奶卣骺臻g

降維：將原有的特征重組成為包含信息更多的特征螃成，改變了原有的特征空間

降維的主要方法

Principal Component Analysis(主成分分析)

Singular Value Decomposition(奇異值分解)?

Sammon's Mapping(Sammon映射)?

特征選擇的方法

Filter方法

Chi-squared test(卡方檢驗(yàn))?

information gain(信息增益)萧朝，詳細(xì)可見“簡(jiǎn)單易學(xué)的機(jī)器學(xué)習(xí)算法——決策樹之ID3算法”

correlation coefficient scores(相關(guān)系數(shù))

Wrapper方法

其主要思想是：將子集的選擇看作是一個(gè)搜索尋優(yōu)問題煮纵，生成不同的組合照卦，對(duì)組合進(jìn)行評(píng)價(jià)枪眉，再與其他的組合進(jìn)行比較蹬叭。這樣就將子集的選擇看作是一個(gè)是一個(gè)優(yōu)化問題藕咏，這里有很多的優(yōu)化算法可以解決，尤其是一些啟發(fā)式的優(yōu)化算法秽五，如GA孽查，PSO，DE坦喘，ABC等盲再，詳見“優(yōu)化算法——人工蜂群算法(ABC)”西设，“優(yōu)化算法——粒子群算法(PSO)”。?

Embedded方法

其主要思想是：在模型既定的情況下學(xué)習(xí)出對(duì)提高模型準(zhǔn)確性最好的屬性答朋。這句話并不是很好理解贷揽，其實(shí)是講在確定模型的過程中，挑選出那些對(duì)模型的訓(xùn)練有重要意義的屬性绿映。

主要方法：正則化擒滑，可以見“簡(jiǎn)單易學(xué)的機(jī)器學(xué)習(xí)算法——嶺回歸(Ridge Regression)”，嶺回歸就是在基本線性回歸的過程中加入了正則項(xiàng)叉弦。?

2.機(jī)器學(xué)習(xí)中丐一，有哪些特征選擇的工程方法？

數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限淹冰，而模型和算法只是逼近這個(gè)上限而已

1.計(jì)算每一個(gè)特征與響應(yīng)變量的相關(guān)性：工程上常用的手段有計(jì)算皮爾遜系數(shù)和互信息系數(shù)库车，皮爾遜系數(shù)只能衡量線性相關(guān)性而互信息系數(shù)能夠很好地度量各種相關(guān)性，但是計(jì)算相對(duì)復(fù)雜一些樱拴，好在很多toolkit里邊都包含了這個(gè)工具（如sklearn的MINE）柠衍，得到相關(guān)性之后就可以排序選擇特征了；

2.構(gòu)建單個(gè)特征的模型晶乔，通過模型的準(zhǔn)確性為特征排序珍坊，借此來選擇特征，另外正罢，記得JMLR'03上有一篇論文介紹了一種基于決策樹的特征選擇方法阵漏，本質(zhì)上是等價(jià)的。當(dāng)選擇到了目標(biāo)特征之后翻具，再用來訓(xùn)練最終的模型履怯；

3.**通過L1正則項(xiàng)來選擇特征：L1正則方法具有稀疏解的特性，因此天然具備特征選擇的特性裆泳，但是要注意叹洲，L1沒有選到的特征不代表不重要，原因是兩個(gè)具有高相關(guān)性的特征可能只保留了一個(gè)工禾，如果要確定哪個(gè)特征重要應(yīng)再通過L2正則方法交叉檢驗(yàn)运提；4.訓(xùn)練能夠?qū)μ卣鞔蚍值念A(yù)選模型：RandomForest和Logistic Regression等都能對(duì)模型的特征打分，通過打分獲得相關(guān)性后再訓(xùn)練最終模型帜篇；5.通過特征組合后再來選擇特征：如對(duì)用戶id和用戶特征最組合來獲得較大的特征集再來選擇特征糙捺，這種做法在推薦系統(tǒng)和廣告系統(tǒng)中比較常見，這也是所謂億級(jí)甚至十億級(jí)特征的主要來源笙隙，原因是用戶數(shù)據(jù)比較稀疏，組合特征能夠同時(shí)兼顧全局模型和個(gè)性化模型坎缭，這個(gè)問題有機(jī)會(huì)可以展開講竟痰。6.**通過深度學(xué)習(xí)來進(jìn)行特征選擇：目前這種手段正在隨著深度學(xué)習(xí)的流行而成為一種手段签钩，尤其是在計(jì)算機(jī)視覺領(lǐng)域，原因是深度學(xué)習(xí)具有自動(dòng)學(xué)習(xí)特征的能力坏快，這也是深度學(xué)習(xí)又叫unsupervised feature learning的原因铅檩。從深度學(xué)習(xí)模型中選擇某一神經(jīng)層的特征后就可以用來進(jìn)行最終目標(biāo)模型的訓(xùn)練了。

3.機(jī)器學(xué)習(xí)中的正負(fù)樣本

在分類問題中莽鸿，這個(gè)問題相對(duì)好理解一點(diǎn)昧旨，比如人臉識(shí)別中的例子，正樣本很好理解祥得，就是人臉的圖片兔沃，負(fù)樣本的選取就與問題場(chǎng)景相關(guān)，具體而言级及，如果你要進(jìn)行教室中學(xué)生的人臉識(shí)別乒疏，那么負(fù)樣本就是教室的窗子、墻等等饮焦，也就是說怕吴，不能是與你要研究的問題毫不相關(guān)的亂七八糟的場(chǎng)景圖片，這樣的負(fù)樣本并沒有意義县踢。負(fù)樣本可以根據(jù)背景生成转绷，有時(shí)候不需要尋找額外的負(fù)樣本。一般3000-10000的正樣本需要5硼啤，000,000-100,000,000的負(fù)樣本來學(xué)習(xí)议经，充分的說明機(jī)器學(xué)習(xí)是試誤。

在檢測(cè)的問題中問題不像分類那么簡(jiǎn)單丙曙，因?yàn)闄z測(cè)問題需要做的事情是指出哪里有什么爸业，也就是既要給出框，又要說明框中是什么亏镰，在這種情況下扯旷，我們所具備的數(shù)據(jù)就是一些人工標(biāo)注的圖片，這些圖片上有框索抓，并且會(huì)給出框中的物體類別钧忽，我們需要運(yùn)用這些數(shù)據(jù)生成訓(xùn)練中的正負(fù)樣本數(shù)據(jù)

首先，檢測(cè)問題中的正負(fù)樣本并非人工標(biāo)注的那些框框逼肯，而是程序中（網(wǎng)絡(luò)）生成出來的框框耸黑，這些框中的一部分被選為正樣本，一部分被選為負(fù)樣本篮幢，另外一部分被當(dāng)作背景或者不參與運(yùn)算大刊。不同的框架有不同的策略，大致都是根據(jù)IOU的值三椿，選取個(gè)閾值范圍進(jìn)行判定缺菌，在訓(xùn)練的過程中還需要注意均衡正負(fù)樣本之間的比例葫辐。**

4.線性分類器與非線性分類器的區(qū)別及優(yōu)劣；

區(qū)別：所謂線性分類器即用一個(gè)超平面將正負(fù)樣本分離開伴郁，表達(dá)式為 y=wx 耿战。這里是強(qiáng)調(diào)的是平面。

而非線性的分類界面沒有這個(gè)限制焊傅，可以是曲面剂陡，多個(gè)超平面的組合等。

典型的線性分類器有感知機(jī)狐胎，LDA鸭栖，邏輯斯特回歸，SVM（線性核）顽爹；

典型的非線性分類器有樸素貝葉斯（有文章說這個(gè)本質(zhì)是線性的纤泵，http://dataunion.org/12344.html），kNN镜粤，決策樹捏题，SVM（非線性核）

優(yōu)缺點(diǎn)：1.線性分類器判別簡(jiǎn)單、易實(shí)現(xiàn)肉渴、且需要的計(jì)算量和存儲(chǔ)量小公荧。

為解決比較復(fù)雜的線性不可分樣本分類問題，提出非線性判別函數(shù)同规。：超曲面循狰，非線性判別函數(shù)計(jì)算復(fù)雜，實(shí)際應(yīng)用上受到較大的限制券勺。在線性分類器的基礎(chǔ)上绪钥，用分段線性分類器可以實(shí)現(xiàn)復(fù)雜的分類面。解決問題比較簡(jiǎn)便的方法是采用多個(gè)線性分界面將它們分段連接关炼，用分段線性判別劃分去逼近分界的超曲面程腹。2.如果一個(gè)問題是非線性問題并且它的類邊界不能夠用線性超平面估計(jì)得很好，那么非線性分類器通常會(huì)比線性分類器表現(xiàn)得更精準(zhǔn)儒拂。如果一個(gè)問題是線性的寸潦，那么最好使用簡(jiǎn)單的線性分類器來處理。

參考：機(jī)器學(xué)習(xí)面試問題10

5.對(duì)于維度很高的特征社痛，你是選擇線性還是非線性分類器见转？（解釋存疑）

維度很高的特征：特征數(shù)量多，一般線性模型欠擬合蒜哀，所以采用選擇非線性分類器斩箫。。

6.特征比數(shù)據(jù)量還大時(shí)，選擇什么樣的分類器校焦？

如果訓(xùn)練集很小赊抖，那么高偏差/低方差分類器（如樸素貝葉斯分類器）要優(yōu)于低偏差/高方差分類器（如k近鄰分類器）统倒，因?yàn)楹笳呷菀走^擬合寨典。

然而，隨著訓(xùn)練集的增大房匆，低偏差/高方差分類器將開始勝出（它們具有較低的漸近誤差）耸成，因?yàn)楦咂罘诸惼鞑蛔阋蕴峁?zhǔn)確的模型。也可以認(rèn)為這是生成模型與判別模型的區(qū)別浴鸿。

7.對(duì)于維度極低的特征井氢，你是選擇線性還是非線性分類器？

key

維度底岳链，一般簡(jiǎn)單的線性模型即可花竞，選擇線性分類器。

8.如何解決過擬合問題掸哑？

key

解釋過擬合：模型在訓(xùn)練集表現(xiàn)好约急，在真實(shí)數(shù)據(jù)表現(xiàn)不好，即模型的繁華能力不夠苗分。從另外一個(gè)方面來講厌蔽，模型在達(dá)到經(jīng)驗(yàn)損失最小的時(shí)候，模型復(fù)雜度較高摔癣，結(jié)構(gòu)風(fēng)險(xiǎn)沒有達(dá)到最優(yōu)奴饮。

解決：1. 學(xué)習(xí)方法上：限制機(jī)器的學(xué)習(xí)，使機(jī)器學(xué)習(xí)特征時(shí)學(xué)得不那么徹底择浊，因此這樣就可以降低機(jī)器學(xué)到局部特征和錯(cuò)誤特征的幾率戴卜，使得識(shí)別正確率得到優(yōu)化.2. 數(shù)據(jù)上：要防止過擬合，做好特征的選取琢岩。訓(xùn)練數(shù)據(jù)的選取也是很關(guān)鍵的投剥，良好的訓(xùn)練數(shù)據(jù)本身的局部特征應(yīng)盡可能少，噪聲也盡可能小.

9.L1和L2正則的區(qū)別粘捎，如何選擇L1和L2正則薇缅？

L1 Norm 和L2 Norm的區(qū)別（核心：L2對(duì)大數(shù)，對(duì)outlier更敏感Ｔ苣ァ）：

L1優(yōu)點(diǎn)是能夠獲得sparse模型泳桦，對(duì)于large-scale的問題來說這一點(diǎn)很重要，因?yàn)榭梢詼p少存儲(chǔ)空間娩缰。缺點(diǎn)是加入L1后目標(biāo)函數(shù)在原點(diǎn)不可導(dǎo)灸撰，需要做特殊處理。

L2優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單，能夠起到正則化的作用浮毯。缺點(diǎn)就是L1的優(yōu)點(diǎn)：無法獲得sparse模型完疫。實(shí)際上L1也是一種妥協(xié)的做法，要獲得真正sparse的模型债蓝，要用L0正則化壳鹤。

機(jī)器學(xué)習(xí)中的范數(shù)規(guī)則化之（一）L0、L1與L2范數(shù)

10.有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別

有監(jiān)督學(xué)習(xí)：對(duì)具有概念標(biāo)記（分類）的訓(xùn)練樣本進(jìn)行學(xué)習(xí)饰迹，以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記（分類）預(yù)測(cè)芳誓。這里，所有的標(biāo)記（分類）是已知的啊鸭。因此锹淌，訓(xùn)練樣本的岐義性低。監(jiān)督學(xué)習(xí)中只要輸入樣本集,機(jī)器就可以從中推演出制定目標(biāo)變量的可能結(jié)果.如協(xié)同過濾推薦算法,通過對(duì)訓(xùn)練集進(jìn)行監(jiān)督學(xué)習(xí),并對(duì)測(cè)試集進(jìn)行預(yù)測(cè),從而達(dá)到預(yù)測(cè)的目的.

無監(jiān)督學(xué)習(xí)：對(duì)沒有概念標(biāo)記（分類）的訓(xùn)練樣本進(jìn)行學(xué)習(xí)赠制，以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)赂摆。這里，所有的標(biāo)記（分類）是未知的钟些。因此烟号，訓(xùn)練樣本的岐義性高。聚類就是典型的無監(jiān)督學(xué)習(xí)

無監(jiān)督例子：比如我們?nèi)⒂^一個(gè)畫展厘唾，我們對(duì)藝術(shù)一無所知褥符，但是欣賞完很多幅作品之后，我們面對(duì)一幅新的作品之后抚垃，至少可以知道這幅作品是什么派別的吧喷楣，比如更抽象一些還是更寫實(shí)一點(diǎn)，雖然不能很清楚的了解這幅畫的含義鹤树，但是至少我們可以把它分為哪一類铣焊。再比如我們?cè)陔娪霸嚎措娪埃瑢?duì)于之前沒有學(xué)過相關(guān)電影藝術(shù)知識(shí)的我們罕伯，可能不知道什么是一部好電影曲伊，什么是一部不好的電影，可是在觀看了很多部電影之后追他，我們腦中對(duì)電影就有了一個(gè)潛在的認(rèn)識(shí)坟募，當(dāng)我們?cè)俅巫陔娪霸赫J(rèn)真觀看新上映的電影時(shí)，腦中就會(huì)對(duì)這部電影產(chǎn)生一個(gè)評(píng)價(jià)：怎么這電影這么不好啊邑狸，整個(gè)故事線是混亂的懈糯，一點(diǎn)也不清晰，比我之前看過的那些電影差遠(yuǎn)了单雾，人物的性格也沒有表現(xiàn)出來赚哗，關(guān)鍵是電影主題還搞偏了她紫；哎呀，這個(gè)電影拍得確實(shí)好啊屿储，故事情節(jié)和人物性格都很鮮明贿讹，而且場(chǎng)景很逼真，主角的實(shí)力表演加上他與生俱來的憂郁眼神一下把人物演活了够掠。

監(jiān)督學(xué)習(xí)的典型例子就是決策樹民褂、神經(jīng)網(wǎng)絡(luò)以及疾病監(jiān)測(cè)，而無監(jiān)督學(xué)習(xí)就是很早之前的西洋雙陸棋和聚類祖屏。

作者：cloudinsea

鏈接：http://www.reibang.com/p/801d3dc63d80

來源：簡(jiǎn)書

著作權(quán)歸作者所有助赞。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)，非商業(yè)轉(zhuǎn)載請(qǐng)注明出處袁勺。

最后編輯于：2017.12.11 03:46:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市畜普，隨后出現(xiàn)的幾起案子期丰，更是在濱河造成了極大的恐慌，老刑警劉巖吃挑，帶你破解...
沈念sama閱讀 219,270評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件钝荡，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡舶衬，警方通過查閱死者的電腦和手機(jī)埠通，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,489評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來逛犹，“玉大人端辱，你說我怎么就攤上這事∷浠” “怎么了舞蔽？”我有些...
開封第一講書人閱讀 165,630評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)码撰。經(jīng)常有香客問我渗柿，道長(zhǎng)，這世上最難降的妖魔是什么脖岛？我笑而不...
開封第一講書人閱讀 58,906評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任朵栖，我火速辦了婚禮，結(jié)果婚禮上柴梆，老公的妹妹穿的比我還像新娘陨溅。我一直安慰自己，他們只是感情好轩性，可當(dāng)我...
茶點(diǎn)故事閱讀 67,928評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布声登。她就那樣靜靜地躺著狠鸳，像睡著了一般。火紅的嫁衣襯著肌膚如雪悯嗓。梳的紋絲不亂的頭發(fā)上件舵，一...
開封第一講書人閱讀 51,718評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音脯厨，去河邊找鬼铅祸。笑死，一個(gè)胖子當(dāng)著我的面吹牛合武，可吹牛的內(nèi)容都是我干的临梗。我是一名探鬼主播，決...
沈念sama閱讀 40,442評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼稼跳，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼盟庞！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起汤善，我...
開封第一講書人閱讀 39,345評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤什猖，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后红淡，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體不狮，經(jīng)...
沈念sama閱讀 45,802評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,984評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年在旱，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了摇零。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,117評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡桶蝎，死狀恐怖驻仅，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情俊嗽，我是刑警寧澤雾家，帶...
沈念sama閱讀 35,810評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站绍豁，受9級(jí)特大地震影響芯咧，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜竹揍，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,462評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一敬飒、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧芬位，春花似錦无拗、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,011評(píng)論 0贊 22
一樁弒父案英染，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽揽惹。三九已至，卻和暖如春四康，著一層夾襖步出監(jiān)牢的瞬間搪搏，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,139評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工闪金，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留疯溺，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,377評(píng)論 3贊 373
代替公主和親
正文我出身青樓哎垦，卻偏偏與公主長(zhǎng)得像囱嫩，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子漏设，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,060評(píng)論 2贊 355

面試題目總結(jié)-機(jī)器學(xué)習(xí)算法-基礎(chǔ)

推薦閱讀更多精彩內(nèi)容