面試題目總結(jié)-機(jī)器學(xué)習(xí)算法-基礎(chǔ)

1.機(jī)器學(xué)習(xí)中特征的理解

def:特征選擇和降維

特征選擇:原有特征選擇出子集邮府,不改變?cè)瓉淼奶卣骺臻g

降維:將原有的特征重組成為包含信息更多的特征螃成,改變了原有的特征空間

降維的主要方法

Principal Component Analysis(主成分分析)

Singular Value Decomposition(奇異值分解)?

Sammon's Mapping(Sammon映射)?

特征選擇的方法

Filter方法

Chi-squared test(卡方檢驗(yàn))?

information gain(信息增益)萧朝,詳細(xì)可見“簡(jiǎn)單易學(xué)的機(jī)器學(xué)習(xí)算法——決策樹之ID3算法”

correlation coefficient scores(相關(guān)系數(shù))

Wrapper方法

其主要思想是:將子集的選擇看作是一個(gè)搜索尋優(yōu)問題煮纵,生成不同的組合照卦,對(duì)組合進(jìn)行評(píng)價(jià)枪眉,再與其他的組合進(jìn)行比較蹬叭。這樣就將子集的選擇看作是一個(gè)是一個(gè)優(yōu)化問題藕咏,這里有很多的優(yōu)化算法可以解決,尤其是一些啟發(fā)式的優(yōu)化算法秽五,如GA孽查,PSO,DE坦喘,ABC等盲再,詳見“優(yōu)化算法——人工蜂群算法(ABC)”西设,“優(yōu)化算法——粒子群算法(PSO)”。?

Embedded方法

其主要思想是:在模型既定的情況下學(xué)習(xí)出對(duì)提高模型準(zhǔn)確性最好的屬性答朋。這句話并不是很好理解贷揽,其實(shí)是講在確定模型的過程中,挑選出那些對(duì)模型的訓(xùn)練有重要意義的屬性绿映。

主要方法:正則化擒滑,可以見“簡(jiǎn)單易學(xué)的機(jī)器學(xué)習(xí)算法——嶺回歸(Ridge Regression)”,嶺回歸就是在基本線性回歸的過程中加入了正則項(xiàng)叉弦。?

2.機(jī)器學(xué)習(xí)中丐一,有哪些特征選擇的工程方法?

數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限淹冰,而模型和算法只是逼近這個(gè)上限而已

1.計(jì)算每一個(gè)特征與響應(yīng)變量的相關(guān)性:工程上常用的手段有計(jì)算皮爾遜系數(shù)和互信息系數(shù)库车,皮爾遜系數(shù)只能衡量線性相關(guān)性而互信息系數(shù)能夠很好地度量各種相關(guān)性,但是計(jì)算相對(duì)復(fù)雜一些樱拴,好在很多toolkit里邊都包含了這個(gè)工具(如sklearn的MINE)柠衍,得到相關(guān)性之后就可以排序選擇特征了;

2.構(gòu)建單個(gè)特征的模型晶乔,通過模型的準(zhǔn)確性為特征排序珍坊,借此來選擇特征,另外正罢,記得JMLR'03上有一篇論文介紹了一種基于決策樹的特征選擇方法阵漏,本質(zhì)上是等價(jià)的。當(dāng)選擇到了目標(biāo)特征之后翻具,再用來訓(xùn)練最終的模型履怯;

3.**通過L1正則項(xiàng)來選擇特征:L1正則方法具有稀疏解的特性,因此天然具備特征選擇的特性裆泳,但是要注意叹洲,L1沒有選到的特征不代表不重要,原因是兩個(gè)具有高相關(guān)性的特征可能只保留了一個(gè)工禾,如果要確定哪個(gè)特征重要應(yīng)再通過L2正則方法交叉檢驗(yàn)运提;4.訓(xùn)練能夠?qū)μ卣鞔蚍值念A(yù)選模型:RandomForest和Logistic Regression等都能對(duì)模型的特征打分,通過打分獲得相關(guān)性后再訓(xùn)練最終模型帜篇;5.通過特征組合后再來選擇特征:如對(duì)用戶id和用戶特征最組合來獲得較大的特征集再來選擇特征糙捺,這種做法在推薦系統(tǒng)和廣告系統(tǒng)中比較常見,這也是所謂億級(jí)甚至十億級(jí)特征的主要來源笙隙,原因是用戶數(shù)據(jù)比較稀疏,組合特征能夠同時(shí)兼顧全局模型和個(gè)性化模型坎缭,這個(gè)問題有機(jī)會(huì)可以展開講竟痰。6.**通過深度學(xué)習(xí)來進(jìn)行特征選擇:目前這種手段正在隨著深度學(xué)習(xí)的流行而成為一種手段签钩,尤其是在計(jì)算機(jī)視覺領(lǐng)域,原因是深度學(xué)習(xí)具有自動(dòng)學(xué)習(xí)特征的能力坏快,這也是深度學(xué)習(xí)又叫unsupervised feature learning的原因铅檩。從深度學(xué)習(xí)模型中選擇某一神經(jīng)層的特征后就可以用來進(jìn)行最終目標(biāo)模型的訓(xùn)練了。

3.機(jī)器學(xué)習(xí)中的正負(fù)樣本

在分類問題中莽鸿,這個(gè)問題相對(duì)好理解一點(diǎn)昧旨,比如人臉識(shí)別中的例子,正樣本很好理解祥得,就是人臉的圖片兔沃,負(fù)樣本的選取就與問題場(chǎng)景相關(guān),具體而言级及,如果你要進(jìn)行教室中學(xué)生的人臉識(shí)別乒疏,那么負(fù)樣本就是教室的窗子、墻等等饮焦,也就是說怕吴,不能是與你要研究的問題毫不相關(guān)的亂七八糟的場(chǎng)景圖片,這樣的負(fù)樣本并沒有意義县踢。負(fù)樣本可以根據(jù)背景生成转绷,有時(shí)候不需要尋找額外的負(fù)樣本。一般3000-10000的正樣本需要5硼啤,000,000-100,000,000的負(fù)樣本來學(xué)習(xí)议经,充分的說明機(jī)器學(xué)習(xí)是試誤。

在檢測(cè)的問題中問題不像分類那么簡(jiǎn)單丙曙,因?yàn)闄z測(cè)問題需要做的事情是指出哪里有什么爸业,也就是既要給出框,又要說明框中是什么亏镰,在這種情況下扯旷,我們所具備的數(shù)據(jù)就是一些人工標(biāo)注的圖片,這些圖片上有框索抓,并且會(huì)給出框中的物體類別钧忽,我們需要運(yùn)用這些數(shù)據(jù)生成訓(xùn)練中的正負(fù)樣本數(shù)據(jù)

首先,檢測(cè)問題中的正負(fù)樣本并非人工標(biāo)注的那些框框逼肯,而是程序中(網(wǎng)絡(luò))生成出來的框框耸黑,這些框中的一部分被選為正樣本,一部分被選為負(fù)樣本篮幢,另外一部分被當(dāng)作背景或者不參與運(yùn)算大刊。不同的框架有不同的策略,大致都是根據(jù)IOU的值三椿,選取個(gè)閾值范圍進(jìn)行判定缺菌,在訓(xùn)練的過程中還需要注意均衡正負(fù)樣本之間的比例葫辐。**

4.線性分類器與非線性分類器的區(qū)別及優(yōu)劣;

區(qū)別:所謂線性分類器即用一個(gè)超平面將正負(fù)樣本分離開伴郁,表達(dá)式為 y=wx 耿战。這里是強(qiáng)調(diào)的是平面。

而非線性的分類界面沒有這個(gè)限制焊傅,可以是曲面剂陡,多個(gè)超平面的組合等。

典型的線性分類器有感知機(jī)狐胎,LDA鸭栖,邏輯斯特回歸,SVM(線性核)顽爹;

典型的非線性分類器有樸素貝葉斯(有文章說這個(gè)本質(zhì)是線性的纤泵,http://dataunion.org/12344.html),kNN镜粤,決策樹捏题,SVM(非線性核)

優(yōu)缺點(diǎn)1.線性分類器判別簡(jiǎn)單、易實(shí)現(xiàn)肉渴、且需要的計(jì)算量和存儲(chǔ)量小公荧。

為解決比較復(fù)雜的線性不可分樣本分類問題,提出非線性判別函數(shù)同规。:超曲面循狰,非線性判別函數(shù)計(jì)算復(fù)雜,實(shí)際應(yīng)用上受到較大的限制券勺。在線性分類器的基礎(chǔ)上绪钥,用分段線性分類器可以實(shí)現(xiàn)復(fù)雜的分類面。解決問題比較簡(jiǎn)便的方法是采用多個(gè)線性分界面將它們分段連接关炼,用分段線性判別劃分去逼近分界的超曲面程腹。2.如果一個(gè)問題是非線性問題并且它的類邊界不能夠用線性超平面估計(jì)得很好,那么非線性分類器通常會(huì)比線性分類器表現(xiàn)得更精準(zhǔn)儒拂。如果一個(gè)問題是線性的寸潦,那么最好使用簡(jiǎn)單的線性分類器來處理。

參考:機(jī)器學(xué)習(xí)面試問題10

5.對(duì)于維度很高的特征社痛,你是選擇線性還是非線性分類器见转?(解釋存疑)

維度很高的特征:特征數(shù)量多,一般線性模型欠擬合蒜哀,所以采用選擇非線性分類器斩箫。。

6.特征比數(shù)據(jù)量還大時(shí),選擇什么樣的分類器校焦?

如果訓(xùn)練集很小赊抖,那么高偏差/低方差分類器(如樸素貝葉斯分類器)要優(yōu)于低偏差/高方差分類器(如k近鄰分類器)统倒,因?yàn)楹笳呷菀走^擬合寨典。

然而,隨著訓(xùn)練集的增大房匆,低偏差/高方差分類器將開始勝出(它們具有較低的漸近誤差)耸成,因?yàn)楦咂罘诸惼鞑蛔阋蕴峁?zhǔn)確的模型。也可以認(rèn)為這是生成模型與判別模型的區(qū)別浴鸿。

7.對(duì)于維度極低的特征井氢,你是選擇線性還是非線性分類器?

key

維度底岳链,一般簡(jiǎn)單的線性模型即可花竞,選擇線性分類器。

8.如何解決過擬合問題掸哑?

key

解釋過擬合:模型在訓(xùn)練集表現(xiàn)好约急,在真實(shí)數(shù)據(jù)表現(xiàn)不好,即模型的繁華能力不夠苗分。從另外一個(gè)方面來講厌蔽,模型在達(dá)到經(jīng)驗(yàn)損失最小的時(shí)候,模型復(fù)雜度較高摔癣,結(jié)構(gòu)風(fēng)險(xiǎn)沒有達(dá)到最優(yōu)奴饮。

解決:1. 學(xué)習(xí)方法上:限制機(jī)器的學(xué)習(xí),使機(jī)器學(xué)習(xí)特征時(shí)學(xué)得不那么徹底择浊,因此這樣就可以降低機(jī)器學(xué)到局部特征和錯(cuò)誤特征的幾率戴卜,使得識(shí)別正確率得到優(yōu)化.2. 數(shù)據(jù)上:要防止過擬合,做好特征的選取琢岩。訓(xùn)練數(shù)據(jù)的選取也是很關(guān)鍵的投剥,良好的訓(xùn)練數(shù)據(jù)本身的局部特征應(yīng)盡可能少,噪聲也盡可能小.

9.L1和L2正則的區(qū)別粘捎,如何選擇L1和L2正則薇缅?

L1 Norm 和L2 Norm的區(qū)別(核心:L2對(duì)大數(shù),對(duì)outlier更敏感T苣ァ):

L1優(yōu)點(diǎn)是能夠獲得sparse模型泳桦,對(duì)于large-scale的問題來說這一點(diǎn)很重要,因?yàn)榭梢詼p少存儲(chǔ)空間娩缰。缺點(diǎn)是加入L1后目標(biāo)函數(shù)在原點(diǎn)不可導(dǎo)灸撰,需要做特殊處理。

L2優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單,能夠起到正則化的作用浮毯。缺點(diǎn)就是L1的優(yōu)點(diǎn):無法獲得sparse模型完疫。實(shí)際上L1也是一種妥協(xié)的做法,要獲得真正sparse的模型债蓝,要用L0正則化壳鹤。

機(jī)器學(xué)習(xí)中的范數(shù)規(guī)則化之(一)L0、L1與L2范數(shù)

10.有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別

有監(jiān)督學(xué)習(xí):對(duì)具有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí)饰迹,以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記(分類)預(yù)測(cè)芳誓。這里,所有的標(biāo)記(分類)是已知的啊鸭。因此锹淌,訓(xùn)練樣本的岐義性低。監(jiān)督學(xué)習(xí)中只要輸入樣本集,機(jī)器就可以從中推演出制定目標(biāo)變量的可能結(jié)果.如協(xié)同過濾推薦算法,通過對(duì)訓(xùn)練集進(jìn)行監(jiān)督學(xué)習(xí),并對(duì)測(cè)試集進(jìn)行預(yù)測(cè),從而達(dá)到預(yù)測(cè)的目的.

無監(jiān)督學(xué)習(xí):對(duì)沒有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí)赠制,以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)赂摆。這里,所有的標(biāo)記(分類)是未知的钟些。因此烟号,訓(xùn)練樣本的岐義性高。聚類就是典型的無監(jiān)督學(xué)習(xí)

無監(jiān)督例子:比如我們?nèi)⒂^一個(gè)畫展厘唾,我們對(duì)藝術(shù)一無所知褥符,但是欣賞完很多幅作品之后,我們面對(duì)一幅新的作品之后抚垃,至少可以知道這幅作品是什么派別的吧喷楣,比如更抽象一些還是更寫實(shí)一點(diǎn),雖然不能很清楚的了解這幅畫的含義鹤树,但是至少我們可以把它分為哪一類铣焊。再比如我們?cè)陔娪霸嚎措娪埃瑢?duì)于之前沒有學(xué)過相關(guān)電影藝術(shù)知識(shí)的我們罕伯,可能不知道什么是一部好電影曲伊,什么是一部不好的電影,可是在觀看了很多部電影之后追他,我們腦中對(duì)電影就有了一個(gè)潛在的認(rèn)識(shí)坟募,當(dāng)我們?cè)俅巫陔娪霸赫J(rèn)真觀看新上映的電影時(shí),腦中就會(huì)對(duì)這部電影產(chǎn)生一個(gè)評(píng)價(jià):怎么這電影這么不好啊邑狸,整個(gè)故事線是混亂的懈糯,一點(diǎn)也不清晰,比我之前看過的那些電影差遠(yuǎn)了单雾,人物的性格也沒有表現(xiàn)出來赚哗,關(guān)鍵是電影主題還搞偏了她紫;哎呀,這個(gè)電影拍得確實(shí)好啊屿储,故事情節(jié)和人物性格都很鮮明贿讹,而且場(chǎng)景很逼真,主角的實(shí)力表演加上他與生俱來的憂郁眼神一下把人物演活了够掠。

監(jiān)督學(xué)習(xí)的典型例子就是決策樹民褂、神經(jīng)網(wǎng)絡(luò)以及疾病監(jiān)測(cè),而無監(jiān)督學(xué)習(xí)就是很早之前的西洋雙陸棋和聚類祖屏。

作者:cloudinsea

鏈接:http://www.reibang.com/p/801d3dc63d80

來源:簡(jiǎn)書

著作權(quán)歸作者所有助赞。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處袁勺。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市畜普,隨后出現(xiàn)的幾起案子期丰,更是在濱河造成了極大的恐慌,老刑警劉巖吃挑,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件钝荡,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡舶衬,警方通過查閱死者的電腦和手機(jī)埠通,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來逛犹,“玉大人端辱,你說我怎么就攤上這事∷浠” “怎么了舞蔽?”我有些...
    開封第一講書人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)码撰。 經(jīng)常有香客問我渗柿,道長(zhǎng),這世上最難降的妖魔是什么脖岛? 我笑而不...
    開封第一講書人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任朵栖,我火速辦了婚禮,結(jié)果婚禮上柴梆,老公的妹妹穿的比我還像新娘陨溅。我一直安慰自己,他們只是感情好轩性,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開白布声登。 她就那樣靜靜地躺著狠鸳,像睡著了一般。 火紅的嫁衣襯著肌膚如雪悯嗓。 梳的紋絲不亂的頭發(fā)上件舵,一...
    開封第一講書人閱讀 51,718評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音脯厨,去河邊找鬼铅祸。 笑死,一個(gè)胖子當(dāng)著我的面吹牛合武,可吹牛的內(nèi)容都是我干的临梗。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼稼跳,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼盟庞!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起汤善,我...
    開封第一講書人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤什猖,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后红淡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體不狮,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年在旱,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了摇零。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡桶蝎,死狀恐怖驻仅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情俊嗽,我是刑警寧澤雾家,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站绍豁,受9級(jí)特大地震影響芯咧,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜竹揍,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一敬飒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧芬位,春花似錦无拗、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽揽惹。三九已至,卻和暖如春四康,著一層夾襖步出監(jiān)牢的瞬間搪搏,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工闪金, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留疯溺,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓哎垦,卻偏偏與公主長(zhǎng)得像囱嫩,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子漏设,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容