從概念到應(yīng)用:一文搞定數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的最常見面試題

去參加過機(jī)器學(xué)習(xí)方面面試的小伙伴都清楚

這個(gè)面試可以說是很痛苦的了

為了面試,你做好了許多的準(zhǔn)備

到場卻還是陷入窘境

為了讓大家不再面臨這些情況

科多特地去搜集了某位大神的面試經(jīng)驗(yàn)

希望能夠幫助到發(fā)大家

機(jī)器學(xué)習(xí)

面試經(jīng)驗(yàn)小總結(jié)

機(jī)器學(xué)習(xí)

在面試中襟齿,這些理論問題我們要重視

看似簡單的問題,其實(shí)很考驗(yàn)?zāi)愕闹R(shí)

接下來衡奥,我們一起來看看

常見的理論問題

什么是偏差-方差之間的權(quán)衡?

什么是梯度下降?

請(qǐng)解釋過擬合和欠擬合遇西,如何應(yīng)對(duì)這兩種情況?

如何解決維數(shù)災(zāi)難問題?

什么是正則化?為什么要正則化?請(qǐng)給出一些正則化常用方法。

為什么在神經(jīng)網(wǎng)絡(luò)中蛾狗,ReLU是比Sigmoid更好玄渗、更常用的激活函數(shù)?

數(shù)據(jù)規(guī)范化是什么?

為什么需要對(duì)數(shù)據(jù)進(jìn)行規(guī)范化?

數(shù)據(jù)規(guī)范化在預(yù)處理階段尤為重要座菠,它可以將數(shù)值縮放到特定的范圍,以在反向傳播時(shí)獲得更好的收斂性藤树。一般而言浴滴,規(guī)范化就是讓每一個(gè)數(shù)據(jù)點(diǎn)減去它們的均值,并除以標(biāo)準(zhǔn)差岁钓。

如果不這樣處理升略,一些(數(shù)量級(jí)較大的)特征值在代價(jià)函數(shù)中的權(quán)重就會(huì)更大(如果大數(shù)量級(jí)特征值改變1%微王,代價(jià)函數(shù)的變化就會(huì)很大,但小數(shù)量級(jí)的特征值改變1%產(chǎn)生的影響則微乎其微)品嚣。規(guī)范化使得所有特征值具有相同的權(quán)重炕倘。

請(qǐng)解釋降維,以及使用場合和它的優(yōu)勢翰撑。

降維是一種通過分析出主變量來減少特征變量的過程罩旋,其中主變量通常就是重要的特征。一個(gè)特征變量的重要性取決于它對(duì)數(shù)據(jù)信息的解釋程度额嘿,以及你所采用的方法瘸恼。至于如何選取方法劣挫,主要靠不斷摸索册养,以及你自己的偏好。通常大家會(huì)從線性方法開始压固,如果結(jié)果欠缺擬合性球拦,則考慮嘗試非線性的方法。

數(shù)據(jù)降維的優(yōu)勢

(1)節(jié)省存儲(chǔ)空間;

(2)節(jié)省計(jì)算時(shí)間(比如應(yīng)用于機(jī)器學(xué)習(xí)算法時(shí));

(3)去除冗余特征變量帐我,正如同時(shí)以平方米和平方英里存儲(chǔ)地區(qū)面積沒有任何意義(甚至可能是收集數(shù)據(jù)時(shí)出現(xiàn)錯(cuò)誤);

(4)將數(shù)據(jù)降維到二維或三維后坎炼,我們或許可以畫圖,將數(shù)據(jù)可視化拦键,以觀察數(shù)據(jù)具有的模式谣光,獲得對(duì)數(shù)據(jù)的直觀感受;

(5)特征變量過多或模型過于復(fù)雜可能導(dǎo)致模型過擬合。

如何處理數(shù)據(jù)集中缺失或損壞的數(shù)據(jù)?

你可以在數(shù)據(jù)集中找到缺失/損壞的數(shù)據(jù)芬为,并刪除它所在的行或列萄金,或是用其他值代替之。Pandas中有兩個(gè)非常有效的函數(shù):isnull()和dropna()媚朦,這兩個(gè)函數(shù)可以幫你找到有缺失/損壞數(shù)據(jù)的行氧敢,并刪除對(duì)應(yīng)值。如果要用占位符(比如0)填充這些無效值询张,你可以使用fillna()函數(shù)孙乖。

請(qǐng)解釋一下某種聚類算法。

由于文章篇幅有限份氧,而相關(guān)的信息比較多唯袄,因此寫了一篇《數(shù)據(jù)科學(xué)家應(yīng)當(dāng)知曉的5種聚類算法》,詳盡細(xì)致討論了這些算法蜗帜,文章的可視化也很棒恋拷,想了解的小伙伴可以進(jìn)鏈接尋找。

文章鏈接:

https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef68

如何開展探索性數(shù)據(jù)分析(EDA)?

EDA的目的是在應(yīng)用預(yù)測模型之前钮糖,了解數(shù)據(jù)的信息梅掠,獲得對(duì)數(shù)據(jù)的直觀感受酌住。總的來說阎抒,開展探索性數(shù)據(jù)分析一般采取由粗到精的方法酪我。

如何開展數(shù)據(jù)分析

(1)首先獲取一些高層次、全局性的直觀感受且叁。檢查一下不平衡的類都哭,查看每一類的均值和方差〕汛看看第一行欺矫,了解數(shù)據(jù)大致內(nèi)容。

運(yùn)行pandas中的http://df.info()函數(shù)展氓,看看哪些是連續(xù)變量穆趴、分類變量,并查看變量的數(shù)據(jù)類型(整型遇汞、浮點(diǎn)型未妹、字符串)。然后刪掉一些在分析空入、預(yù)測中不需要的列络它,這些列中的很多行數(shù)值都相同(提供的信息也相同),或者存在很多缺失值歪赢。我們也可以用某一行/列的眾數(shù)或中值填充該行/列中的缺失值化戳。

(2)可以做一些基本的可視化操作。從相對(duì)高層次埋凯、全局性的角度開始点楼,比如繪制分類特征關(guān)于類別的條形圖,繪制最終類別的條形圖递鹉,探究一下最“常用”的特征盟步,對(duì)獨(dú)立變量進(jìn)行可視化以獲得一些認(rèn)知和靈感等。

(3)可以展開更具體的探索躏结。比如同時(shí)對(duì)兩三個(gè)特征進(jìn)行可視化却盘,看看它們相互有何聯(lián)系。也可以做主成分分析媳拴,來確定哪些特征中包含的信息最多黄橘。類似地,還可以將一些特征分組屈溉,以觀察組間聯(lián)系祠乃。

比如可以考察一下馋辈,取A = B = 0時(shí)硫戈,不同的類會(huì)有什么表現(xiàn)?取A = 1、B = 0時(shí)呢?還要比較一下不同特征的影響小压,比方說特征A可以取“男性”或“女性”,則可以畫出特征A與旅客艙位的關(guān)系圖椰于,判斷男性和女性選在艙位選擇上是否有差異怠益。

除了條形圖、散點(diǎn)圖或是其他基本圖表瘾婿,也可以畫出PDF(概率分布函數(shù))或CDF(累計(jì)分布函數(shù))蜻牢、使用重疊繪圖方法等。還可以考察一下統(tǒng)計(jì)特性偏陪,比如分布抢呆、p值等。最后就該建立機(jī)器學(xué)習(xí)模型了笛谦。

從簡單的模型開始抱虐,比如樸素貝葉斯、線性回歸等揪罕。如果上述模型效果不理想梯码,或是數(shù)據(jù)高度非線性,則考慮使用多項(xiàng)式回歸好啰、決策樹或支持向量機(jī)。EDA可以挑選出重要的特征儿奶。如果數(shù)據(jù)量很大框往,可以使用神經(jīng)網(wǎng)絡(luò)。別忘了檢查ROC曲線(感受性曲線)闯捎、準(zhǔn)確率和召回率椰弊。

怎么知道應(yīng)當(dāng)選取何種機(jī)器學(xué)習(xí)模型?

雖然人們應(yīng)當(dāng)堅(jiān)信天下沒有免費(fèi)的午餐,但還是有一些指導(dǎo)原則相當(dāng)通用瓤鼻。這是寫回歸模型的文章以及相關(guān)信息的備忘錄秉版,里面內(nèi)容比較全面。

文章鏈接:

https://towardsdatascience.com/selecting-the-best-machine-learning-algorithm-for-your-regression-problem-20c330bad4ef

備忘錄鏈接:

https://www.google.com/search?tbs=simg:CAESqQIJvnrCwg_15JjManQILEKjU2AQaBAgUCAoMCxCwjKcIGmIKYAgDEijqAvQH8wfpB_1AH_1hL1B_1YH6QKOE6soyT-TJ9A0qCipKKoo0TS0NL0-GjA_15sJ-3A24wpvrDVRc8bM3x0nrW3Ctn6tFeYFLpV7ldtVRVDHO-s-8FnDFrpLKzC8gBAwLEI6u_1ggaCgoICAESBO

為什么對(duì)圖像使用卷積而不只是FC層?

這個(gè)問題比較有趣茬祷,因?yàn)樘岢鲞@個(gè)問題的公司并不多清焕。但不排除一些公司會(huì)提出這個(gè)問題,如果面試時(shí)遇見祭犯,你可以分為兩方面回答這些問題秸妥。

回答

卷積可以保存、編碼沃粗、使用圖像的空間信息粥惧。只用FC層的話可能就沒有相關(guān)空間信息了。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)某種程度上本身具有平移不變性最盅,因?yàn)槊總€(gè)卷積核都充當(dāng)了它自己的濾波器/特征監(jiān)測器突雪。

為什么CNN具有平移不變性?

上文解釋過起惕,每個(gè)卷積核都充當(dāng)了它自己的濾波器/特征監(jiān)測器。假設(shè)你正在進(jìn)行目標(biāo)檢測咏删,這個(gè)目標(biāo)處于圖片的何處并不重要疤祭,因?yàn)槲覀円曰瑒?dòng)窗口的方式,將卷積應(yīng)用于整個(gè)圖像饵婆。

為什么用CNN分類需要進(jìn)行最大池化?

這也是屬于計(jì)算機(jī)視覺領(lǐng)域的一個(gè)問題勺馆。CNN中的最大池化可以減少計(jì)算量,因?yàn)樘卣鲌D在池化后將會(huì)變小侨核。與此同時(shí)草穆,因?yàn)椴扇×俗畲蟪鼗⒉粫?huì)喪失太多圖像的語義信息搓译。還有一個(gè)理論認(rèn)為悲柱,最大池化有利于使CNN具有更好的平移不變性。關(guān)于這個(gè)問題些己,可以看一下吳恩達(dá)講解最大池化優(yōu)點(diǎn)的視頻豌鸡。

視頻鏈接:https://www.coursera.org/learn/convolutional-neural-networks/lecture/hELHk/pooling-layers

為什么用CNN分割時(shí)通常需要編碼-解碼結(jié)構(gòu)?

CNN編碼器可以看作是特征提取網(wǎng)絡(luò),解碼器則利用它提供的信息段标,“解碼”特征并放大到原始大小涯冠,以此預(yù)測圖像片段。

殘差網(wǎng)絡(luò)有什么意義?

殘差網(wǎng)絡(luò)主要能夠讓它之前的層直接訪問特征逼庞,這使得信息在網(wǎng)絡(luò)中更易于傳播蛇更。一篇很有趣的論文解釋了本地的跳躍式傳導(dǎo)如何賦予網(wǎng)絡(luò)多路徑結(jié)構(gòu),使得特征能夠以不同路徑在整個(gè)網(wǎng)絡(luò)中傳播赛糟。

論文鏈接:https://arxiv.org/abs/1605.06431

批量標(biāo)準(zhǔn)化是什么?它為什么有效?

訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)很復(fù)雜派任,因?yàn)樵谟?xùn)練過程中,隨著前幾層輸入的參數(shù)不斷變化璧南,每層輸入的分布也隨之變化掌逛。一種方法是將每層輸入規(guī)范化,輸出函數(shù)均值為0司倚,標(biāo)準(zhǔn)差為1豆混。對(duì)每一層的每個(gè)小批量輸入都采用上述方式進(jìn)行規(guī)范化(計(jì)算每個(gè)小批量輸入的均值和方差,然后標(biāo)準(zhǔn)化)对湃。這和神經(jīng)網(wǎng)絡(luò)的輸入的規(guī)范化類似崖叫。

批量標(biāo)準(zhǔn)化的好處

對(duì)輸入進(jìn)行規(guī)范化有助于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。但神經(jīng)網(wǎng)絡(luò)不過是一系列的層拍柒,每層的輸出又成為下一層的輸入心傀。也就是說,我們可以將其中每一層視作子網(wǎng)絡(luò)的第一層拆讯。把神經(jīng)網(wǎng)絡(luò)想象成一系列互相傳遞信息的網(wǎng)絡(luò)結(jié)構(gòu)脂男,因此在激活函數(shù)作用于輸出之前养叛,先將每一層輸出規(guī)范化,再將其傳遞到下一層(子網(wǎng)絡(luò))宰翅。

如何處理不平衡數(shù)據(jù)集?

關(guān)于這個(gè)問題有專門的文章解釋說明弃甥,請(qǐng)查看文章中第三個(gè)小標(biāo)題。

文章鏈接:https://towardsdatascience.com/7-practical-deep-learning-tips-97a9f514100e

為什么要使用許多小卷積核(如3*3的卷積核)汁讼,而非少量大卷積核?

這篇VGGNet的論文中有很詳細(xì)的解釋淆攻。有兩個(gè)原因:

使用小卷積核的原因

首先,同少數(shù)大卷積核一樣嘿架,更多小卷積核也可以得到相同的感受野和空間背景瓶珊,而且用小卷積核需要的參數(shù)更少、計(jì)算量更小耸彪。

其次伞芹,使用小卷積核需要更多過濾器,這意味會(huì)使用更多的激活函數(shù)蝉娜,因此你的CNN可以得到更具特異性的映射函數(shù)唱较。

論文鏈接:https://arxiv.org/pdf/1409.1556.pdf

你有和我們公司相關(guān)的項(xiàng)目經(jīng)歷嗎?

在回答這個(gè)問題時(shí),你需要把自己的研究和他們的業(yè)務(wù)的聯(lián)系起來召川。想想看你是否做過什么研究南缓,或?qū)W過什么技能,能和公司業(yè)務(wù)及你申請(qǐng)的崗位有所聯(lián)系扮宠。這種經(jīng)歷不需要百分之百符合所申請(qǐng)的崗位西乖,只要在某種程度上有關(guān)聯(lián),這些經(jīng)歷就會(huì)成為你很大的加分項(xiàng)坛增。

請(qǐng)介紹一下你目前的碩士研究項(xiàng)目。哪些項(xiàng)目和申請(qǐng)崗位有關(guān)聯(lián)?未來發(fā)展方向薄腻。

這個(gè)問題的答案同上收捣,你懂的~~~

以上就是便是應(yīng)聘數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)相關(guān)崗位時(shí)常被問到的問題。希望你喜歡這篇文章庵楷,并能有所收獲罢艾,找到一份中意的工作。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末尽纽,一起剝皮案震驚了整個(gè)濱河市咐蚯,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌弄贿,老刑警劉巖春锋,帶你破解...
    沈念sama閱讀 222,464評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異差凹,居然都是意外死亡期奔,警方通過查閱死者的電腦和手機(jī)侧馅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,033評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來呐萌,“玉大人馁痴,你說我怎么就攤上這事》喂拢” “怎么了罗晕?”我有些...
    開封第一講書人閱讀 169,078評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長赠堵。 經(jīng)常有香客問我小渊,道長,這世上最難降的妖魔是什么顾腊? 我笑而不...
    開封第一講書人閱讀 59,979評(píng)論 1 299
  • 正文 為了忘掉前任粤铭,我火速辦了婚禮,結(jié)果婚禮上杂靶,老公的妹妹穿的比我還像新娘梆惯。我一直安慰自己,他們只是感情好吗垮,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,001評(píng)論 6 398
  • 文/花漫 我一把揭開白布垛吗。 她就那樣靜靜地躺著,像睡著了一般烁登。 火紅的嫁衣襯著肌膚如雪怯屉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,584評(píng)論 1 312
  • 那天饵沧,我揣著相機(jī)與錄音锨络,去河邊找鬼。 笑死狼牺,一個(gè)胖子當(dāng)著我的面吹牛羡儿,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播是钥,決...
    沈念sama閱讀 41,085評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼掠归,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了悄泥?” 一聲冷哼從身側(cè)響起虏冻,我...
    開封第一講書人閱讀 40,023評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎弹囚,沒想到半個(gè)月后厨相,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,555評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,626評(píng)論 3 342
  • 正文 我和宋清朗相戀三年领铐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了悯森。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,769評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡绪撵,死狀恐怖瓢姻,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情音诈,我是刑警寧澤幻碱,帶...
    沈念sama閱讀 36,439評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站细溅,受9級(jí)特大地震影響褥傍,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜喇聊,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,115評(píng)論 3 335
  • 文/蒙蒙 一恍风、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧誓篱,春花似錦朋贬、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,601評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至邻遏,卻和暖如春糠亩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背准验。 一陣腳步聲響...
    開封第一講書人閱讀 33,702評(píng)論 1 274
  • 我被黑心中介騙來泰國打工赎线, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人糊饱。 一個(gè)月前我還...
    沈念sama閱讀 49,191評(píng)論 3 378
  • 正文 我出身青樓氛驮,卻偏偏與公主長得像,于是被迫代替她去往敵國和親济似。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,781評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 文章主要分為:一盏缤、深度學(xué)習(xí)概念砰蠢;二、國內(nèi)外研究現(xiàn)狀唉铜;三台舱、深度學(xué)習(xí)模型結(jié)構(gòu);四、深度學(xué)習(xí)訓(xùn)練算法竞惋;五柜去、深度學(xué)習(xí)的優(yōu)點(diǎn)...
    艾剪疏閱讀 21,850評(píng)論 0 58
  • 101.深度學(xué)習(xí)(CNN RNN Attention)解決大規(guī)模文本分類問題。 用深度學(xué)習(xí)(CNN RNN Att...
    大黃大黃大黃閱讀 13,832評(píng)論 2 42
  • 好棒拆宛, 好開心嗓奢。 這是緣分嗎?
    viy閱讀 272評(píng)論 0 0
  • 雨天我替你撐起了傘浑厚, 你卻怪我股耽、 擋住了陽光。
    團(tuán)子團(tuán)子大丸子閱讀 259評(píng)論 0 1
  • (一)沙盤游戲 “玩”是人的天性钳幅,學(xué)堂為孩子提供了一沙一世界的“沙盤游戲”物蝙;在游戲中反映出智者的思考與智慧;沙盤中...
    王靜華寶龍學(xué)堂閱讀 455評(píng)論 0 0