Q1: What’s the trade-off between bias and variance?
問題1: 什么是偏差(bias)殷勘、方差(variable)之間的均衡妻率?
Bias 是由于你使用的學(xué)習(xí)算法過度簡(jiǎn)單地?cái)M合結(jié)果或者錯(cuò)誤地?cái)M合結(jié)果導(dǎo)致的錯(cuò)誤龟再。它反映的是模型在樣本上的輸出與真實(shí)值之間的誤差,即模型本身的精準(zhǔn)度,即算法本身的擬合能力瞒窒。Bias 可能會(huì)導(dǎo)致模型欠擬合,使其難以具有較高的預(yù)測(cè)準(zhǔn)確性乡洼,也很難將你的知識(shí)從訓(xùn)練集推廣到測(cè)試集崇裁。
Variance 是由于你使用的學(xué)習(xí)算法過于復(fù)雜而產(chǎn)生的錯(cuò)誤匕坯。它反映的是模型每一次輸出結(jié)果與模型輸出期望之間的誤差,即模型的穩(wěn)定性拔稳。反應(yīng)預(yù)測(cè)的波動(dòng)情況葛峻。Variance 過高會(huì)導(dǎo)致算法對(duì)訓(xùn)練數(shù)據(jù)的高緯度變化過于敏感,這樣會(huì)導(dǎo)致模型過度擬合數(shù)據(jù)巴比。從而你的模型會(huì)從訓(xùn)練集里帶來太多噪音术奖,這會(huì)對(duì)測(cè)試數(shù)據(jù)有一定的好處。
Bias-Variance 的分解轻绞,本質(zhì)上是通過在基礎(chǔ)數(shù)據(jù)集中添加偏差采记、方差和一點(diǎn)由噪聲引起的不可約誤差,來分解算法上的學(xué)習(xí)誤差铲球。從本質(zhì)上講挺庞,如果你使模型更復(fù)雜并添加更多變量,你將會(huì)失去一些 Bias 但獲得一些 Variance稼病,這就是我們所說的權(quán)衡(tradeoff)选侨。這也是為什么我們?cè)诮5倪^程中,不希望這個(gè)模型同時(shí)擁有高的偏差和方差然走。
Q2: What is the difference between supervised and unsupervised machine learning?
問題2:監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)有什么不同援制?
監(jiān)督學(xué)習(xí)需要train有l(wèi)abel的數(shù)據(jù)。例如芍瑞,為了進(jìn)行classification(一項(xiàng)受監(jiān)督的學(xué)習(xí)任務(wù))晨仑,您需要首先標(biāo)記將用于培訓(xùn)模型的數(shù)據(jù),以便將數(shù)據(jù)分類到標(biāo)記的組中拆檬。相反的洪己,無監(jiān)督學(xué)習(xí)不需要明確標(biāo)記數(shù)據(jù)。
Q3: How is KNN different from k-means clustering?
問題3: KNN和 k-means 聚類由什么不同竟贯?
K-Nearest Neighbors是一種監(jiān)督分類算法答捕,而 k-means聚類是一種無監(jiān)督的聚類算法。 雖然這些機(jī)制起初可能看起來相似屑那,但這實(shí)際上意味著為了使K-Nearest Neighbors工作拱镐,你需要標(biāo)記數(shù)據(jù),以便將未標(biāo)記的點(diǎn)分類(因此是最近鄰居部分)持际。 K均值聚類僅需要一組未標(biāo)記的點(diǎn)和閾值:算法將采用未標(biāo)記的點(diǎn)并逐漸學(xué)習(xí)如何通過計(jì)算不同點(diǎn)之間的距離的平均值將它們聚類成組沃琅。
這里的關(guān)鍵區(qū)別在于,KNN需要標(biāo)記點(diǎn)蜘欲,因此是有監(jiān)督的學(xué)習(xí)益眉,而k-means不是,因此是無監(jiān)督學(xué)習(xí)姥份。
Q4: Explain how a ROC curve works.
問題4:解釋一下ROC曲線的原理
ROC曲線是真陽(yáng)率與各種閾值下的假陽(yáng)率之間的對(duì)比度的圖形表示郭脂。 它通常用作代表模型靈敏度(真陽(yáng)性)與跌落之間的平衡或它將觸發(fā)誤報(bào)(假陽(yáng)性)的概率空繁。
Q5: Define precision and recall.
問題5:定義精度和召回率
召回(率)也稱為真陽(yáng)性率:您的模型聲稱的陽(yáng)性數(shù)量與整個(gè)數(shù)據(jù)中的實(shí)際陽(yáng)性數(shù)量相比。 精確度也稱為陽(yáng)性預(yù)測(cè)值朱庆,它衡量的是您的模型聲稱與實(shí)際聲稱的陽(yáng)性數(shù)量相比的準(zhǔn)確陽(yáng)性數(shù)量盛泡。 在您預(yù)測(cè)在10個(gè)蘋果的情況下有10個(gè)蘋果和5個(gè)橙子的情況下,可以更容易地想到回憶和精確度娱颊。 你有完美的召回(實(shí)際上有10個(gè)蘋果傲诵,你預(yù)測(cè)會(huì)有10個(gè)),但66.7%的精度箱硕,因?yàn)樵谀泐A(yù)測(cè)的15個(gè)事件中拴竹,只有10個(gè)(蘋果)是正確的。
Q6: What is Bayes’ Theorem? How is it useful in a machine learning context?
問題6:什么是貝葉斯定理剧罩?它在機(jī)器學(xué)習(xí)環(huán)境中如何有用?
貝葉斯定理描述了當(dāng)你不能準(zhǔn)確知悉一個(gè)事物的本質(zhì)時(shí)栓拜,你可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率。 它給出了已知先驗(yàn)知識(shí)下事件的后驗(yàn)概率惠昔。
在數(shù)學(xué)上幕与,它表示為條件樣本的真陽(yáng)性率除以總體的假陽(yáng)性率和條件的真陽(yáng)性率之和。假設(shè)你在流感測(cè)試后有60%的機(jī)會(huì)真的感染了流感镇防,但是在感染了流感的人中啦鸣,50%的測(cè)試都是錯(cuò)誤的,總?cè)丝谥挥?%的機(jī)會(huì)感染了流感来氧。在做了陽(yáng)性測(cè)試后诫给,你真的有60%的機(jī)會(huì)患上流感嗎?
貝葉斯定理說不啦扬,它說你有一個(gè)(0.60.05)(條件樣本的真陽(yáng)性率)/(0.60.05)(條件樣本的真陽(yáng)性率)+(0.5*0.95)(人群的假陽(yáng)性率)= 5.94%的機(jī)會(huì)感染流感中狂。
貝葉斯理論是機(jī)器學(xué)習(xí)一個(gè)分支的幕后操縱大佬,所以在你考慮要準(zhǔn)備一個(gè)機(jī)器學(xué)習(xí)的面試的時(shí)候一定不能忽略這個(gè)知識(shí)點(diǎn)扑毡。
Q7: Why is “Naive” Bayes naive?
問題7:為什么我們要稱“樸素”貝葉斯胃榕?
盡管 Naive Bayes 具有實(shí)際應(yīng)用,特別是在文本挖掘中僚楞,但它被認(rèn)為是“天真的”勤晚,因?yàn)樗僭O(shè)在實(shí)際數(shù)據(jù)中幾乎不可能看到:條件概率被計(jì)算為組件個(gè)體概率的純乘積枉层。 這意味著特征的絕對(duì)獨(dú)立性 – 這種情況在現(xiàn)實(shí)生活中可能永遠(yuǎn)不會(huì)遇到泉褐。
正如 Quora 上一些評(píng)論者所說的那樣,Naive Bayes 分類器發(fā)現(xiàn)你喜歡泡菜和冰淇淋之后鸟蜡,可能會(huì)天真地推薦你一個(gè)泡菜冰淇淋膜赃。
Q8: Explain the difference between L1 and L2 regularization.
問題8:L1、L2正則之間有什么不同揉忘?
L2正則跳座,對(duì)應(yīng)的是加入2范數(shù)端铛,使得對(duì)權(quán)重進(jìn)行衰減,從而達(dá)到懲罰損失函數(shù)的目的疲眷,防止模型過擬合禾蚕。保留顯著減小損失函數(shù)方向上的權(quán)重,而對(duì)于那些對(duì)函數(shù)值影響不大的權(quán)重使其衰減接近于0狂丝。相當(dāng)于加入一個(gè)gaussian prior换淆。
L1正則 對(duì)應(yīng)得失加入1范數(shù),同樣可以防止過擬合几颜。它會(huì)產(chǎn)生更稀疏的解倍试,即會(huì)使得部分權(quán)重變?yōu)?,達(dá)到特征選擇的效果蛋哭。相當(dāng)于加入了一個(gè)laplacean prior县习。
Q9: What’s your favorite algorithm, and can you explain it to me in less than a minute?
問題9:你最喜歡的算法是什么?把它解釋一下谆趾。
這種類型的問題測(cè)試了你對(duì)如何用平衡來傳達(dá)復(fù)雜和技術(shù)上的細(xì)微差別的理解躁愿,以及快速和有效地總結(jié)的能力。確保你有選擇沪蓬,確保你能簡(jiǎn)單有效地解釋不同的算法攘已,使一個(gè)五歲的孩子能夠掌握基礎(chǔ)知識(shí)!
Q10: What’s the difference between Type I and Type II error?
問題10:第一類誤差和第二類誤差有什么區(qū)別怜跑?
第一類誤差指的是假正率样勃,第二類指的是假負(fù)率。簡(jiǎn)單來說性芬,第一類誤差意味著假設(shè)為真的情況下峡眶,作出了拒絕原假設(shè)的一種錯(cuò)誤推斷。第二類誤差意味著假設(shè)為假的情況下植锉,做出了接受原假設(shè)的一種錯(cuò)誤判斷辫樱。
舉個(gè)例子:第一類誤差,你誤判一個(gè)男的他懷孕了俊庇。第二類誤差狮暑,你誤判了一位其實(shí)已經(jīng)懷孕的女子沒懷孕。
Q11: What’s a Fourier transform?
問題11:什么是傅立葉變換辉饱?
傅立葉變換是將一般函數(shù)分解成對(duì)稱函數(shù)疊加的一般方法搬男。或者彭沼,正如這篇更直觀的教程所說缔逛,在一杯冰沙中,我們就是這樣找到配方的。傅立葉變換找到一組循環(huán)速度褐奴、振幅和相位按脚,以匹配任何時(shí)間信號(hào)。傅立葉變換將信號(hào)從時(shí)間域轉(zhuǎn)換為頻率域-這是從音頻信號(hào)或其他時(shí)間序列(如傳感器數(shù)據(jù))中提取特征的一種非常常見的方法敦冬。
Q12: What’s the difference between probability and likelihood?
問題12:概率和似然有什么區(qū)別辅搬?
概率和似然都是指可能性,但在統(tǒng)計(jì)學(xué)中脖旱,概率和似然有截然不同的用法伞辛。概率描述了已知參數(shù)時(shí)的隨機(jī)變量的輸出結(jié)果;似然則用來描述已知隨機(jī)變量輸出結(jié)果時(shí)夯缺,未知參數(shù)的可能取值蚤氏。例如,對(duì)于“一枚正反對(duì)稱的硬幣上拋十次”這種事件踊兜,我們可以問硬幣落地時(shí)十次都是正面向上的“概率”是多少竿滨;而對(duì)于“一枚硬幣上拋十次,我們則可以問捏境,這枚硬幣正反面對(duì)稱的“似然”程度是多少于游。
概率(密度)表達(dá)給定θ下樣本隨機(jī)向量X=x的可能性,而似然表達(dá)了給定樣本X=x下參數(shù)θ1(相對(duì)于另外的參數(shù)θ2)為真實(shí)值的可能性垫言。我們總是對(duì)隨機(jī)變量的取值談概率贰剥,而在非貝葉斯統(tǒng)計(jì)的角度下,參數(shù)是一個(gè)實(shí)數(shù)而非隨機(jī)變量筷频,所以我們一般不談一個(gè)參數(shù)的概率蚌成,而說似然。
Q13: What is deep learning, and how does it contrast with other machine learning algorithms?
問題13:什么是深度學(xué)習(xí)凛捏,它與機(jī)器學(xué)習(xí)算法之間有什么聯(lián)系担忧?
深度學(xué)習(xí)是與神經(jīng)網(wǎng)絡(luò)有關(guān)的機(jī)器學(xué)習(xí)的一個(gè)子集:如何使用反向傳播和神經(jīng)科學(xué)中的某些原理來更精確地建模大量未標(biāo)記或半結(jié)構(gòu)化數(shù)據(jù)。從這個(gè)意義上說坯癣,深度學(xué)習(xí)是一種無監(jiān)督的學(xué)習(xí)算法瓶盛,它通過使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)數(shù)據(jù)的表示。
Q14: What’s the difference between a generative and discriminative model?
問題14:生成模型與判別模型有什么區(qū)別示罗?
生成模型將學(xué)習(xí)數(shù)據(jù)類別惩猫,而判別模型將簡(jiǎn)單地學(xué)習(xí)不同類別數(shù)據(jù)之間的區(qū)別。 判別模型通常優(yōu)于分類任務(wù)的生成模型蚜点。
Q15- What cross-validation technique would you use on a time series dataset?
問題15:交叉檢驗(yàn)如何用在時(shí)間序列數(shù)據(jù)上轧房?
與標(biāo)準(zhǔn)的k-folds 交叉檢驗(yàn)不同,數(shù)據(jù)不是隨機(jī)分布的禽额,而是具有時(shí)序性的锯厢。如果模式出現(xiàn)在后期,模型仍然需要選擇先前時(shí)間的數(shù)據(jù)脯倒,盡管前期對(duì)模式無影響实辑。我們可以如下這么做:
fold1:training[1], test[2]
fold2:training[1 2], test[3]
fold3:training[1 2 3], test[4]
fold4:training[1 2 3 4], test[5]
fold5:training[1 2 3 4 5], test[6]
Q16- How is a decision tree pruned?
問題16:如何對(duì)決策樹進(jìn)行剪枝?
剪枝是在決策樹中藻丢,為了降低模型的復(fù)雜度剪撬,提高決策樹模型的預(yù)測(cè)精度,去除預(yù)測(cè)能力較弱的分支后所發(fā)生的現(xiàn)象悠反。修剪可以自下而上和自上而下進(jìn)行残黑,方法包括減少錯(cuò)誤修剪和成本復(fù)雜度修剪。
減少錯(cuò)誤修剪可能是最簡(jiǎn)單的版本:替換每個(gè)節(jié)點(diǎn)斋否。如果不降低預(yù)測(cè)精度梨水,則保持修剪。雖然很簡(jiǎn)單茵臭,但這種啟發(fā)式方法實(shí)際上非常接近于一種可以最大限度地優(yōu)化準(zhǔn)確性的方法疫诽。
Q17: Which is more important to you? Model accuracy, or model performance?
問題17:模型的精度和模型的性能哪個(gè)對(duì)你更重要?
這個(gè)問題測(cè)試您對(duì)機(jī)器學(xué)習(xí)模型性能細(xì)微差別的理解旦委!機(jī)器學(xué)習(xí)面試問題往往著眼于細(xì)節(jié)奇徒。有些模型具有更高的準(zhǔn)確度,而在預(yù)測(cè)能力方面表現(xiàn)較差 — 這有什么意義缨硝?
好吧摩钙,這一切都與模型的準(zhǔn)確性僅僅是模型性能的一個(gè)子集有關(guān),在這一點(diǎn)上查辩,有時(shí)是一個(gè)誤導(dǎo)胖笛。例如,如果你想在一個(gè)擁有數(shù)百萬樣本的海量數(shù)據(jù)集中檢測(cè)欺詐行為宜岛,那么一個(gè)更準(zhǔn)確的模型很可能會(huì)預(yù)測(cè)匀钧,如果只有極少數(shù)的案例是欺詐行為,那么根本就不會(huì)有欺詐行為谬返。然而之斯,對(duì)于預(yù)測(cè)模型來說,這是無用的——一個(gè)旨在發(fā)現(xiàn)聲稱根本沒有欺詐的欺詐的模型遣铝!這樣的問題可以幫助您證明您理解模型的準(zhǔn)確性并不是模型性能的全部佑刷。
Q18: What’s the F1 score? How would you use it?
問題18:什么是F1數(shù),怎么使用它酿炸?
F1分?jǐn)?shù)是衡量模型性能的指標(biāo)瘫絮。它是模型精度和召回的加權(quán)平均值,結(jié)果趨向于1是最好的填硕,結(jié)果趨向于0是最差的麦萤。你可以在分類測(cè)試中使用它鹿鳖,而真正的否定并不重要。
Q19: How would you handle an imbalanced dataset?
問題19:如何處理一個(gè)不平衡的數(shù)據(jù)集壮莹?
例如翅帜,當(dāng)您有一個(gè)分類測(cè)試,并且90%的數(shù)據(jù)都在一個(gè)類中時(shí)命满,就會(huì)產(chǎn)生一個(gè)不平衡的數(shù)據(jù)集涝滴。這就導(dǎo)致了問題:如果您對(duì)其他類別的數(shù)據(jù)沒有預(yù)測(cè)能力,那么90%的精度然而可能會(huì)出現(xiàn)偏差胶台!下面是一些克服困難的策略:
1-收集更多數(shù)據(jù)歼疮,甚至數(shù)據(jù)集中的不平衡。
2-對(duì)數(shù)據(jù)集重新取樣以糾正不平衡诈唬。
3-在你的數(shù)據(jù)集中嘗試一個(gè)不同的算法韩脏。
這里重要的是,您對(duì)不平衡數(shù)據(jù)集可能造成的損害以及如何平衡具有敏銳的感知铸磅。
Q20: When should you use classification over regression?
問題20:什么時(shí)候你應(yīng)該使用分類而不是回歸骤素?
分類產(chǎn)生離散值并將數(shù)據(jù)集轉(zhuǎn)換為嚴(yán)格的類別,而回歸則提供連續(xù)的結(jié)果愚屁,使您能夠更好地區(qū)分各個(gè)點(diǎn)之間的差異济竹。如果您希望結(jié)果反映數(shù)據(jù)集中數(shù)據(jù)點(diǎn)對(duì)某些明確類別的歸屬性(例如:如果您希望知道某個(gè)名稱是男性還是女性,而不僅僅是它們與男性和女性名稱之間的關(guān)聯(lián)性)霎槐,則可以使用分類而不是回歸送浊。
Q21: Name an example where ensemble techniques might be useful.
問題21:舉個(gè)例子,說明使用集成學(xué)習(xí)會(huì)很有用丘跌。
集成學(xué)習(xí)通過組合一些基學(xué)習(xí)算法來優(yōu)化得到更好的預(yù)測(cè)性能袭景,通常可以防止模型的過擬合使模型更具有魯棒性闭树。
你可以列舉一些集成學(xué)習(xí)的例子耸棒,如bagging、boosting报辱、stacking等与殃,并且了解他們是如何增加模型預(yù)測(cè)能力的。
Q22: How do you ensure you’re not overfitting with a model?
問題22:你如何確保你的模型沒有過擬合碍现?
過度擬合的訓(xùn)練數(shù)據(jù)以及數(shù)據(jù)攜帶的噪音幅疼,對(duì)于測(cè)試數(shù)據(jù)會(huì)帶來不確定的推測(cè)。有如下三種方法避免過擬合:
1. 保持模型盡可能地簡(jiǎn)單:通過考量較少的變量和參數(shù)來減少方差昼接,達(dá)到數(shù)據(jù)中消除部分噪音的效果爽篷。
2. 使用交叉檢驗(yàn)的手段如:k-folds cross-validation。
3. 使用正則化的技術(shù)如:LASSO方法來懲罰模型中可能導(dǎo)致過擬合的參數(shù)慢睡。
Q23: What evaluation approaches would you work to gauge the effectiveness of a machine learning model?
問題23:如何評(píng)估你的機(jī)器學(xué)習(xí)模型的有效性逐工?
首先你需要將數(shù)據(jù)分成訓(xùn)練集和測(cè)試集铡溪,或者使用給交叉驗(yàn)證方法分割。然后你需要選擇度量模型表現(xiàn)的metrics泪喊,如F1數(shù)棕硫、準(zhǔn)確率、混淆矩陣等窘俺。更重要的是饲帅,根據(jù)實(shí)際情況你需要理解模型度量的輕微差別复凳,以便于選擇正確的度量標(biāo)準(zhǔn)瘤泪。
Q24: How would you evaluate a logistic regression model?
問題24:如何評(píng)估一個(gè)LR model?
上述問題的一部分育八。你必須演示對(duì)邏輯回歸的典型目標(biāo)(分類对途、預(yù)測(cè)等)的理解,并提供一些示例和用例髓棋。
Q25: What’s the “kernel trick” and how is it useful?
問題25:什么是核技巧实檀,有什么用處?
核技巧使用核函數(shù)按声,確保在高維空間不需要明確計(jì)算點(diǎn)的坐標(biāo)膳犹,而是計(jì)算數(shù)據(jù)的特征空間中的內(nèi)積。這使其具有一個(gè)很有用的屬性:更容易的計(jì)算高維空間中點(diǎn)的坐標(biāo)签则。許多算法都可以表示稱這樣的內(nèi)積形式须床,使用核技巧可以保證低維數(shù)據(jù)在高維空間中運(yùn)用算法進(jìn)行計(jì)算。
Q26: How do you handle missing or corrupted data in a dataset?
問題26:如何處理數(shù)據(jù)集中丟失或損壞的數(shù)據(jù)渐裂?
您可以在數(shù)據(jù)集中找到丟失/損壞的數(shù)據(jù)豺旬,然后刪除這些行或列,或者決定用另一個(gè)值替換它們柒凉。
在pandas中族阅,有兩種非常有用的方法:isNull()和dropna(),這兩種方法將幫助您查找缺少或損壞數(shù)據(jù)的數(shù)據(jù)列膝捞,并刪除這些值坦刀。如果要用占位符值(例如0)填充無效值,可以使用fillna()方法蔬咬。
Q27: Do you have experience with Spark or big data tools for machine learning?
問題27:你是否有使用Spark或大數(shù)據(jù)工具進(jìn)行機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)求泰?
您需要熟悉不同公司的大數(shù)據(jù)含義以及他們想要的不同工具。Spark是目前最受歡迎的大數(shù)據(jù)工具计盒,能夠快速處理海量數(shù)據(jù)集渴频。老實(shí)說,如果你沒有所需工具的經(jīng)驗(yàn)北启,同時(shí)看看工作描述卜朗,看看什么工具需要:你會(huì)想投資去熟悉它們拔第。
Q28: Pick an algorithm. Write the ****psuedo-code for a parallel implementation.
問題28:選擇一個(gè)算法。為并行實(shí)現(xiàn)編寫psuedo代碼场钉。
這類問題展示了您并行思考的能力蚊俺,以及如何在處理大數(shù)據(jù)的編程實(shí)現(xiàn)中處理并發(fā)性。請(qǐng)看一下偽代碼框架(如peril-L)和可視化工具(如Web序列圖)逛万,以幫助您展示編寫反映并行性的代碼的能力泳猬。
Q29: What are some differences between a linked list and an array?
問題29:鏈表和數(shù)組之間有什么區(qū)別?
數(shù)組是有序的對(duì)象集合宇植。 鏈表是一系列帶有指針的對(duì)象得封,指示如何按順序處理它們。 與鏈表不同指郁,數(shù)組假定每個(gè)元素具有相同的大小忙上。 鏈表可以更容易地有機(jī)增長(zhǎng):必須預(yù)先定義或重新定義陣列以進(jìn)行有機(jī)增長(zhǎng)。 改組鏈接列表涉及改變哪些點(diǎn)指向哪里 – 同時(shí)闲坎,改組數(shù)組更復(fù)雜并占用更多內(nèi)存疫粥。
Q30: Describe a hash table.
問題30:描述哈希表。
哈希表是一種產(chǎn)生關(guān)聯(lián)數(shù)組的數(shù)據(jù)結(jié)構(gòu)腰懂。 通過使用散列函數(shù)將鍵映射到某些值梗逮。 它們通常用于數(shù)據(jù)庫(kù)索引等任務(wù)。
Q31: Which data visualization libraries do you use? What are your thoughts on the best data visualization tools?
問題31:你使用哪些數(shù)據(jù)可視化庫(kù)绣溜? 你對(duì)最佳數(shù)據(jù)可視化工具有何看法慷彤?
這里重要的是定義您對(duì)如何在工具方面正確可視化數(shù)據(jù)和個(gè)人偏好的看法。 流行的工具包括R的ggplot涮毫,Python的seaborn和matplotlib瞬欧,以及Plot.ly和Tableau等工具。
這些機(jī)器學(xué)習(xí)面試問題涉及如何將您的一般機(jī)器學(xué)習(xí)知識(shí)應(yīng)用于特定公司的要求罢防。 您將被要求創(chuàng)建案例研究艘虎,并通過您的機(jī)器學(xué)習(xí)技能擴(kuò)展您所申請(qǐng)的公司和行業(yè)的知識(shí)。
Q32: How would you implement a recommendation system for our company’s users?
問題32:您如何為我們公司的用戶實(shí)施推薦系統(tǒng)咒吐?
許多這種類型的機(jī)器學(xué)習(xí)面試問題將涉及機(jī)器學(xué)習(xí)模型的實(shí)施以解決公司的問題野建。 您必須深入研究公司及其行業(yè),尤其是公司的收入驅(qū)動(dòng)因素恬叹,以及公司在其所在行業(yè)中所采用的用戶類型候生。
Q33: How can we use your machine learning skills to generate revenue?
問題33:我們?nèi)绾卫媚臋C(jī)器學(xué)習(xí)技能來創(chuàng)造收入?
這是一個(gè)棘手的問題绽昼。理想的答案將證明您對(duì)推動(dòng)業(yè)務(wù)發(fā)展的因素以及您的技能如何關(guān)聯(lián)的了解唯鸭。例如,如果你正在面試音樂流初創(chuàng)公司Spotify硅确,你可以說目溉,你在開發(fā)更好的推薦模式方面的技能將增加用戶保留率明肮,從長(zhǎng)遠(yuǎn)來看這將增加收入。
上面鏈接的Startup Metrics Slideshare將幫助您準(zhǔn)確了解在考慮支出和成長(zhǎng)時(shí)缭付,哪些績(jī)效指標(biāo)對(duì)初創(chuàng)技術(shù)公司是重要的柿估。
Q34: What do you think of our current data process?
問題34:你認(rèn)為我們當(dāng)前的數(shù)據(jù)處理過程如何?
這類問題要求你認(rèn)真傾聽陷猫,并以富有建設(shè)性和洞察力的方式傳達(dá)反饋秫舌。 你的面試官正在試圖判斷您是否是他們團(tuán)隊(duì)中的重要成員,以及你是否根據(jù)公司或行業(yè)特定條件绣檬,掌握了為什么某些事情按照公司數(shù)據(jù)流程的方式設(shè)置的細(xì)微差別足陨。 他們?cè)噲D看看你是否可以成為有見地同行。 隨行而動(dòng)河咽。
這一系列的機(jī)器學(xué)習(xí)面試問題試圖衡量你對(duì)機(jī)器學(xué)習(xí)的熱情和興趣钠右。正確的答案將作為你承諾終身學(xué)習(xí)機(jī)器學(xué)習(xí)的證明赋元。
Q35: What are the last machine learning papers you’ve read?
問題35:你讀過的最后一篇機(jī)器學(xué)習(xí)論文是什么忘蟹?
如果你想表現(xiàn)出對(duì)機(jī)器學(xué)習(xí)職位的興趣,就必須掌握最新的機(jī)器學(xué)習(xí)科學(xué)文獻(xiàn)搁凸。這篇深入學(xué)習(xí)的后代(從Hinton到Bengio再到LeCun)對(duì)自然的深入學(xué)習(xí)的概述可以是一篇很好的參考論文媚值,也可以是一篇深入學(xué)習(xí)中正在發(fā)生的事情的概述,以及你可能想引用的那種論文护糖。
Q36: Do you have research experience in machine learning?
問題36:你在機(jī)器學(xué)習(xí)方面有研究經(jīng)驗(yàn)嗎褥芒?
與最后一點(diǎn)相關(guān)的是,大多數(shù)為機(jī)器學(xué)習(xí)職位招聘的組織都會(huì)尋找你在該領(lǐng)域的正式經(jīng)驗(yàn)嫡良。由該領(lǐng)域的先行者共同撰寫或監(jiān)督的研究論文锰扶,可以使你在被雇傭和不被雇傭之間產(chǎn)生差異。確保你已經(jīng)準(zhǔn)備好了一份關(guān)于你的研究經(jīng)驗(yàn)和論文的總結(jié)寝受,如果你不準(zhǔn)備的話坷牛,還要對(duì)你的背景和缺乏正式研究經(jīng)驗(yàn)做出解釋。
Q37: What are your favorite use cases of machine learning models?
問題37:你最喜歡的機(jī)器學(xué)習(xí)模型的用例是什么很澄?
這里我們拿 Quora 上面的一個(gè)帖子為例京闰,帖子在這里:https://bit.ly/2MGYyQY
上面的 Quora 帖子里包含一些示例,例如決策樹甩苛,它根據(jù)智商分?jǐn)?shù)將人們分類為不同的智力層次蹂楣。確保你心里有幾個(gè)例子,并描述與你產(chǎn)生共鳴的地方讯蒲。重要的是你要對(duì)機(jī)器學(xué)習(xí)的實(shí)現(xiàn)方式表現(xiàn)出興趣痊土。
Q38:How would you approach the “Netflix Prize” competition?
問題38:你想以什么方式贏得“Netflix獎(jiǎng)”比賽?
Netflix獎(jiǎng)是一項(xiàng)著名的競(jìng)賽墨林,Netflix提供了 $1,000,000的獎(jiǎng)金赁酝,以獲得更好的協(xié)同過濾算法(collaborative filtering algorithm)反浓。關(guān)于這個(gè)比賽的最后贏家, BellKor赞哗;他們讓這個(gè)算法效率提升百分之十雷则,并且給出了多種解法。多了解這些行業(yè)相關(guān)的 Case 并且和你面試官侃侃而談能夠體現(xiàn)你對(duì)于機(jī)器學(xué)習(xí)這個(gè)領(lǐng)域的關(guān)注
Q39: Where do you usually source datasets?
問題39:您通常在哪里尋找數(shù)據(jù)集肪笋?
像這樣的機(jī)器學(xué)習(xí)面試問題試圖讓你了解機(jī)器學(xué)習(xí)興趣的核心月劈。 真正熱衷于機(jī)器學(xué)習(xí)的人將會(huì)獨(dú)自完成側(cè)面項(xiàng)目,并且很清楚那些偉大的數(shù)據(jù)集是什么藤乙。 如果您遺失任何內(nèi)容猜揪,請(qǐng)查看 Quandl 獲取的經(jīng)濟(jì)和財(cái)務(wù)數(shù)據(jù),以及 Kaggle 的數(shù)據(jù)集集合坛梁,以獲取其他優(yōu)秀列表而姐。
Q40: How do you think Google is training data for self-driving cars?
問題40:你認(rèn)為谷歌是如何為自動(dòng)駕駛汽車提供培訓(xùn)數(shù)據(jù)的?
像這樣的機(jī)器學(xué)習(xí)面試問題確實(shí)測(cè)試了你對(duì)不同機(jī)器學(xué)習(xí)方法的知識(shí)划咐,如果你不知道答案拴念,你的創(chuàng)造力。谷歌目前正在使用 recaptcha 來獲取店面和交通標(biāo)志上的標(biāo)簽數(shù)據(jù)褐缠。他們還建立在由Sebastian Thrun在谷歌(Googlex)收集的培訓(xùn)數(shù)據(jù)的基礎(chǔ)上 — 其中一些數(shù)據(jù)是由他在沙漠沙丘上駕駛馬車的研究生獲得的政鼠!
Q41: How would you simulate the approach AlphaGo took to beat Lee Sedol at Go?
問題41:你將如何模擬阿爾法戈在圍棋中****擊敗李世乭的****方法?
在五個(gè)系列賽中队魏,阿爾法戈擊敗了圍棋中最優(yōu)秀的人類選手李思多公般,這是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)史上一個(gè)真正具有開創(chuàng)性的事件。上面的 Nature 論文描述了這是如何通過“蒙特卡洛樹搜索(Monte Carlo Tree Search)和深神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks)來實(shí)現(xiàn)的胡桨,這些神經(jīng)網(wǎng)絡(luò)經(jīng)過有監(jiān)督的學(xué)習(xí)官帘、人類專家游戲和加強(qiáng)自玩游戲的學(xué)習(xí)∶烈辏”
看完這篇文章刽虹,你是不是覺得自己在機(jī)器學(xué)習(xí)的道理上可以走的更順暢了呢