1
比較Boosting和Bagging的異同
二者都是集成學(xué)習(xí)算法,都是將多個(gè)弱學(xué)習(xí)器組合成強(qiáng)學(xué)習(xí)器的方法冗荸。
Bagging:從原始數(shù)據(jù)集中每一輪有放回地抽取訓(xùn)練集嘹裂,訓(xùn)練得到k個(gè)弱學(xué)習(xí)器冬竟,將這k個(gè)弱學(xué)習(xí)器以投票的方式得到最終的分類結(jié)果贼穆。
Boosting:每一輪根據(jù)上一輪的分類結(jié)果動(dòng)態(tài)調(diào)整每個(gè)樣本在分類器中的權(quán)重页畦,訓(xùn)練得到k個(gè)弱分類器改艇,他們都有各自的權(quán)重俗慈,通過(guò)加權(quán)組合的方式得到最終的分類結(jié)果。
2
無(wú)監(jiān)督學(xué)習(xí)中存在過(guò)擬合嗎遣耍?
存在闺阱。我們可以使用無(wú)監(jiān)督學(xué)習(xí)的某些指標(biāo)或人為地去評(píng)估模型性能,以此來(lái)判斷是否過(guò)擬合舵变。
3
什么是k折交叉驗(yàn)證酣溃?
將原始數(shù)據(jù)集劃分為k個(gè)子集,將其中一個(gè)子集作為驗(yàn)證集纪隙,其余k-1個(gè)子集作為訓(xùn)練集赊豌,如此訓(xùn)練和驗(yàn)證一輪稱為一次交叉驗(yàn)證。交叉驗(yàn)證重復(fù)k次绵咱,每個(gè)子集都做一次驗(yàn)證集碘饼,得到k個(gè)模型,加權(quán)平均k個(gè)模型的結(jié)果作為評(píng)估整體模型的依據(jù)。
4
關(guān)于k折交叉驗(yàn)證艾恼,需要注意什么住涉?
k越大,不一定效果越好钠绍,而且越大的k會(huì)加大訓(xùn)練時(shí)間舆声;在選擇k時(shí),需要考慮最小化數(shù)據(jù)集之間的方差柳爽,比如對(duì)于2分類任務(wù)媳握,采用2折交叉驗(yàn)證,即將原始數(shù)據(jù)集對(duì)半分磷脯,若此時(shí)訓(xùn)練集中都是A類別蛾找,驗(yàn)證集中都是B類別,則交叉驗(yàn)證效果會(huì)非常差赵誓。
5
對(duì)于一個(gè)二分類問題打毛,我們定義超過(guò)閾值t的判定為正例,否則判定為負(fù)例〖懿埽現(xiàn)在若將t增大隘冲,則準(zhǔn)確率和召回率會(huì)如何變化?
準(zhǔn)確率 = TP / (TP + FP)绑雄,召回率 = TP / (TP + FN)展辞,其中TP表示將正例正確分類為正例的數(shù)量,F(xiàn)P表示將負(fù)例錯(cuò)誤分類為正例的數(shù)量万牺,F(xiàn)N表示將正例錯(cuò)誤分類為負(fù)例的數(shù)量罗珍。
準(zhǔn)確率可以理解為在所有分類為正例的樣品中,分類正確的樣本所占比例脚粟;召回率可以理解為在所有原始數(shù)據(jù)集中的正例樣品中覆旱,正確挑出的正例樣本的比例。
因此若增大閾值t核无,更多不確定(分類概率較锌鄢)的樣本將會(huì)被分為負(fù)例,剩余確定(分類概率較大)的樣本所占比例將會(huì)增大(或不變)团南,即正確率會(huì)增大(或不變)噪沙;若增大閾值t,則可能將部分不確定(分類概率較型赂)的正例樣品誤分類為負(fù)例正歼,即召回率會(huì)減小(或不變)拷橘。
6
以下關(guān)于神經(jīng)網(wǎng)絡(luò)的說(shuō)法中局义,正確的是( )喜爷?
A.增加網(wǎng)絡(luò)層數(shù),總能減小訓(xùn)練集錯(cuò)誤率
B.減小網(wǎng)絡(luò)層數(shù)萄唇,總能減小測(cè)試集錯(cuò)誤率
C.增加網(wǎng)絡(luò)層數(shù)檩帐,可能增加測(cè)試集錯(cuò)誤率
答案:C。增加神經(jīng)網(wǎng)絡(luò)層數(shù)穷绵,確實(shí)可能提高模型的泛化性能轿塔,但不能絕對(duì)地說(shuō)更深的網(wǎng)絡(luò)能帶來(lái)更小的錯(cuò)誤率特愿,還是要根據(jù)實(shí)際應(yīng)用來(lái)判斷仲墨,比如會(huì)導(dǎo)致過(guò)擬合等問題,因此只能選C揍障。
7
說(shuō)明Lp范數(shù)間的區(qū)別
L1范數(shù):向量中各個(gè)元素絕對(duì)值之和
L2范數(shù):向量中各個(gè)元素平方和的開二次方根
Lp范數(shù):向量中各個(gè)元素絕對(duì)值的p次方和的開p次方根
8
用梯度下降訓(xùn)練神經(jīng)網(wǎng)絡(luò)的參數(shù)目养,為什么參數(shù)有時(shí)會(huì)被訓(xùn)練為nan值?
輸入數(shù)據(jù)本身存在nan值毒嫡,或者梯度爆炸了(可以降低學(xué)習(xí)率癌蚁、或者設(shè)置梯度的閾值)
9
卷積神經(jīng)網(wǎng)絡(luò)CNN中池化層有什么作用?
減小圖像尺寸即數(shù)據(jù)降維兜畸,緩解過(guò)擬合努释,保持一定程度的旋轉(zhuǎn)和平移不變性。
10
請(qǐng)列舉幾種常見的激活函數(shù)咬摇。激活函數(shù)有什么作用伐蒂?
sigmoidrelu,tanh肛鹏。非線性化
11
神經(jīng)網(wǎng)絡(luò)中Dropout的作用逸邦?具體是怎么實(shí)現(xiàn)的?
防止過(guò)擬合在扰。每次訓(xùn)練缕减,都對(duì)每個(gè)神經(jīng)網(wǎng)絡(luò)單元,按一定概率臨時(shí)丟棄芒珠。
12
利用梯度下降法訓(xùn)練神經(jīng)網(wǎng)絡(luò)桥狡,發(fā)現(xiàn)模型loss不變,可能有哪些問題皱卓?怎么解決裹芝?
很有可能是梯度消失了,它表示神經(jīng)網(wǎng)絡(luò)迭代更新時(shí)好爬,有些權(quán)值不更新的現(xiàn)象局雄。改變激活函數(shù),改變權(quán)值的初始化等存炮。
13
如何解決不平衡數(shù)據(jù)集的分類問題炬搭?
可以擴(kuò)充數(shù)據(jù)集蜈漓,對(duì)數(shù)據(jù)重新采樣,改變?cè)u(píng)價(jià)指標(biāo)等宫盔。
14
殘差網(wǎng)絡(luò)為什么能做到很深層融虽?
神經(jīng)網(wǎng)絡(luò)在反向傳播過(guò)程中要不斷地傳播梯度,而當(dāng)網(wǎng)絡(luò)層數(shù)加深時(shí)灼芭,梯度在逐層傳播過(guò)程中會(huì)逐漸衰減有额,導(dǎo)致無(wú)法對(duì)前面網(wǎng)絡(luò)層的權(quán)重進(jìn)行有效的調(diào)整。殘差網(wǎng)絡(luò)中彼绷, 加入了short connections 為梯度帶來(lái)了一個(gè)直接向前面層的傳播通道巍佑,緩解了梯度的減小問題。
15
相比sigmoid激活函數(shù)ReLU激活函數(shù)有什么優(yōu)勢(shì)寄悯?
(1) 防止梯度消失 (sigmoid的導(dǎo)數(shù)只有在0附近的時(shí)候有比較好的激活性萤衰,在正負(fù)飽和區(qū)的梯度都接近于0)
(2) ReLU的輸出具有稀疏性
(3) ReLU函數(shù)簡(jiǎn)單計(jì)算速度快?
16
卷積神經(jīng)網(wǎng)絡(luò)中空洞卷積的作用是什么?
空洞卷積也叫擴(kuò)張卷積猜旬,在保持參數(shù)個(gè)數(shù)不變的情況下增大了卷積核的感受野脆栋,同時(shí)它可以保證輸出的特征映射(feature map)的大小保持不變。一個(gè)擴(kuò)張率為2的3×3卷積核洒擦,感受野與5×5的卷積核相同椿争,但參數(shù)數(shù)量?jī)H為9個(gè)。
17
解釋下卷積神經(jīng)網(wǎng)絡(luò)中感受野的概念熟嫩?
在卷積神經(jīng)網(wǎng)絡(luò)中秦踪,感受野 (receptive field)的定義是:卷積神經(jīng)網(wǎng)絡(luò)每一層輸出的特征圖(feature map)上的像素點(diǎn)在原始圖像上映射的區(qū)域大小。
18
模型欠擬合什么情況下會(huì)出現(xiàn)邦危?有什么解決方案洋侨?
模型復(fù)雜度過(guò)低,不能很好的擬合所有的數(shù)據(jù)
增加模型復(fù)雜度倦蚪,如采用高階模型(預(yù)測(cè))或者引入更多特征(分類)等?
19
適用于移動(dòng)端部署的網(wǎng)絡(luò)結(jié)構(gòu)都有哪些希坚?
Mobilenet(https://arxiv.org/abs/1704.04861)
Shufflenet(https://arxiv.org/abs/1707.01083)
Xception(https://arxiv.org/abs/1610.02357)?
20
卷積神經(jīng)網(wǎng)絡(luò)中im2col是如何實(shí)現(xiàn)的?
使用im2col的方法將劃窗卷積轉(zhuǎn)為兩個(gè)大的矩陣相乘陵且,見下圖:
21
多任務(wù)學(xué)習(xí)中標(biāo)簽缺失如何處理裁僧?
一般做法是將缺失的標(biāo)簽設(shè)置特殊標(biāo)志,在計(jì)算梯度的時(shí)候忽略慕购。
22
梯度爆炸的解決方法聊疲?
針對(duì)梯度爆炸問題,解決方案是引入Gradient Clipping(梯度裁剪)沪悲。通過(guò)Gradient Clipping获洲,將梯度約束在一個(gè)范圍內(nèi),這樣不會(huì)使得梯度過(guò)大殿如。
23
深度學(xué)習(xí)模型參數(shù)初始化都有哪些方法贡珊?
(1)Gaussian 滿足mean=0最爬,std=1的高斯分布x~N(mean,std2)
(2)Xavier 滿足x~U(?a,+a)x~U(?a,+a)的均勻分布门岔, 其中?a = sqrt(3/n)
(3)MSRA 滿足x~N(0,σ2)x~N(0,σ2)的高斯分布爱致,其中σ?= sqrt(2/n)
(4)Uniform 滿足min=0,max=1的均勻分布。x~U(min,max)x~U(min,max)
等等?
24
注意力機(jī)制在深度學(xué)習(xí)中的作用是什么寒随?有哪些場(chǎng)景會(huì)使用糠悯?
深度學(xué)習(xí)中的注意力機(jī)制從本質(zhì)上講和人類的選擇性視覺注意力機(jī)制類似,核心目標(biāo)是從大量信息中有選擇地篩選出少量重要信息并聚焦到這些重要信息上妻往,忽略大多不重要的信息互艾。
目前在神經(jīng)機(jī)器翻譯(Neural Machine Translation)、圖像理解(Image caption)等場(chǎng)景都有廣泛應(yīng)用蒲讯。
25
卷積神經(jīng)網(wǎng)絡(luò)為什么會(huì)具有平移等不變性忘朝?
MaxPooling能保證卷積神經(jīng)網(wǎng)絡(luò)在一定范圍內(nèi)平移特征能得到同樣的激勵(lì)灰署,具有平移不變形。
26
神經(jīng)網(wǎng)絡(luò)參數(shù)共享(parameter sharing)是指什么?
所謂的權(quán)值共享就是說(shuō)敲才,用一個(gè)卷積核去卷積一張圖孤钦,這張圖每個(gè)位置是被同樣數(shù)值的卷積核操作的,權(quán)重是一樣的肴茄,也就是參數(shù)共享晌畅。
27
如何提高小型網(wǎng)絡(luò)的精度?
(1)模型蒸餾技術(shù)(https://arxiv.org/abs/1503.02531)
(2)利用AutoML進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化寡痰,可將網(wǎng)絡(luò)計(jì)算復(fù)雜度作為約束條件之一抗楔,得到更優(yōu)的結(jié)構(gòu)。(https://arxiv.org/abs/1807.11626)
28
什么是神經(jīng)網(wǎng)絡(luò)的梯度消失問題拦坠,為什么會(huì)有梯度消失問題连躏?有什么辦法能緩解梯度消失問題?
在反向傳播算法計(jì)算每一層的誤差項(xiàng)的時(shí)候贞滨,需要乘以本層激活函數(shù)的導(dǎo)數(shù)值入热,如果導(dǎo)數(shù)值接近于0,則多次乘積之后誤差項(xiàng)會(huì)趨向于0晓铆,而參數(shù)的梯度值通過(guò)誤差項(xiàng)計(jì)算勺良,這會(huì)導(dǎo)致參數(shù)的梯度值接近于0,無(wú)法用梯度下降法來(lái)有效的更新參數(shù)的值骄噪。
改進(jìn)激活函數(shù)尚困,選用更不容易飽和的函數(shù),如ReLU函數(shù)链蕊。
29
列舉你所知道的神經(jīng)網(wǎng)絡(luò)中使用的損失函數(shù)
歐氏距離事甜,交叉熵忙芒,對(duì)比損失,合頁(yè)損失
30
對(duì)于多分類問題讳侨,為什么神經(jīng)網(wǎng)絡(luò)一般使用交叉熵而不用歐氏距離損失呵萨?
交叉熵在一般情況下更容易收斂到一個(gè)更好的解。
31
1x1卷積有什么用途跨跨?
通道降維潮峦,保證卷積神經(jīng)網(wǎng)絡(luò)可以接受任何尺寸的輸入數(shù)據(jù)
32
隨機(jī)梯度下降法,在每次迭代時(shí)能保證目標(biāo)函數(shù)值一定下降嗎勇婴?為什么忱嘹?
不能,每次迭代時(shí)目標(biāo)函數(shù)不一樣
33
梯度下降法耕渴,為什么需要設(shè)置一個(gè)學(xué)習(xí)率拘悦?
使得迭代之后的值在上次值的鄰域內(nèi),保證可以忽略泰勒展開中的二次及二次以上的項(xiàng)
34
解釋梯度下降法中動(dòng)量項(xiàng)的作用
利用之前迭代時(shí)的梯度值橱脸,減小震蕩
35
為什么現(xiàn)在傾向于用小尺寸的卷積核础米?
用多個(gè)小卷積核串聯(lián)可以有大卷積核同樣的能力,而且參數(shù)更少添诉,另外有更多次的激活函數(shù)作用屁桑,增強(qiáng)非線性
36
解釋GoogLeNet的Inception模塊的原理
對(duì)輸入圖像用多個(gè)不同尺寸的卷積核、池化操作進(jìn)行同時(shí)處理栏赴,然后將輸出結(jié)果按照通道拼接起來(lái)
37
解釋反卷積的原理和用途
反卷積即轉(zhuǎn)置卷積蘑斧,正向傳播時(shí)乘以卷積核的轉(zhuǎn)置矩陣,反向傳播時(shí)乘以卷積核矩陣
由卷積輸出結(jié)果近似重構(gòu)輸入數(shù)據(jù)须眷,上采樣
38
解釋批量歸一化的原理
在數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)的某一層進(jìn)行處理之前竖瘾,對(duì)數(shù)據(jù)做歸一化。按照訓(xùn)練樣本的批量進(jìn)行處理花颗,先減掉這批樣本的均值捕传,然后除以標(biāo)準(zhǔn)差,然后進(jìn)行縮放和平移捎稚±趾幔縮放和平移參數(shù)同訓(xùn)練得到。預(yù)測(cè)時(shí)使用訓(xùn)練時(shí)確定的這些值來(lái)計(jì)算
39
解釋SVM核函數(shù)的原理
核函數(shù)將數(shù)據(jù)映射到更高維的空間后處理今野,但不用做這種顯式映射葡公,而是先對(duì)兩個(gè)樣本向量做內(nèi)積,然后用核函數(shù)映射条霜。這等價(jià)于先進(jìn)行映射催什,然后再做內(nèi)積。
40
什么是過(guò)擬合宰睡,過(guò)擬合產(chǎn)生的原因是什么蒲凶?有什么方法能減輕過(guò)擬合气筋?
過(guò)擬合指在訓(xùn)練集上表現(xiàn)的很好,但在測(cè)試集上表現(xiàn)很差旋圆,推廣泛化能力差宠默。產(chǎn)生過(guò)擬合的原因是訓(xùn)練樣本的抽樣誤差,訓(xùn)練時(shí)擬合了這種誤差灵巧。增加訓(xùn)練樣本搀矫,尤其是樣本的代表性;正則化
41
什么樣的函數(shù)可以用作激活函數(shù)刻肄?
非線性瓤球,幾乎處處可到,單調(diào)
42
什么是鞍點(diǎn)問題敏弃?
梯度為0卦羡,Hessian矩陣不定的點(diǎn),不是極值點(diǎn)
43
在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的過(guò)程中麦到,遇到過(guò)哪些問題绿饵,怎么解決的?
不收斂隅要,收斂太慢蝴罪,泛化能力差。調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)步清,調(diào)整樣本,調(diào)整學(xué)習(xí)率虏肾,調(diào)整參數(shù)初始化策略
44
SVM如何解決多分類問題
多個(gè)二分類器組合廓啊。1對(duì)1方案,1對(duì)剩余方案封豪,多類損失函數(shù)
45
列舉你知道的聚類算法
層次聚類谴轮,k均值算法,DBSCAN算法吹埠,OPTICS算法第步,譜聚類
46
K均值算法中,初始類中心怎么確定
隨機(jī)選擇K個(gè)樣本作為類中心缘琅,將樣本隨機(jī)劃分成K個(gè)子集然后計(jì)算類中心
47
簡(jiǎn)述EM算法的原理
EM算法用于求解帶有隱變量的最大似然估計(jì)問題粘都。由于有隱變量的存在,無(wú)法直接用最大似然估計(jì)求得對(duì)數(shù)似然函數(shù)極大值的公式解刷袍。此時(shí)通過(guò)jensen不等式構(gòu)造對(duì)數(shù)似然函數(shù)的下界函數(shù)翩隧,然后優(yōu)化下界函數(shù),再用估計(jì)出的參數(shù)值構(gòu)造新的下界函數(shù)呻纹,反復(fù)迭代直至收斂到局部極小值點(diǎn)堆生。
1专缠、為什么隨機(jī)森林能降低方差?
隨機(jī)森林的預(yù)測(cè)輸出值是多課決策樹的均值淑仆,如果有n個(gè)獨(dú)立同分布的隨機(jī)變量xi涝婉,它們的方差都為σ2,則它們的均值的方差為:
2蔗怠、對(duì)于帶等式和不等式約束的優(yōu)化問題嘁圈,KKT條件是取得極值的充分條件還是必要條件?對(duì)于SVM呢蟀淮?
對(duì)于一個(gè)一般的問題最住,KKT條件是取得極值的必要條件而不是充分條件。對(duì)于凸優(yōu)化問題怠惶,則是充分條件涨缚,SVM是凸優(yōu)化問題
?3、解釋維數(shù)災(zāi)難的概念
當(dāng)特征向量數(shù)理很少時(shí)策治,增加特征脓魏,可以提高算法的精度,但當(dāng)特征向量的維數(shù)增加到一定數(shù)量之后通惫,再增加特征茂翔,算法的精度反而會(huì)下降
4、Logistic回歸為什么用交叉熵而不用歐氏距離做損失函數(shù)履腋?
如果用歐氏距離珊燎,不是凸函數(shù),而用交叉熵則是凸函數(shù)
?5遵湖、解釋hinge loss損失函數(shù)
如果樣本沒有違反不等式約束悔政,則損失為0;如果違反約束延旧,則有一個(gè)正的損失值
?6谋国、解釋GBDT的核心思想
用加法模擬,更準(zhǔn)確的說(shuō)迁沫,是多棵決策樹樹來(lái)擬合一個(gè)目標(biāo)函數(shù)芦瘾。每一棵決策樹擬合的是之前迭代得到的模型的殘差。求解的時(shí)候集畅,對(duì)目標(biāo)函數(shù)使用了一階泰勒展開近弟,用梯度下降法來(lái)訓(xùn)練決策樹
?7、解釋XGBoost的核心思想
在GBDT的基礎(chǔ)上牡整,目標(biāo)函數(shù)增加了正則化項(xiàng)藐吮,并且在求解時(shí)做了二階泰勒展開
8、解釋DQN中的經(jīng)驗(yàn)回放機(jī)制,為什么需要這種機(jī)制谣辞?
將執(zhí)行動(dòng)作后得到的狀態(tài)轉(zhuǎn)移構(gòu)造的樣本存儲(chǔ)在一個(gè)列表中迫摔,然后從中隨機(jī)抽樣,來(lái)訓(xùn)練Q網(wǎng)絡(luò)泥从。為了解決訓(xùn)練樣本之間的相關(guān)性句占,以及訓(xùn)練樣本分布變化的問題
9、什么是反卷積躯嫉?
反卷積也稱為轉(zhuǎn)置卷積纱烘,如果用矩陣乘法實(shí)現(xiàn)卷積操作,將卷積核平鋪為矩陣祈餐,則轉(zhuǎn)置卷積在正向計(jì)算時(shí)左乘這個(gè)矩陣的轉(zhuǎn)置WT擂啥,在反向傳播時(shí)左乘W,與卷積操作剛好相反帆阳,需要注意的是哺壶,反卷積不是卷積的逆運(yùn)算
10、反卷積有哪些用途蜒谤?
實(shí)現(xiàn)上采樣山宾;近似重構(gòu)輸入圖像,卷積層可視化
11鳍徽、PCA(主成分分析)優(yōu)化的目標(biāo)是什么资锰?
最小化重構(gòu)誤差/最大化投影后的方差
12、LDA(線性判別分析)優(yōu)化的目標(biāo)是什么阶祭?
最大化類間差異與類內(nèi)差異的比值
?13绷杜、解釋神經(jīng)網(wǎng)絡(luò)的萬(wàn)能逼近定理
只要激活函數(shù)選擇得當(dāng),神經(jīng)元的數(shù)理足夠胖翰,至少有一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)可以逼近閉區(qū)間上任意一個(gè)連續(xù)函數(shù)到任意指定的精度
14接剩、softmax回歸訓(xùn)練時(shí)的目標(biāo)函數(shù)時(shí)凸函數(shù)嗎?
是萨咳,但有不止一個(gè)全局最優(yōu)解
15、SVM為什么要求解對(duì)偶問題疫稿?為什么對(duì)偶問題與原問題等價(jià)培他?
原問題不容易求解,含有大量的不易處理的不等式約束遗座。原問題滿足Slater條件舀凛,強(qiáng)對(duì)偶成立,因此原問題與對(duì)偶問題等價(jià)
16途蒋、神經(jīng)網(wǎng)絡(luò)是生成模型還是判別模型猛遍?
判別模型,直接輸出類別標(biāo)簽,或者輸出類后驗(yàn)概率p(y|x)
17懊烤、logistic回歸是生成模型還是判別模型梯醒?
判別模型,直接輸出類后驗(yàn)概率p(y|x)腌紧,沒有對(duì)類條件概率p(x|y)或者聯(lián)合概率p(x, y)建模
18茸习、Batch Normalization 和 Group Normalization有何區(qū)別?
BN是在 batch這個(gè)維度上進(jìn)行歸一化壁肋,GN是計(jì)算channel方向每個(gè)group的均值和方差
19号胚、GAN中模型坍塌(model collapse)是指什么?
模型坍塌浸遗,即產(chǎn)生的樣本單一猫胁,沒有了多樣性。
20跛锌、目前GAN訓(xùn)練中存在的主要問題是什么弃秆?
(1) 訓(xùn)練不易收斂 (2)模型坍塌??
21、Shufflenet為什么效果會(huì)好察净?
通過(guò)引入“通道重排”增加了組與組之間信息交換驾茴。
22、模型壓縮的主要方法有哪些氢卡?
(1)從模型結(jié)構(gòu)上優(yōu)化:模型剪枝锈至、模型蒸餾、automl直接學(xué)習(xí)出簡(jiǎn)單的結(jié)構(gòu)
(2)模型參數(shù)量化將FP32的數(shù)值精度量化到FP16译秦、INT8峡捡、二值網(wǎng)絡(luò)、三值網(wǎng)絡(luò)等
23筑悴、目標(biāo)檢測(cè)中IOU是如何計(jì)算的们拙?
檢測(cè)結(jié)果與 Ground Truth 的交集比上它們的并集,即為檢測(cè)的準(zhǔn)確率 IoU
24阁吝、給定0-1矩陣砚婆,如何求連通域?
可采用廣度優(yōu)先搜索
25突勇、OCR任務(wù)中文本序列識(shí)別的主流方法是什么装盯?
RNN+CTC
26、在神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)中甲馋,哪些會(huì)有權(quán)重共享埂奈??
(1)卷積神經(jīng)網(wǎng)絡(luò)
(2)遞歸神經(jīng)網(wǎng)絡(luò)
(3)全連接網(wǎng)絡(luò)
答案 (1)&(2)
27定躏、一個(gè)典型人臉識(shí)別系統(tǒng)的識(shí)別流程账磺?
人臉檢測(cè)--》人臉對(duì)齊--》人臉特征提取--》人臉特征比對(duì)
28芹敌、平面內(nèi)有兩個(gè)矩形,如何快速計(jì)算它們的IOU垮抗?
29氏捞、使用深度卷積網(wǎng)絡(luò)做圖像分類如果訓(xùn)練一個(gè)擁有1000萬(wàn)個(gè)類的模型會(huì)碰到什么問題?
提示:內(nèi)存/顯存占用借宵;模型收斂速度等
30幌衣、HMM和CRF的區(qū)別?
前者描述的是 P(X,Y)=P(X|Y)*P(Y), 是 generative model; 后者描述的是 P(Y|X), 是 discriminative model. 前者你要加入對(duì)狀態(tài)概率分布的先驗(yàn)知識(shí)壤玫,而后者完全是 data driven豁护。
31、深度學(xué)習(xí)中為什么不用二階導(dǎo)去優(yōu)化欲间?
Hessian矩陣是n*n楚里,?在高維情況下這個(gè)矩陣非常大,計(jì)算和存儲(chǔ)都是問題
32猎贴、深度機(jī)器學(xué)習(xí)中的mini-batch的大小對(duì)學(xué)習(xí)效果有何影響班缎?
mini-batch太小會(huì)導(dǎo)致收斂變慢,太大容易陷入sharp minima她渴,泛化性不好
33达址、線性回歸對(duì)于數(shù)據(jù)的假設(shè)是怎樣的?
http://en.wikipedia.org/wiki/Linear_regression??
(1)?線性趁耗,y是多個(gè)自變量x之間的線性組合
(2) 同方差性沉唠,不同的因變量x的方差都是相同的
(3) 弱外生性,假設(shè)用來(lái)預(yù)測(cè)的自變量x是沒有測(cè)量誤差的
(4) 預(yù)測(cè)變量之中沒有多重共線性
?34苛败、什么是共線性, 跟過(guò)擬合有啥關(guān)聯(lián)?
共線性:多變量線性回歸中满葛,變量之間由于存在高度相關(guān)關(guān)系而使回歸估計(jì)不準(zhǔn)確。
共線性會(huì)造成冗余罢屈,導(dǎo)致過(guò)擬合嘀韧。
解決方法:排除變量的相關(guān)性/加入權(quán)重正則。
35缠捌、Bias和Variance的區(qū)別锄贷?
Bias量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度,即刻畫了算法本身的擬合能力曼月。
Variance度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能變化肃叶,即刻畫了數(shù)據(jù)擾動(dòng)所造成的影響。
36十嘿、對(duì)于支持向量機(jī),高斯核一般比線性核有更好的精度岳锁,但實(shí)際應(yīng)用中為什么一般用線性核而不用高斯核绩衷?
如果訓(xùn)練樣本的量很大,訓(xùn)練得到的模型中支持向量的數(shù)量太多,在每次做預(yù)測(cè)時(shí)咳燕,高斯核需要計(jì)算待預(yù)測(cè)樣本與每個(gè)支持向量的內(nèi)積勿决,然后做核函數(shù)變換,這會(huì)非常耗招盲;而線性核只需要計(jì)算WTX+b
37低缩、高斯混合模型中,為什么各個(gè)高斯分量的權(quán)重之和要保證為1曹货?
為了保證這個(gè)函數(shù)時(shí)一個(gè)概率密度函數(shù)咆繁,即積分值為1
?38、介紹beam search算法的原理
這是一種解碼算法顶籽,每次選擇概率最大的幾個(gè)解作為候選解玩般,逐步擴(kuò)展
?39、介紹seq2seq的原理
整個(gè)系統(tǒng)由兩個(gè)RNN組成礼饱,一個(gè)充當(dāng)編碼器坏为,一個(gè)充當(dāng)解碼器;編碼器依次接收輸入的序列數(shù)據(jù)镊绪,當(dāng)最后一個(gè)數(shù)據(jù)點(diǎn)輸入之后匀伏,將循環(huán)層的狀態(tài)向量作為語(yǔ)義向量,與解碼器網(wǎng)絡(luò)的輸入向量一起蝴韭,送入解碼器中進(jìn)行預(yù)測(cè)
?40够颠、介紹CTC的原理
CTC通過(guò)引入空白符號(hào),以及消除連續(xù)的相同符號(hào)万皿,將RNN原始的輸出序列映射為最終的目標(biāo)序列摧找。可以解決對(duì)未對(duì)齊的序列數(shù)據(jù)進(jìn)行預(yù)測(cè)的問題牢硅,如語(yǔ)音識(shí)別
?41蹬耘、介紹廣義加法模型的原理
廣義加法模型用多個(gè)基函數(shù)的和來(lái)擬合目標(biāo)函數(shù),訓(xùn)練的時(shí)候减余,依次確定每個(gè)基函數(shù)
42综苔、為什么很多時(shí)候用正態(tài)分布來(lái)對(duì)隨機(jī)變量建模?
現(xiàn)實(shí)世界中很多變量都服從或近似服從正態(tài)分布位岔。中心極限定理指出如筛,抽樣得到的多個(gè)獨(dú)立同分布的隨機(jī)變量樣本,當(dāng)樣本數(shù)趨向于正無(wú)窮時(shí)抒抬,它們的和服從正態(tài)分布