1. 最小化代價(jià)函數(shù)優(yōu)化方法:BGD初橘、SGD燎窘、MBGD族奢、動(dòng)量女轿、NAG、Adagrad乾颁、AdaDelta涂乌、Adam、AMSGrad英岭、牛頓法湾盒;
2. 前饋神經(jīng)網(wǎng)絡(luò)的隱藏單元不一定在所有的輸入點(diǎn)上可微;
3. CNN最大池化能產(chǎn)生一定程度的平移不變性诅妹;
4. 向量范數(shù)表征向量空間的大蟹9础:
1. CNN:LeNet、AlexNet吭狡、VGGNet尖殃、GoogLeNet、ResNet
數(shù)據(jù)增強(qiáng)技術(shù):翻轉(zhuǎn)划煮、裁剪送丰、縮放、顏色抖動(dòng)弛秋、平移
Batch Size定義:一次訓(xùn)練所選取的樣本數(shù)器躏。
Batch Size影響:影響模型的優(yōu)化程度和速度。同時(shí)其直接影響到GPU內(nèi)存的使用情況蟹略,假如GPU內(nèi)存不大邀桑,該數(shù)值最好設(shè)置小一點(diǎn)。使得梯度下降方向更加準(zhǔn)確
劃分訓(xùn)練集科乎、驗(yàn)證集、測(cè)試集:訓(xùn)練集:驗(yàn)證集:測(cè)試集的劃分比例為6:2:2
一階優(yōu)化方法:RMSProp
深度學(xué)習(xí)關(guān)系圖
1. 什么是深度學(xué)習(xí):表達(dá)學(xué)習(xí)贼急、可擴(kuò)展的機(jī)器學(xué)習(xí)茅茂、生物神經(jīng)網(wǎng)絡(luò)的近似/粗略實(shí)現(xiàn)捏萍、人類的監(jiān)督越來越少、多階段的特征學(xué)習(xí)過程空闲、相較于傳統(tǒng)模式識(shí)別
2. 激活函數(shù)分類
- 合理的稀疏比例:70~80%令杈,屏蔽特征過多容易出現(xiàn)欠擬合。
2. 正則化在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)的作用
正則化可以很好的解決模型過擬合的問題碴倾,常見的正則化方式有L2正則化和dropout逗噩,但是正則化是以犧牲模型的擬合能力來達(dá)到平衡的,因此在對(duì)訓(xùn)練集的擬合中有所損失跌榔。
3. L1正則化和L2正則化
L1正則化可以產(chǎn)生稀疏值矩陣异雁,即產(chǎn)生一個(gè)稀疏模型,可以用于特征選擇和解決過擬合僧须。能夠幫助模型找到重要特征纲刀,而去掉無(wú)用特征或影響甚小的特征。
L2 讓所有特征的系數(shù)都縮小, 但不會(huì)減為0担平,它會(huì)使優(yōu)化求解穩(wěn)定快速示绊。所以L2適用于特征之間沒有關(guān)聯(lián)的情況。
L2正則化可以防止模型過擬合暂论;一定程度上面褐,L1也可以防止過擬合
4. 激活函數(shù)的作用
激活函數(shù)給神經(jīng)元引入了非線性因素,使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù)取胎,深層神經(jīng)網(wǎng)絡(luò)表達(dá)能力更強(qiáng)大展哭,可以應(yīng)用到眾多的非線性模型中。
5. Sigmoid函數(shù)
特點(diǎn):它能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出扼菠,特別的摄杂,如果是非常大的負(fù)數(shù),那么輸出就是0循榆;如果是非常大的正數(shù)析恢,輸出就是1.
缺點(diǎn):在深度神經(jīng)網(wǎng)絡(luò)中梯度反向傳遞時(shí)導(dǎo)致梯度爆炸和梯度消失,其中梯度爆炸發(fā)生的概率非常小秧饮,而梯度消失發(fā)生的概率比較大映挂;Sigmoid 的 output 不是0均值;其解析式中含有冪運(yùn)算盗尸,計(jì)算機(jī)求解時(shí)相對(duì)來講比較耗時(shí)柑船。
6. Relu函數(shù)
特點(diǎn):解決了gradient vanishing問題 (在正區(qū)間);計(jì)算速度非称酶鳎快鞍时,只需要判斷輸入是否大于0;收斂速度遠(yuǎn)快于sigmoid和tanh
缺點(diǎn):ReLU的輸出不是0均值;某些神經(jīng)元可能永遠(yuǎn)不會(huì)被激活逆巍,導(dǎo)致相應(yīng)的參數(shù)永遠(yuǎn)不能被更新及塘。
7. AdaGrad算法
AdaGrad算法就是將每一個(gè)參數(shù)的每一次迭代的梯度取平方累加后在開方,用全局學(xué)習(xí)率除以這個(gè)數(shù)锐极,作為學(xué)習(xí)率的動(dòng)態(tài)更新笙僚。
其中,r為梯度累積變量灵再,r的初始值為0肋层。ε為全局學(xué)習(xí)率,需要自己設(shè)置翎迁。δ為小常數(shù)栋猖,為了數(shù)值穩(wěn)定大約設(shè)置為10^-7
8. 優(yōu)化算法的選擇
如果輸入數(shù)據(jù)是稀疏的,選擇任一自適應(yīng)學(xué)習(xí)率算法可能會(huì)得到最好的結(jié)果鸳兽。無(wú)需調(diào)整學(xué)習(xí)率掂铐,選用默認(rèn)值就可能達(dá)到最好的結(jié)果。
RMSprop, Adadelta, 和 Adam 非常相似揍异,在相同的情況下表現(xiàn)都很好全陨。
偏置校驗(yàn)讓Adam的效果稍微比RMSprop好一點(diǎn)
進(jìn)行過很好的參數(shù)調(diào)優(yōu)的SGD+Momentum算法效果好于Adagrad/Adadelta
如果不知道選擇哪種優(yōu)化算法,就直接選Adam吧
9. 如何判斷模型過擬合
模型在驗(yàn)證集合上和訓(xùn)練集合上表現(xiàn)都很好衷掷,而在測(cè)試集合上變現(xiàn)很差辱姨。過擬合即在訓(xùn)練誤差很小,而泛化誤差很大,因?yàn)槟P涂赡苓^于的復(fù)雜,
10. 如何防止過擬合
Dropout:神經(jīng)網(wǎng)絡(luò)的每個(gè)單元都被賦予在計(jì)算中被暫時(shí)忽略的概率p,稱為丟失率戚嗅,通常將其默認(rèn)值設(shè)置為0.5雨涛。然后,在每次迭代中懦胞,根據(jù)指定的概率隨機(jī)選擇丟棄的神經(jīng)元替久。因此,每次訓(xùn)練會(huì)使用較小的神經(jīng)網(wǎng)絡(luò)躏尉。
提前停止:讓模型在訓(xùn)練的差不多的時(shí)候就停下來蚯根,繼續(xù)訓(xùn)練帶來提升不大或者連續(xù)幾輪訓(xùn)練都不帶來提升的時(shí)候,這樣可以避免只是改進(jìn)了訓(xùn)練集的指標(biāo)但降低了測(cè)試集的指標(biāo)胀糜。
批量正則化:將卷積神經(jīng)網(wǎng)絡(luò)的每層之間加上將神經(jīng)元的權(quán)重調(diào)成標(biāo)準(zhǔn)正態(tài)分布的正則化層颅拦,可以讓每一層的訓(xùn)練都從相似的起點(diǎn)出發(fā),而對(duì)權(quán)重進(jìn)行拉伸教藻,等價(jià)于對(duì)特征進(jìn)行拉伸距帅,在輸入層等價(jià)于數(shù)據(jù)增強(qiáng)。
11. 特征圖數(shù)
對(duì)于單通道圖像括堤,若利用10個(gè)卷積核進(jìn)行卷積計(jì)算碌秸,可以得到10個(gè)特征圖绍移;
若輸入為多通道圖像,則輸出特征圖的個(gè)數(shù)依然是卷積核的個(gè)數(shù)(10個(gè))
12. 多通道多個(gè)卷積核卷積計(jì)算:
圖片:寬度:32讥电,高度:32登夫,圖片的通道數(shù)D;
卷積核:大小55允趟,處理的圖片是D通道,因此卷積核是555*D鸦致。
卷積層維度變化:不填充潮剪,步長(zhǎng)為1,輸出的矩陣大小為32-5+1=28, 32-5+1=28, D
若填充分唾,則分子部分改為:W-F+2*Padding
卷積后的值:D個(gè)channel的所有元素對(duì)應(yīng)相乘后求和
池化層維度變化:大锌古觥2*2,步長(zhǎng)2.因此輸出大小為28/2=14绽乔,28/2=14弧蝇,D
參數(shù)變化:(((kernel_size)* stride + 1)* filters)
1. 卷積計(jì)算過程
可參考21。
此例步長(zhǎng)1折砸,且未使用填充看疗,即卷積層維度變化公式:
1.1、輸入(8睦授,8两芳,3);4個(gè)卷積核(3去枷,3怖辆,3,4)删顶;卷積后的輸出Z0:(6竖螃,6,4)逗余,Z0的每個(gè)輸出都是3個(gè)channel的所有元素對(duì)應(yīng)相乘后求和特咆;
1.2、 經(jīng)ReLu激活(6猎荠,6坚弱,4);
1.3关摇、 若有池化荒叶,池化層的計(jì)算與卷積層一樣規(guī)則;
1. BP反向傳播算法過程
殘差:誤差的偏導(dǎo)數(shù)
輸出層→隱藏層:殘差 = -(輸出值-樣本值) * 激活函數(shù)的導(dǎo)數(shù)
隱藏層→隱藏層:殘差 = (右層每個(gè)節(jié)點(diǎn)的殘差加權(quán)求和)* 激活函數(shù)的導(dǎo)數(shù)
更新權(quán)重:
輸入層:權(quán)重增加 = 輸入值 * 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率
隱藏層:權(quán)重增加 = 當(dāng)前節(jié)點(diǎn)的Sigmoid * 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率
偏移值:權(quán)重增加 = 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率
學(xué)習(xí)率:一個(gè)預(yù)先設(shè)置好的參數(shù)输虱,用于控制每次更新的幅度些楣。
1. 一個(gè)矢量化的例子:
1. 幾個(gè)BP例子
卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)及其作用
輸入層->卷積層->激活層->池化層->全連接層
數(shù)據(jù)輸入層:對(duì)原始數(shù)據(jù)進(jìn)行初步處理,使卷積神經(jīng)網(wǎng)絡(luò)能有更好的效果
卷積層:提取特征
激活層:計(jì)算結(jié)果通過一個(gè)激活函數(shù)加一個(gè)非線性的關(guān)系,使能逼近任何函數(shù)
池化層:數(shù)據(jù)壓縮愁茁,提取主要特征蚕钦,降低網(wǎng)絡(luò)復(fù)雜度
全連接層:分類器角色,將特征映射到樣本標(biāo)記空間鹅很,本質(zhì)是矩陣變換
生成式模型和判別式模型的區(qū)別
生成式:由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y), 然后由P(Y|X)=P(X,Y)/P(X)求出概率分布P(Y|X)作為預(yù)測(cè)的模型嘶居,表示了給定輸入X與產(chǎn)生輸出Y的生成關(guān)系。從統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況促煮,反映同類數(shù)據(jù)本身的相似度邮屁,不關(guān)心判別邊界。
判別式:由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)Y=f(X)或條件概率分布P(Y|X)作為預(yù)測(cè)模型菠齿,關(guān)心的是對(duì)于給定的輸入X佑吝,應(yīng)該預(yù)測(cè)什么樣的輸出Y。尋找不同類別之間的最優(yōu)分類面绳匀,反映的是異類數(shù)據(jù)之間的差異芋忿。
“梯度下降”的定義
迭代法的一種,可用于求解最小二乘問題,讓梯度中所有偏導(dǎo)函數(shù)都下降到最低點(diǎn)的過程。梯度下降法的計(jì)算過程就是沿梯度下降的方向求解極小值疾棵,也可以沿梯度上升方向求解最大值
簡(jiǎn)述和討論“隨機(jī)梯度下降算法”
1戈钢、隨機(jī)梯度下降是每次迭代使用一個(gè)樣本來對(duì)參數(shù)進(jìn)行更新,使得訓(xùn)練速度加快陋桂。隨機(jī)梯度下降算法是為了解決深度學(xué)習(xí)中多元目標(biāo)函數(shù)的最優(yōu)值問題逆趣。
2、隨機(jī)是指每次迭代過程中嗜历,樣本都要被隨機(jī)打亂宣渗。訓(xùn)練模型的目的是使得目標(biāo)函數(shù)達(dá)到極小值。
3梨州、每次迭代并不是都向著整體最優(yōu)化方向痕囱,導(dǎo)致梯度下降的波動(dòng)非常大,更容易從一個(gè)局部最優(yōu)跳到另一個(gè)局部最優(yōu)暴匠,準(zhǔn)確度下降
隨機(jī)梯度下降算法終止條件
當(dāng)前后兩次迭代的差值小于某一值時(shí)鞍恢,即收斂,迭代結(jié)束
Momentum****算法
參數(shù)更新時(shí)在一定程度上保留之前更新的方向每窖,同時(shí)又利用當(dāng)前batch的梯度微調(diào)最終的更新方向帮掉,簡(jiǎn)言之就是通過積累之前的動(dòng)量來加速當(dāng)前的梯度。能夠加速SGD收斂窒典,抑制震蕩蟆炊。在梯度方向改變時(shí),降低參數(shù)更新速度瀑志,從而減少震蕩涩搓;在梯度方向相同時(shí)污秆,加速參數(shù)更新,從而加速收斂
比較最大似然估計(jì)(****ML****)與最大后驗(yàn)估計(jì)(****MAP****)的異同點(diǎn)****.
最大后驗(yàn)估計(jì) 正比于最大似然估計(jì)*先驗(yàn)概率
基于深度學(xué)習(xí)的通信信號(hào)識(shí)別技術(shù)研究
隨著下一代移動(dòng)通信網(wǎng)絡(luò)及移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,未來無(wú)線通信網(wǎng)絡(luò)將面臨有限頻譜資源上異構(gòu)網(wǎng)絡(luò)與復(fù)雜無(wú)線信號(hào)動(dòng)態(tài)共存的問題,開發(fā)新的基于信號(hào)檢測(cè)處理手段獲取無(wú)線網(wǎng)絡(luò)中的頻譜使用信息的頻譜感知技術(shù)顯得尤為重要昧甘。依賴于復(fù)雜人工分析提取特征的傳統(tǒng)通信信號(hào)識(shí)別技術(shù)已經(jīng)無(wú)法滿足上述需求良拼。
利用深度學(xué)習(xí)算法構(gòu)建通信信號(hào)特征學(xué)習(xí)網(wǎng)絡(luò)和信號(hào)檢測(cè)識(shí)別算法,提高未來復(fù)雜無(wú)線通信環(huán)境下認(rèn)知通信終端的自主學(xué)習(xí)能力。通過引入短時(shí)傅里葉變換和離散小波變換機(jī)制,構(gòu)建基于深度學(xué)習(xí)的特征學(xué)習(xí)網(wǎng)絡(luò)和通信信號(hào)識(shí)別網(wǎng)絡(luò),以提高特征提取算法的自適應(yīng)性和信號(hào)識(shí)別網(wǎng)絡(luò)的準(zhǔn)確性充边。在識(shí)別精度和低信噪比條件下能獲得更優(yōu)的性能庸推。
損失函數(shù):樣本的誤差 ;代價(jià)函數(shù):整個(gè)訓(xùn)練集上所有樣本誤差的平均
目標(biāo)函數(shù):代價(jià)函數(shù) + 正則化項(xiàng)
Mini-batch SGD****步驟
對(duì)一批數(shù)據(jù)取樣浇冰;前向傳播得到損失予弧;反向傳播計(jì)算梯度;使用梯度更新參數(shù)
Batch Normalization
通常插入在全連接層或卷積層后湖饱,在非線性之前。
1)歸一化后加快了梯度下降求最優(yōu)解的速度杀捻;2)歸一化有可能提高精度
遷移學(xué)習(xí)
通過從已學(xué)習(xí)的相關(guān)任務(wù)中轉(zhuǎn)移知識(shí)來改進(jìn)學(xué)習(xí)的新任務(wù)井厌。
大數(shù)據(jù)與少標(biāo)注的矛盾;大數(shù)據(jù)與弱計(jì)算的矛盾致讥;普適化模型與個(gè)性化需求的矛盾仅仆;特定應(yīng)用的需求
分類和回歸問題比較適合做遷移學(xué)習(xí)的場(chǎng)景,有標(biāo)簽的源數(shù)據(jù)是最好的輔助垢袱。
RNN****用途
語(yǔ)音識(shí)別墓拜;機(jī)器翻譯;音樂生成请契;文本生成咳榜;文本生成;情感分類爽锥;DNA序列分析涌韩;視頻行為識(shí)別;實(shí)體名字識(shí)別
激活函數(shù)圖像
完整機(jī)器學(xué)習(xí)項(xiàng)目的流程
抽象成數(shù)學(xué)問題;獲取數(shù)據(jù);特征預(yù)處理與特征選;訓(xùn)練模型與調(diào)優(yōu);模型診斷;模型融合;上線運(yùn)行
常見的分類算法
SVM氯夷、神經(jīng)網(wǎng)絡(luò)臣樱、隨機(jī)森林、邏輯回歸腮考、KNN雇毫、貝葉斯
常見的監(jiān)督學(xué)習(xí)算法
感知機(jī)、SVM踩蔚、人工神經(jīng)網(wǎng)絡(luò)棚放、決策樹、邏輯回歸