深度學(xué)習(xí)基礎(chǔ)知識(shí)點(diǎn)歸納總結(jié)

1. 最小化代價(jià)函數(shù)優(yōu)化方法：BGD初橘、SGD燎窘、MBGD族奢、動(dòng)量女轿、NAG、Adagrad乾颁、AdaDelta涂乌、Adam、AMSGrad英岭、牛頓法湾盒；

2. 前饋神經(jīng)網(wǎng)絡(luò)的隱藏單元不一定在所有的輸入點(diǎn)上可微；

3. CNN最大池化能產(chǎn)生一定程度的平移不變性诅妹；

4. 向量范數(shù)表征向量空間的大蟹９础：

image

1. CNN：LeNet、AlexNet吭狡、VGGNet尖殃、GoogLeNet、ResNet

數(shù)據(jù)增強(qiáng)技術(shù)：翻轉(zhuǎn)划煮、裁剪送丰、縮放、顏色抖動(dòng)弛秋、平移
Batch Size定義：一次訓(xùn)練所選取的樣本數(shù)器躏。
Batch Size影響：影響模型的優(yōu)化程度和速度。同時(shí)其直接影響到GPU內(nèi)存的使用情況蟹略，假如GPU內(nèi)存不大邀桑，該數(shù)值最好設(shè)置小一點(diǎn)。使得梯度下降方向更加準(zhǔn)確
劃分訓(xùn)練集科乎、驗(yàn)證集、測(cè)試集：訓(xùn)練集：驗(yàn)證集：測(cè)試集的劃分比例為6:2:2
一階優(yōu)化方法：RMSProp
深度學(xué)習(xí)關(guān)系圖

image

1. 什么是深度學(xué)習(xí)：表達(dá)學(xué)習(xí)贼急、可擴(kuò)展的機(jī)器學(xué)習(xí)茅茂、生物神經(jīng)網(wǎng)絡(luò)的近似/粗略實(shí)現(xiàn)捏萍、人類的監(jiān)督越來越少、多階段的特征學(xué)習(xí)過程空闲、相較于傳統(tǒng)模式識(shí)別

2. 激活函數(shù)分類

image

合理的稀疏比例：70~80%令杈，屏蔽特征過多容易出現(xiàn)欠擬合。

2. 正則化在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)的作用

正則化可以很好的解決模型過擬合的問題碴倾，常見的正則化方式有L2正則化和dropout逗噩，但是正則化是以犧牲模型的擬合能力來達(dá)到平衡的，因此在對(duì)訓(xùn)練集的擬合中有所損失跌榔。

3. L1正則化和L2正則化

L1正則化可以產(chǎn)生稀疏值矩陣异雁，即產(chǎn)生一個(gè)稀疏模型，可以用于特征選擇和解決過擬合僧须。能夠幫助模型找到重要特征纲刀，而去掉無(wú)用特征或影響甚小的特征。

L2 讓所有特征的系數(shù)都縮小, 但不會(huì)減為0担平，它會(huì)使優(yōu)化求解穩(wěn)定快速示绊。所以L2適用于特征之間沒有關(guān)聯(lián)的情況。

L2正則化可以防止模型過擬合暂论；一定程度上面褐，L1也可以防止過擬合

4. 激活函數(shù)的作用

激活函數(shù)給神經(jīng)元引入了非線性因素，使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù)取胎，深層神經(jīng)網(wǎng)絡(luò)表達(dá)能力更強(qiáng)大展哭，可以應(yīng)用到眾多的非線性模型中。

5. Sigmoid函數(shù)

特點(diǎn)：它能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出扼菠，特別的摄杂，如果是非常大的負(fù)數(shù)，那么輸出就是0循榆；如果是非常大的正數(shù)析恢，輸出就是1.

缺點(diǎn)：在深度神經(jīng)網(wǎng)絡(luò)中梯度反向傳遞時(shí)導(dǎo)致梯度爆炸和梯度消失，其中梯度爆炸發(fā)生的概率非常小秧饮，而梯度消失發(fā)生的概率比較大映挂；Sigmoid 的 output 不是0均值；其解析式中含有冪運(yùn)算盗尸，計(jì)算機(jī)求解時(shí)相對(duì)來講比較耗時(shí)柑船。

6. Relu函數(shù)

特點(diǎn)：解決了gradient vanishing問題 (在正區(qū)間)；計(jì)算速度非称酶鳎快鞍时，只需要判斷輸入是否大于0；收斂速度遠(yuǎn)快于sigmoid和tanh

缺點(diǎn)：ReLU的輸出不是0均值；某些神經(jīng)元可能永遠(yuǎn)不會(huì)被激活逆巍，導(dǎo)致相應(yīng)的參數(shù)永遠(yuǎn)不能被更新及塘。

7. AdaGrad算法

AdaGrad算法就是將每一個(gè)參數(shù)的每一次迭代的梯度取平方累加后在開方，用全局學(xué)習(xí)率除以這個(gè)數(shù)锐极，作為學(xué)習(xí)率的動(dòng)態(tài)更新笙僚。

其中，r為梯度累積變量灵再，r的初始值為0肋层。ε為全局學(xué)習(xí)率，需要自己設(shè)置翎迁。δ為小常數(shù)栋猖，為了數(shù)值穩(wěn)定大約設(shè)置為10^-7

8. 優(yōu)化算法的選擇

如果輸入數(shù)據(jù)是稀疏的，選擇任一自適應(yīng)學(xué)習(xí)率算法可能會(huì)得到最好的結(jié)果鸳兽。無(wú)需調(diào)整學(xué)習(xí)率掂铐，選用默認(rèn)值就可能達(dá)到最好的結(jié)果。

RMSprop, Adadelta, 和 Adam 非常相似揍异，在相同的情況下表現(xiàn)都很好全陨。

偏置校驗(yàn)讓Adam的效果稍微比RMSprop好一點(diǎn)

進(jìn)行過很好的參數(shù)調(diào)優(yōu)的SGD+Momentum算法效果好于Adagrad/Adadelta

如果不知道選擇哪種優(yōu)化算法，就直接選Adam吧

9. 如何判斷模型過擬合

模型在驗(yàn)證集合上和訓(xùn)練集合上表現(xiàn)都很好衷掷，而在測(cè)試集合上變現(xiàn)很差辱姨。過擬合即在訓(xùn)練誤差很小,而泛化誤差很大,因?yàn)槟Ｐ涂赡苓^于的復(fù)雜,

10. 如何防止過擬合

Dropout：神經(jīng)網(wǎng)絡(luò)的每個(gè)單元都被賦予在計(jì)算中被暫時(shí)忽略的概率p，稱為丟失率戚嗅，通常將其默認(rèn)值設(shè)置為0.5雨涛。然后，在每次迭代中懦胞，根據(jù)指定的概率隨機(jī)選擇丟棄的神經(jīng)元替久。因此，每次訓(xùn)練會(huì)使用較小的神經(jīng)網(wǎng)絡(luò)躏尉。

提前停止：讓模型在訓(xùn)練的差不多的時(shí)候就停下來蚯根，繼續(xù)訓(xùn)練帶來提升不大或者連續(xù)幾輪訓(xùn)練都不帶來提升的時(shí)候，這樣可以避免只是改進(jìn)了訓(xùn)練集的指標(biāo)但降低了測(cè)試集的指標(biāo)胀糜。

批量正則化：將卷積神經(jīng)網(wǎng)絡(luò)的每層之間加上將神經(jīng)元的權(quán)重調(diào)成標(biāo)準(zhǔn)正態(tài)分布的正則化層颅拦，可以讓每一層的訓(xùn)練都從相似的起點(diǎn)出發(fā)，而對(duì)權(quán)重進(jìn)行拉伸教藻，等價(jià)于對(duì)特征進(jìn)行拉伸距帅，在輸入層等價(jià)于數(shù)據(jù)增強(qiáng)。

11. 特征圖數(shù)

對(duì)于單通道圖像括堤，若利用10個(gè)卷積核進(jìn)行卷積計(jì)算碌秸，可以得到10個(gè)特征圖绍移；

若輸入為多通道圖像，則輸出特征圖的個(gè)數(shù)依然是卷積核的個(gè)數(shù)（10個(gè)）

12. 多通道多個(gè)卷積核卷積計(jì)算：

圖片：寬度:32讥电，高度:32登夫，圖片的通道數(shù)D；

卷積核：大小55允趟，處理的圖片是D通道，因此卷積核是555*D鸦致。

卷積層維度變化：不填充潮剪，步長(zhǎng)為１，輸出的矩陣大小為32－5＋1=28, 32－5＋1=28, D

若填充分唾，則分子部分改為：W-F+2*Padding

卷積后的值：D個(gè)channel的所有元素對(duì)應(yīng)相乘后求和

池化層維度變化：大锌古觥２＊２，步長(zhǎng)２．因此輸出大小為28/2=14绽乔，28/2=14弧蝇，D

參數(shù)變化：（（（kernel_size）* stride + 1）* filters）

1. 卷積計(jì)算過程

image

可參考21。

此例步長(zhǎng)1折砸，且未使用填充看疗，即卷積層維度變化公式：

image

1.1、輸入（8睦授，8两芳，3）；4個(gè)卷積核（3去枷，3怖辆，3，4）删顶；卷積后的輸出Z0：（6竖螃，6，4）逗余，Z0的每個(gè)輸出都是3個(gè)channel的所有元素對(duì)應(yīng)相乘后求和特咆；

1.2、經(jīng)ReLu激活（6猎荠，6坚弱，4）；

1.3关摇、若有池化荒叶，池化層的計(jì)算與卷積層一樣規(guī)則；

1. BP反向傳播算法過程

殘差：誤差的偏導(dǎo)數(shù)

輸出層→隱藏層：殘差 = -(輸出值-樣本值) * 激活函數(shù)的導(dǎo)數(shù)

隱藏層→隱藏層：殘差 = (右層每個(gè)節(jié)點(diǎn)的殘差加權(quán)求和)* 激活函數(shù)的導(dǎo)數(shù)

更新權(quán)重：

輸入層：權(quán)重增加 = 輸入值 * 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

隱藏層：權(quán)重增加 = 當(dāng)前節(jié)點(diǎn)的Sigmoid * 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

偏移值：權(quán)重增加 = 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

學(xué)習(xí)率：一個(gè)預(yù)先設(shè)置好的參數(shù)输虱，用于控制每次更新的幅度些楣。

image

1. 一個(gè)矢量化的例子:

image

1. 幾個(gè)BP例子

image

卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)及其作用

輸入層->卷積層->激活層->池化層->全連接層

數(shù)據(jù)輸入層：對(duì)原始數(shù)據(jù)進(jìn)行初步處理，使卷積神經(jīng)網(wǎng)絡(luò)能有更好的效果

卷積層：提取特征

激活層：計(jì)算結(jié)果通過一個(gè)激活函數(shù)加一個(gè)非線性的關(guān)系，使能逼近任何函數(shù)

池化層：數(shù)據(jù)壓縮愁茁，提取主要特征蚕钦，降低網(wǎng)絡(luò)復(fù)雜度

全連接層：分類器角色，將特征映射到樣本標(biāo)記空間鹅很，本質(zhì)是矩陣變換

生成式模型和判別式模型的區(qū)別

生成式：由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y), 然后由P(Y|X)=P(X,Y)/P(X)求出概率分布P(Y|X)作為預(yù)測(cè)的模型嘶居，表示了給定輸入X與產(chǎn)生輸出Y的生成關(guān)系。從統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況促煮，反映同類數(shù)據(jù)本身的相似度邮屁，不關(guān)心判別邊界。

判別式：由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)Y=f(X)或條件概率分布P(Y|X)作為預(yù)測(cè)模型菠齿，關(guān)心的是對(duì)于給定的輸入X佑吝，應(yīng)該預(yù)測(cè)什么樣的輸出Y。尋找不同類別之間的最優(yōu)分類面绳匀，反映的是異類數(shù)據(jù)之間的差異芋忿。

“梯度下降”的定義

迭代法的一種,可用于求解最小二乘問題,讓梯度中所有偏導(dǎo)函數(shù)都下降到最低點(diǎn)的過程。梯度下降法的計(jì)算過程就是沿梯度下降的方向求解極小值疾棵，也可以沿梯度上升方向求解最大值

簡(jiǎn)述和討論“隨機(jī)梯度下降算法”

1戈钢、隨機(jī)梯度下降是每次迭代使用一個(gè)樣本來對(duì)參數(shù)進(jìn)行更新，使得訓(xùn)練速度加快陋桂。隨機(jī)梯度下降算法是為了解決深度學(xué)習(xí)中多元目標(biāo)函數(shù)的最優(yōu)值問題逆趣。

2、隨機(jī)是指每次迭代過程中嗜历，樣本都要被隨機(jī)打亂宣渗。訓(xùn)練模型的目的是使得目標(biāo)函數(shù)達(dá)到極小值。

3梨州、每次迭代并不是都向著整體最優(yōu)化方向痕囱，導(dǎo)致梯度下降的波動(dòng)非常大，更容易從一個(gè)局部最優(yōu)跳到另一個(gè)局部最優(yōu)暴匠，準(zhǔn)確度下降

隨機(jī)梯度下降算法終止條件

當(dāng)前后兩次迭代的差值小于某一值時(shí)鞍恢，即收斂，迭代結(jié)束

Momentum****算法

參數(shù)更新時(shí)在一定程度上保留之前更新的方向每窖，同時(shí)又利用當(dāng)前batch的梯度微調(diào)最終的更新方向帮掉，簡(jiǎn)言之就是通過積累之前的動(dòng)量來加速當(dāng)前的梯度。能夠加速SGD收斂窒典，抑制震蕩蟆炊。在梯度方向改變時(shí)，降低參數(shù)更新速度瀑志，從而減少震蕩涩搓；在梯度方向相同時(shí)污秆，加速參數(shù)更新，從而加速收斂

比較最大似然估計(jì)（****ML****）與最大后驗(yàn)估計(jì)（****MAP****）的異同點(diǎn)****.

最大后驗(yàn)估計(jì) 正比于最大似然估計(jì)*先驗(yàn)概率

基于深度學(xué)習(xí)的通信信號(hào)識(shí)別技術(shù)研究

隨著下一代移動(dòng)通信網(wǎng)絡(luò)及移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,未來無(wú)線通信網(wǎng)絡(luò)將面臨有限頻譜資源上異構(gòu)網(wǎng)絡(luò)與復(fù)雜無(wú)線信號(hào)動(dòng)態(tài)共存的問題,開發(fā)新的基于信號(hào)檢測(cè)處理手段獲取無(wú)線網(wǎng)絡(luò)中的頻譜使用信息的頻譜感知技術(shù)顯得尤為重要昧甘。依賴于復(fù)雜人工分析提取特征的傳統(tǒng)通信信號(hào)識(shí)別技術(shù)已經(jīng)無(wú)法滿足上述需求良拼。

利用深度學(xué)習(xí)算法構(gòu)建通信信號(hào)特征學(xué)習(xí)網(wǎng)絡(luò)和信號(hào)檢測(cè)識(shí)別算法,提高未來復(fù)雜無(wú)線通信環(huán)境下認(rèn)知通信終端的自主學(xué)習(xí)能力。通過引入短時(shí)傅里葉變換和離散小波變換機(jī)制,構(gòu)建基于深度學(xué)習(xí)的特征學(xué)習(xí)網(wǎng)絡(luò)和通信信號(hào)識(shí)別網(wǎng)絡(luò),以提高特征提取算法的自適應(yīng)性和信號(hào)識(shí)別網(wǎng)絡(luò)的準(zhǔn)確性充边。在識(shí)別精度和低信噪比條件下能獲得更優(yōu)的性能庸推。

損失函數(shù)：樣本的誤差；代價(jià)函數(shù)：整個(gè)訓(xùn)練集上所有樣本誤差的平均

目標(biāo)函數(shù)：代價(jià)函數(shù) + 正則化項(xiàng)

Mini-batch SGD****步驟

對(duì)一批數(shù)據(jù)取樣浇冰；前向傳播得到損失予弧；反向傳播計(jì)算梯度；使用梯度更新參數(shù)

Batch Normalization

通常插入在全連接層或卷積層后湖饱，在非線性之前。

1）歸一化后加快了梯度下降求最優(yōu)解的速度杀捻；2）歸一化有可能提高精度

遷移學(xué)習(xí)

通過從已學(xué)習(xí)的相關(guān)任務(wù)中轉(zhuǎn)移知識(shí)來改進(jìn)學(xué)習(xí)的新任務(wù)井厌。

大數(shù)據(jù)與少標(biāo)注的矛盾；大數(shù)據(jù)與弱計(jì)算的矛盾致讥；普適化模型與個(gè)性化需求的矛盾仅仆；特定應(yīng)用的需求

分類和回歸問題比較適合做遷移學(xué)習(xí)的場(chǎng)景，有標(biāo)簽的源數(shù)據(jù)是最好的輔助垢袱。

RNN****用途

語(yǔ)音識(shí)別墓拜；機(jī)器翻譯；音樂生成请契；文本生成咳榜；文本生成；情感分類爽锥；DNA序列分析涌韩；視頻行為識(shí)別；實(shí)體名字識(shí)別

激活函數(shù)圖像

完整機(jī)器學(xué)習(xí)項(xiàng)目的流程

抽象成數(shù)學(xué)問題;獲取數(shù)據(jù);特征預(yù)處理與特征選;訓(xùn)練模型與調(diào)優(yōu);模型診斷;模型融合;上線運(yùn)行

常見的分類算法

SVM氯夷、神經(jīng)網(wǎng)絡(luò)臣樱、隨機(jī)森林、邏輯回歸腮考、KNN雇毫、貝葉斯

常見的監(jiān)督學(xué)習(xí)算法

感知機(jī)、SVM踩蔚、人工神經(jīng)網(wǎng)絡(luò)棚放、決策樹、邏輯回歸

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末寂纪，一起剝皮案震驚了整個(gè)濱河市席吴，隨后出現(xiàn)的幾起案子赌结，更是在濱河造成了極大的恐慌，老刑警劉巖孝冒，帶你破解...
沈念sama閱讀 219,110評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件柬姚，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡庄涡，警方通過查閱死者的電腦和手機(jī)量承，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,443評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來穴店，“玉大人撕捍，你說我怎么就攤上這事∑矗” “怎么了忧风？”我有些...
開封第一講書人閱讀 165,474評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)球凰。經(jīng)常有香客問我狮腿，道長(zhǎng)，這世上最難降的妖魔是什么呕诉？我笑而不...
開封第一講書人閱讀 58,881評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任缘厢，我火速辦了婚禮，結(jié)果婚禮上甩挫，老公的妹妹穿的比我還像新娘贴硫。我一直安慰自己，他們只是感情好伊者，可當(dāng)我...
茶點(diǎn)故事閱讀 67,902評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布英遭。她就那樣靜靜地躺著，像睡著了一般亦渗。火紅的嫁衣襯著肌膚如雪贪绘。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,698評(píng)論 1贊 305
城市分裂傳說
那天央碟，我揣著相機(jī)與錄音税灌，去河邊找鬼。笑死亿虽，一個(gè)胖子當(dāng)著我的面吹牛菱涤，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播洛勉，決...
沈念sama閱讀 40,418評(píng)論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼粘秆，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了收毫？” 一聲冷哼從身側(cè)響起攻走，我...
開封第一講書人閱讀 39,332評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤殷勘，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后昔搂，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體玲销，經(jīng)...
沈念sama閱讀 45,796評(píng)論 1贊 316
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,968評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年摘符，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了贤斜。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,110評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡逛裤，死狀恐怖瘩绒，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情带族，我是刑警寧澤锁荔，帶...
沈念sama閱讀 35,792評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站蝙砌，受9級(jí)特大地震影響堕战，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拍霜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,455評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望薪介。院中可真熱鬧祠饺，春花似錦、人聲如沸汁政。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,003評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)记劈。三九已至勺鸦，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間目木，已是汗流浹背换途。一陣腳步聲響...
開封第一講書人閱讀 33,130評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留刽射，地道東北人军拟。一個(gè)月前我還...
沈念sama閱讀 48,348評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像誓禁，于是被迫代替她去往敵國(guó)和親懈息。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,047評(píng)論 2贊 355