深度學(xué)習(xí)基礎(chǔ)知識(shí)點(diǎn)歸納總結(jié)

1. 最小化代價(jià)函數(shù)優(yōu)化方法:BGD初橘、SGD燎窘、MBGD族奢、動(dòng)量女轿、NAG、Adagrad乾颁、AdaDelta涂乌、Adam、AMSGrad英岭、牛頓法湾盒;

2. 前饋神經(jīng)網(wǎng)絡(luò)的隱藏單元不一定在所有的輸入點(diǎn)上可微;

3. CNN最大池化能產(chǎn)生一定程度的平移不變性诅妹;

4. 向量范數(shù)表征向量空間的大蟹9础:

image
image

1. CNN:LeNet、AlexNet吭狡、VGGNet尖殃、GoogLeNet、ResNet

  1. 數(shù)據(jù)增強(qiáng)技術(shù):翻轉(zhuǎn)划煮、裁剪送丰、縮放、顏色抖動(dòng)弛秋、平移

  2. Batch Size定義:一次訓(xùn)練所選取的樣本數(shù)器躏。

  3. Batch Size影響:影響模型的優(yōu)化程度和速度。同時(shí)其直接影響到GPU內(nèi)存的使用情況蟹略,假如GPU內(nèi)存不大邀桑,該數(shù)值最好設(shè)置小一點(diǎn)。使得梯度下降方向更加準(zhǔn)確

  4. 劃分訓(xùn)練集科乎、驗(yàn)證集、測(cè)試集:訓(xùn)練集:驗(yàn)證集:測(cè)試集的劃分比例為6:2:2

  5. 一階優(yōu)化方法:RMSProp

  6. 深度學(xué)習(xí)關(guān)系圖

image

1. 什么是深度學(xué)習(xí):表達(dá)學(xué)習(xí)贼急、可擴(kuò)展的機(jī)器學(xué)習(xí)茅茂、生物神經(jīng)網(wǎng)絡(luò)的近似/粗略實(shí)現(xiàn)捏萍、人類的監(jiān)督越來越少、多階段的特征學(xué)習(xí)過程空闲、相較于傳統(tǒng)模式識(shí)別

2. 激活函數(shù)分類

image
  1. 合理的稀疏比例:70~80%令杈,屏蔽特征過多容易出現(xiàn)欠擬合。

2. 正則化在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)的作用

正則化可以很好的解決模型過擬合的問題碴倾,常見的正則化方式有L2正則化和dropout逗噩,但是正則化是以犧牲模型的擬合能力來達(dá)到平衡的,因此在對(duì)訓(xùn)練集的擬合中有所損失跌榔。

3. L1正則化和L2正則化

L1正則化可以產(chǎn)生稀疏值矩陣异雁,即產(chǎn)生一個(gè)稀疏模型,可以用于特征選擇和解決過擬合僧须。能夠幫助模型找到重要特征纲刀,而去掉無(wú)用特征或影響甚小的特征。

L2 讓所有特征的系數(shù)都縮小, 但不會(huì)減為0担平,它會(huì)使優(yōu)化求解穩(wěn)定快速示绊。所以L2適用于特征之間沒有關(guān)聯(lián)的情況。

L2正則化可以防止模型過擬合暂论;一定程度上面褐,L1也可以防止過擬合

4. 激活函數(shù)的作用

激活函數(shù)給神經(jīng)元引入了非線性因素,使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù)取胎,深層神經(jīng)網(wǎng)絡(luò)表達(dá)能力更強(qiáng)大展哭,可以應(yīng)用到眾多的非線性模型中。

5. Sigmoid函數(shù)

特點(diǎn):它能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出扼菠,特別的摄杂,如果是非常大的負(fù)數(shù),那么輸出就是0循榆;如果是非常大的正數(shù)析恢,輸出就是1.

缺點(diǎn):在深度神經(jīng)網(wǎng)絡(luò)中梯度反向傳遞時(shí)導(dǎo)致梯度爆炸和梯度消失,其中梯度爆炸發(fā)生的概率非常小秧饮,而梯度消失發(fā)生的概率比較大映挂;Sigmoid 的 output 不是0均值;其解析式中含有冪運(yùn)算盗尸,計(jì)算機(jī)求解時(shí)相對(duì)來講比較耗時(shí)柑船。

6. Relu函數(shù)

特點(diǎn):解決了gradient vanishing問題 (在正區(qū)間);計(jì)算速度非称酶鳎快鞍时,只需要判斷輸入是否大于0;收斂速度遠(yuǎn)快于sigmoid和tanh

缺點(diǎn):ReLU的輸出不是0均值;某些神經(jīng)元可能永遠(yuǎn)不會(huì)被激活逆巍,導(dǎo)致相應(yīng)的參數(shù)永遠(yuǎn)不能被更新及塘。

7. AdaGrad算法

AdaGrad算法就是將每一個(gè)參數(shù)的每一次迭代的梯度取平方累加后在開方,用全局學(xué)習(xí)率除以這個(gè)數(shù)锐极,作為學(xué)習(xí)率的動(dòng)態(tài)更新笙僚。

其中,r為梯度累積變量灵再,r的初始值為0肋层。ε為全局學(xué)習(xí)率,需要自己設(shè)置翎迁。δ為小常數(shù)栋猖,為了數(shù)值穩(wěn)定大約設(shè)置為10^-7

8. 優(yōu)化算法的選擇

如果輸入數(shù)據(jù)是稀疏的,選擇任一自適應(yīng)學(xué)習(xí)率算法可能會(huì)得到最好的結(jié)果鸳兽。無(wú)需調(diào)整學(xué)習(xí)率掂铐,選用默認(rèn)值就可能達(dá)到最好的結(jié)果。

RMSprop, Adadelta, 和 Adam 非常相似揍异,在相同的情況下表現(xiàn)都很好全陨。

偏置校驗(yàn)讓Adam的效果稍微比RMSprop好一點(diǎn)

進(jìn)行過很好的參數(shù)調(diào)優(yōu)的SGD+Momentum算法效果好于Adagrad/Adadelta

如果不知道選擇哪種優(yōu)化算法,就直接選Adam吧

9. 如何判斷模型過擬合

模型在驗(yàn)證集合上和訓(xùn)練集合上表現(xiàn)都很好衷掷,而在測(cè)試集合上變現(xiàn)很差辱姨。過擬合即在訓(xùn)練誤差很小,而泛化誤差很大,因?yàn)槟P涂赡苓^于的復(fù)雜,

10. 如何防止過擬合

Dropout:神經(jīng)網(wǎng)絡(luò)的每個(gè)單元都被賦予在計(jì)算中被暫時(shí)忽略的概率p,稱為丟失率戚嗅,通常將其默認(rèn)值設(shè)置為0.5雨涛。然后,在每次迭代中懦胞,根據(jù)指定的概率隨機(jī)選擇丟棄的神經(jīng)元替久。因此,每次訓(xùn)練會(huì)使用較小的神經(jīng)網(wǎng)絡(luò)躏尉。

提前停止:讓模型在訓(xùn)練的差不多的時(shí)候就停下來蚯根,繼續(xù)訓(xùn)練帶來提升不大或者連續(xù)幾輪訓(xùn)練都不帶來提升的時(shí)候,這樣可以避免只是改進(jìn)了訓(xùn)練集的指標(biāo)但降低了測(cè)試集的指標(biāo)胀糜。

批量正則化:將卷積神經(jīng)網(wǎng)絡(luò)的每層之間加上將神經(jīng)元的權(quán)重調(diào)成標(biāo)準(zhǔn)正態(tài)分布的正則化層颅拦,可以讓每一層的訓(xùn)練都從相似的起點(diǎn)出發(fā),而對(duì)權(quán)重進(jìn)行拉伸教藻,等價(jià)于對(duì)特征進(jìn)行拉伸距帅,在輸入層等價(jià)于數(shù)據(jù)增強(qiáng)。

11. 特征圖數(shù)

對(duì)于單通道圖像括堤,若利用10個(gè)卷積核進(jìn)行卷積計(jì)算碌秸,可以得到10個(gè)特征圖绍移;

若輸入為多通道圖像,則輸出特征圖的個(gè)數(shù)依然是卷積核的個(gè)數(shù)(10個(gè))

12. 多通道多個(gè)卷積核卷積計(jì)算:

圖片:寬度:32讥电,高度:32登夫,圖片的通道數(shù)D;

卷積核:大小55允趟,處理的圖片是D通道,因此卷積核是555*D鸦致。

卷積層維度變化:不填充潮剪,步長(zhǎng)為1,輸出的矩陣大小為32-5+1=28, 32-5+1=28, D

若填充分唾,則分子部分改為:W-F+2*Padding

卷積后的值:D個(gè)channel的所有元素對(duì)應(yīng)相乘后求和

池化層維度變化:大锌古觥2*2,步長(zhǎng)2.因此輸出大小為28/2=14绽乔,28/2=14弧蝇,D

參數(shù)變化:(((kernel_size)* stride + 1)* filters)

1. 卷積計(jì)算過程

image

可參考21。

此例步長(zhǎng)1折砸,且未使用填充看疗,即卷積層維度變化公式:

image

1.1、輸入(8睦授,8两芳,3);4個(gè)卷積核(3去枷,3怖辆,3,4)删顶;卷積后的輸出Z0:(6竖螃,6,4)逗余,Z0的每個(gè)輸出都是3個(gè)channel的所有元素對(duì)應(yīng)相乘后求和特咆;

1.2、 經(jīng)ReLu激活(6猎荠,6坚弱,4);

1.3关摇、 若有池化荒叶,池化層的計(jì)算與卷積層一樣規(guī)則;

1. BP反向傳播算法過程

殘差:誤差的偏導(dǎo)數(shù)

輸出層→隱藏層:殘差 = -(輸出值-樣本值) * 激活函數(shù)的導(dǎo)數(shù)

隱藏層→隱藏層:殘差 = (右層每個(gè)節(jié)點(diǎn)的殘差加權(quán)求和)* 激活函數(shù)的導(dǎo)數(shù)

更新權(quán)重:

輸入層:權(quán)重增加 = 輸入值 * 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

隱藏層:權(quán)重增加 = 當(dāng)前節(jié)點(diǎn)的Sigmoid * 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

偏移值:權(quán)重增加 = 右層對(duì)應(yīng)節(jié)點(diǎn)的殘差 * 學(xué)習(xí)率

學(xué)習(xí)率:一個(gè)預(yù)先設(shè)置好的參數(shù)输虱,用于控制每次更新的幅度些楣。

image
image

1. 一個(gè)矢量化的例子:

image

1. 幾個(gè)BP例子

image
image
image
image

卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)及其作用

輸入層->卷積層->激活層->池化層->全連接層

數(shù)據(jù)輸入層:對(duì)原始數(shù)據(jù)進(jìn)行初步處理,使卷積神經(jīng)網(wǎng)絡(luò)能有更好的效果

卷積層:提取特征

激活層:計(jì)算結(jié)果通過一個(gè)激活函數(shù)加一個(gè)非線性的關(guān)系,使能逼近任何函數(shù)

池化層:數(shù)據(jù)壓縮愁茁,提取主要特征蚕钦,降低網(wǎng)絡(luò)復(fù)雜度

全連接層:分類器角色,將特征映射到樣本標(biāo)記空間鹅很,本質(zhì)是矩陣變換

生成式模型和判別式模型的區(qū)別

生成式:由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y), 然后由P(Y|X)=P(X,Y)/P(X)求出概率分布P(Y|X)作為預(yù)測(cè)的模型嘶居,表示了給定輸入X與產(chǎn)生輸出Y的生成關(guān)系。從統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況促煮,反映同類數(shù)據(jù)本身的相似度邮屁,不關(guān)心判別邊界。

判別式:由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)Y=f(X)或條件概率分布P(Y|X)作為預(yù)測(cè)模型菠齿,關(guān)心的是對(duì)于給定的輸入X佑吝,應(yīng)該預(yù)測(cè)什么樣的輸出Y。尋找不同類別之間的最優(yōu)分類面绳匀,反映的是異類數(shù)據(jù)之間的差異芋忿。

“梯度下降”的定義

迭代法的一種,可用于求解最小二乘問題,讓梯度中所有偏導(dǎo)函數(shù)都下降到最低點(diǎn)的過程。梯度下降法的計(jì)算過程就是沿梯度下降的方向求解極小值疾棵,也可以沿梯度上升方向求解最大值

簡(jiǎn)述和討論“隨機(jī)梯度下降算法”

1戈钢、隨機(jī)梯度下降是每次迭代使用一個(gè)樣本來對(duì)參數(shù)進(jìn)行更新,使得訓(xùn)練速度加快陋桂。隨機(jī)梯度下降算法是為了解決深度學(xué)習(xí)中多元目標(biāo)函數(shù)的最優(yōu)值問題逆趣。

2、隨機(jī)是指每次迭代過程中嗜历,樣本都要被隨機(jī)打亂宣渗。訓(xùn)練模型的目的是使得目標(biāo)函數(shù)達(dá)到極小值。

3梨州、每次迭代并不是都向著整體最優(yōu)化方向痕囱,導(dǎo)致梯度下降的波動(dòng)非常大,更容易從一個(gè)局部最優(yōu)跳到另一個(gè)局部最優(yōu)暴匠,準(zhǔn)確度下降

隨機(jī)梯度下降算法終止條件

當(dāng)前后兩次迭代的差值小于某一值時(shí)鞍恢,即收斂,迭代結(jié)束

Momentum****算法

參數(shù)更新時(shí)在一定程度上保留之前更新的方向每窖,同時(shí)又利用當(dāng)前batch的梯度微調(diào)最終的更新方向帮掉,簡(jiǎn)言之就是通過積累之前的動(dòng)量來加速當(dāng)前的梯度。能夠加速SGD收斂窒典,抑制震蕩蟆炊。在梯度方向改變時(shí),降低參數(shù)更新速度瀑志,從而減少震蕩涩搓;在梯度方向相同時(shí)污秆,加速參數(shù)更新,從而加速收斂

比較最大似然估計(jì)(****ML****)與最大后驗(yàn)估計(jì)(****MAP****)的異同點(diǎn)****.

最大后驗(yàn)估計(jì) 正比于最大似然估計(jì)*先驗(yàn)概率

基于深度學(xué)習(xí)的通信信號(hào)識(shí)別技術(shù)研究

隨著下一代移動(dòng)通信網(wǎng)絡(luò)及移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,未來無(wú)線通信網(wǎng)絡(luò)將面臨有限頻譜資源上異構(gòu)網(wǎng)絡(luò)與復(fù)雜無(wú)線信號(hào)動(dòng)態(tài)共存的問題,開發(fā)新的基于信號(hào)檢測(cè)處理手段獲取無(wú)線網(wǎng)絡(luò)中的頻譜使用信息的頻譜感知技術(shù)顯得尤為重要昧甘。依賴于復(fù)雜人工分析提取特征的傳統(tǒng)通信信號(hào)識(shí)別技術(shù)已經(jīng)無(wú)法滿足上述需求良拼。

利用深度學(xué)習(xí)算法構(gòu)建通信信號(hào)特征學(xué)習(xí)網(wǎng)絡(luò)和信號(hào)檢測(cè)識(shí)別算法,提高未來復(fù)雜無(wú)線通信環(huán)境下認(rèn)知通信終端的自主學(xué)習(xí)能力。通過引入短時(shí)傅里葉變換和離散小波變換機(jī)制,構(gòu)建基于深度學(xué)習(xí)的特征學(xué)習(xí)網(wǎng)絡(luò)和通信信號(hào)識(shí)別網(wǎng)絡(luò),以提高特征提取算法的自適應(yīng)性和信號(hào)識(shí)別網(wǎng)絡(luò)的準(zhǔn)確性充边。在識(shí)別精度和低信噪比條件下能獲得更優(yōu)的性能庸推。

損失函數(shù):樣本的誤差 ;代價(jià)函數(shù):整個(gè)訓(xùn)練集上所有樣本誤差的平均

目標(biāo)函數(shù):代價(jià)函數(shù) + 正則化項(xiàng)

Mini-batch SGD****步驟

對(duì)一批數(shù)據(jù)取樣浇冰;前向傳播得到損失予弧;反向傳播計(jì)算梯度;使用梯度更新參數(shù)

Batch Normalization

通常插入在全連接層或卷積層后湖饱,在非線性之前。

1)歸一化后加快了梯度下降求最優(yōu)解的速度杀捻;2)歸一化有可能提高精度

遷移學(xué)習(xí)

通過從已學(xué)習(xí)的相關(guān)任務(wù)中轉(zhuǎn)移知識(shí)來改進(jìn)學(xué)習(xí)的新任務(wù)井厌。

大數(shù)據(jù)與少標(biāo)注的矛盾;大數(shù)據(jù)與弱計(jì)算的矛盾致讥;普適化模型與個(gè)性化需求的矛盾仅仆;特定應(yīng)用的需求

分類和回歸問題比較適合做遷移學(xué)習(xí)的場(chǎng)景,有標(biāo)簽的源數(shù)據(jù)是最好的輔助垢袱。

RNN****用途

語(yǔ)音識(shí)別墓拜;機(jī)器翻譯;音樂生成请契;文本生成咳榜;文本生成;情感分類爽锥;DNA序列分析涌韩;視頻行為識(shí)別;實(shí)體名字識(shí)別

激活函數(shù)圖像

完整機(jī)器學(xué)習(xí)項(xiàng)目的流程

抽象成數(shù)學(xué)問題;獲取數(shù)據(jù);特征預(yù)處理與特征選;訓(xùn)練模型與調(diào)優(yōu);模型診斷;模型融合;上線運(yùn)行

常見的分類算法

SVM氯夷、神經(jīng)網(wǎng)絡(luò)臣樱、隨機(jī)森林、邏輯回歸腮考、KNN雇毫、貝葉斯

常見的監(jiān)督學(xué)習(xí)算法

感知機(jī)、SVM踩蔚、人工神經(jīng)網(wǎng)絡(luò)棚放、決策樹、邏輯回歸

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末寂纪,一起剝皮案震驚了整個(gè)濱河市席吴,隨后出現(xiàn)的幾起案子赌结,更是在濱河造成了極大的恐慌,老刑警劉巖孝冒,帶你破解...
    沈念sama閱讀 219,110評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件柬姚,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡庄涡,警方通過查閱死者的電腦和手機(jī)量承,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來穴店,“玉大人撕捍,你說我怎么就攤上這事∑矗” “怎么了忧风?”我有些...
    開封第一講書人閱讀 165,474評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)球凰。 經(jīng)常有香客問我狮腿,道長(zhǎng),這世上最難降的妖魔是什么呕诉? 我笑而不...
    開封第一講書人閱讀 58,881評(píng)論 1 295
  • 正文 為了忘掉前任缘厢,我火速辦了婚禮,結(jié)果婚禮上甩挫,老公的妹妹穿的比我還像新娘贴硫。我一直安慰自己,他們只是感情好伊者,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,902評(píng)論 6 392
  • 文/花漫 我一把揭開白布英遭。 她就那樣靜靜地躺著,像睡著了一般亦渗。 火紅的嫁衣襯著肌膚如雪贪绘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,698評(píng)論 1 305
  • 那天央碟,我揣著相機(jī)與錄音税灌,去河邊找鬼。 笑死亿虽,一個(gè)胖子當(dāng)著我的面吹牛菱涤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播洛勉,決...
    沈念sama閱讀 40,418評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼粘秆,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了收毫?” 一聲冷哼從身側(cè)響起攻走,我...
    開封第一講書人閱讀 39,332評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤殷勘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后昔搂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體玲销,經(jīng)...
    沈念sama閱讀 45,796評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,968評(píng)論 3 337
  • 正文 我和宋清朗相戀三年摘符,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了贤斜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,110評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡逛裤,死狀恐怖瘩绒,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情带族,我是刑警寧澤锁荔,帶...
    沈念sama閱讀 35,792評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站蝙砌,受9級(jí)特大地震影響堕战,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拍霜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,455評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望薪介。 院中可真熱鬧祠饺,春花似錦、人聲如沸汁政。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)记劈。三九已至勺鸦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間目木,已是汗流浹背换途。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留刽射,地道東北人军拟。 一個(gè)月前我還...
    沈念sama閱讀 48,348評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像誓禁,于是被迫代替她去往敵國(guó)和親懈息。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,047評(píng)論 2 355