Task6-7

Task6

批量歸一化

BatchNormalization想要解決的問(wèn)題:Internal Covariate Shift

作者:Juliuszh
鏈接:https://zhuanlan.zhihu.com/p/33173246
來(lái)源:知乎
著作權(quán)歸作者所有判沟。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。

1.2 深度學(xué)習(xí)中的 Internal Covariate Shift

深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練為什么會(huì)很困難素标?其中一個(gè)重要的原因是骚烧,深度神經(jīng)網(wǎng)絡(luò)涉及到很多層的疊加五辽,而每一層的參數(shù)更新會(huì)導(dǎo)致上層的輸入數(shù)據(jù)分布發(fā)生變化弥虐,通過(guò)層層疊加漓踢,高層的輸入分布變化會(huì)非常劇烈挽鞠,這就使得高層需要不斷去重新適應(yīng)底層的參數(shù)更新疚颊。為了訓(xùn)好模型,我們需要非常謹(jǐn)慎地去設(shè)定學(xué)習(xí)率信认、初始化權(quán)重材义、以及盡可能細(xì)致的參數(shù)更新策略。

Google 將這一現(xiàn)象總結(jié)為 Internal Covariate Shift嫁赏,簡(jiǎn)稱 ICS. 什么是 ICS 呢其掂?

@魏秀參

一個(gè)回答中做出了一個(gè)很好的解釋?zhuān)?/p>

大家都知道在統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的一個(gè)經(jīng)典假設(shè)是“源空間(source domain)和目標(biāo)空間(target domain)的數(shù)據(jù)分布(distribution)是一致的”。如果不一致潦蝇,那么就出現(xiàn)了新的機(jī)器學(xué)習(xí)問(wèn)題款熬,如 transfer learning / domain adaptation 等。而 covariate shift 就是分布不一致假設(shè)之下的一個(gè)分支問(wèn)題攘乒,它是指源空間和目標(biāo)空間的條件概率是一致的贤牛,但是其邊緣概率不同,即:對(duì)所有x\in \chi[圖片上傳失敗...(image-a57c44-1582635612735)]

但是[圖片上傳失敗...(image-5235d6-1582635612735)]大家細(xì)想便會(huì)發(fā)現(xiàn)持灰,的確盔夜,對(duì)于神經(jīng)網(wǎng)絡(luò)的各層輸出,由于它們經(jīng)過(guò)了層內(nèi)操作作用堤魁,其分布顯然與各層對(duì)應(yīng)的輸入信號(hào)分布不同喂链,而且差異會(huì)隨著網(wǎng)絡(luò)深度增大而增大,可是它們所能“指示”的樣本標(biāo)記(label)仍然是不變的妥泉,這便符合了covariate shift的定義椭微。由于是對(duì)層間信號(hào)的分析,也即是“internal”的來(lái)由盲链。

1.3 ICS 會(huì)導(dǎo)致什么問(wèn)題蝇率?

簡(jiǎn)而言之,每個(gè)神經(jīng)元的輸入數(shù)據(jù)不再是“獨(dú)立同分布”刽沾。

其一本慕,上層參數(shù)需要不斷適應(yīng)新的輸入數(shù)據(jù)分布,降低學(xué)習(xí)速度侧漓。

其二锅尘,下層輸入的變化可能趨向于變大或者變小,導(dǎo)致上層落入飽和區(qū)布蔗,使得學(xué)習(xí)過(guò)早停止藤违。

其三浪腐,每層的更新都會(huì)影響到其它層,因此每層的參數(shù)更新策略需要盡可能的謹(jǐn)慎顿乒。

[圖片上傳失敗...(image-4e9d98-1582635612735)]

最后scale and shift中\gamma,\beta分別稱為縮放系數(shù)议街,平移系數(shù)。

作用:為了保證模型的表達(dá)能力不因?yàn)橐?guī)范化而下降璧榄。

批量歸一化層在仿射變換之后特漩,激活函數(shù)之前。

其他歸一化方法

Layer Normalization

Instance Normalization

Group Normalization

FRN(Filter Response Normalization)

殘差網(wǎng)絡(luò)

動(dòng)機(jī):網(wǎng)絡(luò)退化

在神經(jīng)網(wǎng)絡(luò)可以收斂的前提下骨杂,隨著網(wǎng)絡(luò)深度增加拾稳,網(wǎng)絡(luò)的表現(xiàn)先是逐漸增加至飽和,然后迅速下降[1]腊脱。

需要注意,網(wǎng)絡(luò)退化問(wèn)題不是過(guò)擬合導(dǎo)致的龙亲,即便在模型訓(xùn)練過(guò)程中陕凹,同樣的訓(xùn)練輪次下,退化的網(wǎng)絡(luò)也比稍淺層的網(wǎng)絡(luò)的訓(xùn)練錯(cuò)誤更高鳄炉,如下圖[1]所示杜耙。

[模型退化:深層模型反而取得更低的訓(xùn)練和測(cè)試誤差]

這一點(diǎn)并不符合常理:如果存在某個(gè)K層的網(wǎng)絡(luò)f是當(dāng)前最優(yōu)的網(wǎng)絡(luò),那么可以構(gòu)造一個(gè)更深的網(wǎng)絡(luò)拂盯,其最后幾層僅是該網(wǎng)絡(luò)fK層輸出的恒等映射(Identity Mapping)佑女,就可以取得與f一致的結(jié)果;也許K還不是所謂“最佳層數(shù)”谈竿,那么更深的網(wǎng)絡(luò)就可以取得更好的結(jié)果团驱。總而言之空凸,與淺層網(wǎng)絡(luò)相比嚎花,更深的網(wǎng)絡(luò)的表現(xiàn)不應(yīng)該更差。因此呀洲,一個(gè)合理的猜測(cè)就是紊选,對(duì)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),恒等映射并不容易擬合道逗。

作者:LinT
鏈接:https://zhuanlan.zhihu.com/p/80226180
來(lái)源:知乎
著作權(quán)歸作者所有兵罢。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處滓窍。

殘差塊

image.png

image.png

在前向傳播時(shí)卖词,輸入信號(hào)可以從任意低層直接傳播到高層。由于包含了一個(gè)天然的恒等映射贰您,一定程度上可以解決網(wǎng)絡(luò)退化問(wèn)題坏平。

網(wǎng)絡(luò)結(jié)構(gòu)

img
img

稠密網(wǎng)絡(luò)

img

DenseNet:比ResNet更優(yōu)的CNN模型 - 小小將的文章 - 知乎 https://zhuanlan.zhihu.com/p/37189203

凸優(yōu)化

凸函數(shù)的定義:
\lambda f(x)+(1-\lambda)f(x')\geq f(\lambda x+(1-\lambda) x')
Jensen不等式:
\sum_i \alpha_if(x_i)\geq f(\sum_i \alpha_ix_i)\\ E_x[f(x)]\geq f(E_x[x])
凸函數(shù)的期望大于等于期望的凸函數(shù)

性質(zhì)

  1. 無(wú)局部最小值

  2. 對(duì)于凸函數(shù) f(x)拢操,定義集合 S_b:={x|x∈X and f(x)≤b},則集合 S_b 為凸集

  3. f′′(x)≥0?f(x)f″(x)≥0?f(x) 是凸函數(shù)

梯度下降

牛頓法

梯度下降法舶替、牛頓法和擬牛頓法 - Eureka的文章 - 知乎 https://zhuanlan.zhihu.com/p/37524275

image.png

紅色曲線是利用牛頓法迭代求解令境,綠色曲線是利用梯度下降法求解。

image.png

動(dòng)態(tài)學(xué)習(xí)率

image.png

先大后小

Task7

優(yōu)化算法

一般來(lái)說(shuō)顾瞪,ill-conditioned是指問(wèn)題的條件數(shù)(condition number)非常大舔庶,從而比較難以優(yōu)化,或者說(shuō)需要更多迭代次數(shù)來(lái)達(dá)到同樣精度陈醒。直觀上來(lái)講惕橙,條件數(shù)是:函數(shù)梯度最大變化速度 / 梯度最小變化速度(對(duì)于二階可導(dǎo)函數(shù),條件數(shù)的嚴(yán)格定義是:Hessian矩陣最大特征值的上界 / 最小特征值的下界)钉跷。

用最簡(jiǎn)單的話來(lái)解釋就是弥鹦,問(wèn)題條件數(shù)大意味著目標(biāo)函數(shù)在有的地方(或有的方向)變化很快、有的地方很慢爷辙,比較不規(guī)律彬坏,從而很難用當(dāng)前的局部信息(也就是梯度)去比較準(zhǔn)確地預(yù)測(cè)最優(yōu)點(diǎn)所在的位置,只能一步步緩慢的逼近最優(yōu)點(diǎn)膝晾,從而優(yōu)化時(shí)需要更多的迭代次數(shù)栓始。

作者:Martin Tan
鏈接:https://www.zhihu.com/question/56977045/answer/151137770
來(lái)源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)血当,非商業(yè)轉(zhuǎn)載請(qǐng)注明出處幻赚。

img

Solution to ill-condition

  • Preconditioning gradient vector: applied in Adam, RMSProp, AdaGrad, Adelta, KFC, Natural gradient and other secord-order optimization algorithms.
  • Averaging history gradient: like momentum, which allows larger learning rates to accelerate convergence; applied in Adam, RMSProp, SGD momentum.

Momentum動(dòng)量

設(shè)時(shí)間步t的自變量為\boldsymbol{x}_t,學(xué)習(xí)率為\eta_t臊旭。 在時(shí)間步0落恼,動(dòng)量法創(chuàng)建速度變量v_0,并將其元素初始化成0巍扛。在時(shí)間步t>0领跛,動(dòng)量法對(duì)每次迭代的步驟做如下修改:
\begin{aligned}\boldsymbol{v}_t &\leftarrow \gamma \boldsymbol{v}_{t-1} + \eta_t \boldsymbol{g}_t, \\\boldsymbol{x}_t &\leftarrow \boldsymbol{x}_{t-1} - \boldsymbol{v}_t,\end{aligned}
其中,動(dòng)量超參數(shù)\gamma 滿足0\leq \gamma < 10撤奸。當(dāng)\gamma=0時(shí)吠昭,動(dòng)量法等價(jià)于小批量隨機(jī)梯度下降。

或:
\begin{aligned}\boldsymbol{v}_t &\leftarrow \gamma \boldsymbol{v}_{t-1} + (1-\gamma) \boldsymbol{g}_t, \\\boldsymbol{x}_t &\leftarrow \boldsymbol{x}_{t-1} - \alpha_t \boldsymbol{v}_t,\alpha_t=\frac{\eta_t}{1-\gamma}\end{aligned}
<img src="https://tangshusen.me/Dive-into-DL-PyTorch/img/chapter07/7.4_output1.png" alt="img" style="zoom:50%;" />

<img src="https://tangshusen.me/Dive-into-DL-PyTorch/img/chapter07/7.4_output3.png" alt="img" style="zoom:50%;" />

AdaGrad

s_0初始化為0, g_t^2為按元素平方
s_t\leftarrow s_{t-1}+g_t^2\\x_t\leftarrow x_{t-1}-\frac{\eta}{\sqrt{s_t+?}}\odot g_t

  1. g_t較大時(shí)胧瓜,學(xué)習(xí)率下降得快

  2. g_t較小時(shí)矢棚,學(xué)習(xí)率下降得慢

  3. 若前期下降過(guò)快則后期學(xué)習(xí)率后期過(guò)小

    <img src="https://staticcdn.boyuai.com/rt_upload/65D88109B129448EB6DAC9C0A04110BF/q5qoefd6ox.svg" alt="img" style="zoom: 80%;" />

RMSProp

s_t\leftarrow \beta s_{t-1}+(1-\beta)g_t^2\\x_t\leftarrow x_{t-1}-\frac{\eta}{\sqrt{s_t+?}}\odot g_t

指數(shù)移動(dòng)平均調(diào)整學(xué)習(xí)率

可以看作是最近1/(1?β)個(gè)時(shí)間步的小批量隨機(jī)梯度平方項(xiàng)的加權(quán)平均。如此一來(lái)府喳,自變量每個(gè)元素的學(xué)習(xí)率在迭代過(guò)程中就不再一直降低(或不變)蒲肋。

[圖片上傳失敗...(image-49a745-1582635612735)]

AdaDelta

在RMSProp的基礎(chǔ)上,維護(hù)一個(gè)額外的狀態(tài)變量\Delta x_t代替學(xué)習(xí)率
g'_t\leftarrow \sqrt{\frac{\Delta x_{t-1}+?}{s_{t}+?}}\odot g_t\\x_t\leftarrow x_{t-1}-g'_t\\\Delta x_{t}\leftarrow \beta\Delta x_{t-1}+(1-\beta)g'^2_t
在pytorch中的\beta參數(shù)名是rho - \rho

Adam

Adaptive Moment Estimation

本質(zhì)上是帶有動(dòng)量項(xiàng)的RMSprop,它利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率

<img src="Task6-8.assets/image-20200225195047950.png" alt="image-20200225195047950" style="zoom: 67%;" />

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末兜粘,一起剝皮案震驚了整個(gè)濱河市申窘,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌孔轴,老刑警劉巖剃法,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異路鹰,居然都是意外死亡贷洲,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén)晋柱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)优构,“玉大人,你說(shuō)我怎么就攤上這事雁竞∏胀郑” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵碑诉,是天一觀的道長(zhǎng)玉凯。 經(jīng)常有香客問(wèn)我,道長(zhǎng)联贩,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任捎拯,我火速辦了婚禮泪幌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘署照。我一直安慰自己祸泪,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布建芙。 她就那樣靜靜地躺著没隘,像睡著了一般。 火紅的嫁衣襯著肌膚如雪禁荸。 梳的紋絲不亂的頭發(fā)上右蒲,一...
    開(kāi)封第一講書(shū)人閱讀 49,764評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音赶熟,去河邊找鬼瑰妄。 笑死,一個(gè)胖子當(dāng)著我的面吹牛映砖,可吹牛的內(nèi)容都是我干的间坐。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼竹宋!你這毒婦竟也來(lái)了劳澄?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蜈七,失蹤者是張志新(化名)和其女友劉穎秒拔,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體宪潮,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡溯警,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了狡相。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片梯轻。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖尽棕,靈堂內(nèi)的尸體忽然破棺而出喳挑,到底是詐尸還是另有隱情,我是刑警寧澤滔悉,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布伊诵,位于F島的核電站,受9級(jí)特大地震影響回官,放射性物質(zhì)發(fā)生泄漏曹宴。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一歉提、第九天 我趴在偏房一處隱蔽的房頂上張望笛坦。 院中可真熱鬧,春花似錦苔巨、人聲如沸版扩。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)礁芦。三九已至,卻和暖如春悼尾,著一層夾襖步出監(jiān)牢的瞬間柿扣,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工闺魏, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留窄刘,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓舷胜,卻偏偏與公主長(zhǎng)得像娩践,于是被迫代替她去往敵國(guó)和親活翩。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容