《深度學(xué)習(xí)》之第六章深度前饋網(wǎng)絡(luò)

機(jī)器學(xué)習(xí)中常見的邏輯回歸和線性回歸褪测,都是線性的猴誊,它們簡(jiǎn)單高效。 但也有明細(xì)缺陷侮措,表達(dá)能力弱懈叹,無(wú)法描述非線性問(wèn)題。為了擴(kuò)展它們的表達(dá)能力分扎, 通吵纬桑可以通過(guò)非線性地改變輸入φ(x),比如:添加核函數(shù)畏吓。 設(shè)計(jì)選擇φ(x)的方法:
使用一個(gè)通用的 φ墨状,例如無(wú)限維的 φ。 總是有足夠的能力 來(lái)擬合訓(xùn)練集菲饼,但是對(duì)于測(cè)試集的泛化往往不佳歉胶。
手動(dòng)地設(shè)計(jì) φ。在深度學(xué)習(xí)出現(xiàn)以前巴粪,這一直是主流的方法, 通常是根據(jù)各個(gè)領(lǐng)域的問(wèn)題粥谬,設(shè)計(jì)不同的φ
深度學(xué)習(xí)的策略是去學(xué)習(xí) φ肛根。此時(shí),我們定義函數(shù)族 φ(x; θ), 并且使用優(yōu)化算法來(lái)尋找 θ漏策。這種方法可以同時(shí)獲得上面兩張方法的好處派哲。

  1. 實(shí)例:學(xué)習(xí) XOR(異或)
    線性模型是無(wú)法擬合XOR函數(shù)的,但是可以通過(guò)多層非線性模型來(lái)擬合掺喻。實(shí)例中使用ReLU激活函數(shù)來(lái)實(shí)現(xiàn)非線性變換芭届。

  2. 基于梯度的學(xué)習(xí)
    神經(jīng)網(wǎng)絡(luò)的非線性導(dǎo)致大多數(shù)損失函都變得非凸。但是感耙,用于非凸損失函數(shù)的隨機(jī)梯度下降不保證收斂性褂乍,并且對(duì)參數(shù)的初始值很敏感。因而對(duì)于前饋神經(jīng)網(wǎng)絡(luò)即硼,將所有的權(quán)重值初始化為小隨機(jī)數(shù)是很重要的逃片。偏置則可以初始化為零或者小的正值。

2.1 代價(jià)函數(shù)
大多數(shù)現(xiàn)代的神經(jīng)網(wǎng)絡(luò)使用最大似然來(lái)訓(xùn)練只酥。這意味著代價(jià)函數(shù)就是負(fù)的對(duì)數(shù)似然褥实,它與訓(xùn)練數(shù)據(jù)和模型分布間的交叉熵等價(jià)呀狼。這個(gè)代價(jià)函數(shù)表示為:

交叉熵

對(duì)輸出分布的最大似然估計(jì)和對(duì)線性模型均方誤差的最小化是等價(jià)的

代價(jià)函數(shù)的梯度必須足夠的大和具有足夠的預(yù)測(cè)性。飽和(變得非常平)的函數(shù)破壞了這一目標(biāo)损离,因?yàn)樗鼈儼烟荻茸兊梅浅P「缤А_@在很多情況下都會(huì)發(fā)生,因?yàn)橛糜诋a(chǎn)生隱藏單元或者輸出單元的輸出的激活函數(shù)會(huì)飽和僻澎。很多輸出單元都會(huì)包含一個(gè)指數(shù)函數(shù)貌踏,這在它的變量取絕對(duì)值非常大的負(fù)值時(shí)會(huì)造成飽和。負(fù)對(duì)數(shù)似然代價(jià)函數(shù)中的對(duì)數(shù)函數(shù)消除某些輸 出單元中的指數(shù)效果怎棱。

學(xué)習(xí)條件統(tǒng)計(jì)量
使用最小化均方誤差代價(jià)函數(shù)(L2)將得到一個(gè)函數(shù)哩俭, 它可以用來(lái)對(duì)每個(gè) x 的值預(yù)測(cè)出 y 的均值
使用L1的代價(jià)函數(shù)將得到一個(gè)函數(shù)可以對(duì)每個(gè) x 預(yù)測(cè) y 取值的中位數(shù)

2.2 輸出單元
2.2.1 用于高斯輸出分布的線性單元
給定特征 h,線性輸出單元層產(chǎn)生一個(gè)向量 y? = W?h + b拳恋,線性輸出層經(jīng)常被用來(lái)產(chǎn)生條件高斯分布的均值
2.2.2 用于 Bernoulli 輸出分布的 sigmoid 單元:

Sigmoid單元

σ(x) = 1/(1+ e ^-x)
當(dāng)我們使用其他的損失函數(shù)凡资,例如均方誤差之類的,損失函數(shù)會(huì)在 σ(z) 飽和時(shí)飽和谬运。sigmoid 激活函數(shù)在 z 取非常小的負(fù)值時(shí)會(huì)飽和到 0隙赁,當(dāng) z 取非常大的正值時(shí) 會(huì)飽和到 1。這種情況一旦發(fā)生梆暖,梯度會(huì)變得非常小以至于不能用來(lái)學(xué)習(xí)伞访,無(wú)論此模型給出的是正確還是錯(cuò)誤的答案。因此轰驳,最大似然幾乎總是訓(xùn)練 sigmoid 輸出單元的優(yōu)選方法厚掷。
2.2.3 用于 Multinoulli 輸出分布的 softmax 單元

softmax
softmax

負(fù)對(duì)數(shù)似然代價(jià)函數(shù)總是強(qiáng)烈地懲罰最活躍的不正確預(yù)測(cè)。如果正確答案已經(jīng)具有了 softmax 的最大輸入级解,那么 ?zi 項(xiàng)和 log ∑ exp(zj ) ≈ maxj zj = zi j項(xiàng)將大致抵消冒黑。這個(gè)樣本對(duì)于整體訓(xùn)練代價(jià)貢獻(xiàn)很小,這個(gè)代價(jià)主要由其他未被正確分類的樣本產(chǎn)生勤哗。

  1. 隱藏單元
    大多數(shù)的隱藏單元都可以描述為接受輸入向量 x抡爹,計(jì)算仿射變 換 z = W?x + b,然后使用一個(gè)逐元素的非線性函數(shù) g(z)芒划。大多數(shù)隱藏單元的區(qū)別 僅僅在于激活函數(shù) g(z) 的形式冬竟。
    激活函數(shù):
    整流線性單元激活函數(shù): g(z) = max{0, z},優(yōu)點(diǎn):計(jì)算簡(jiǎn)單民逼,梯度不消失泵殴,缺點(diǎn):在 z = 0 處不可微, 不能通過(guò)基于梯度的方法學(xué)習(xí)那些使它們激活為零的樣本缴挖。
    絕對(duì)值整流(absolute value rectification): g(z) = |z|
    滲漏整流線性單元:g(z, α)= max(0, z) + αmin(0, z)袋狞, a是個(gè)很小的數(shù),如:0.01
    參數(shù)化整流線性單元(parametric ReLU)或者 PReLU: g(z, α)= max(0, z) + α
    min(0, z),將 α 作為學(xué)習(xí)的參數(shù)苟鸯。
    maxout 單元(maxout unit)
maxout

sigmod: σ(x) : x很大或很小的時(shí)候梯度飽和同蜻, 取值范圍不是0對(duì)稱。
雙曲正切函數(shù):g(z)=tanh(z)=2σ(2x)-1 早处, 取值范圍0對(duì)稱

一個(gè)使用sigmod激活函數(shù)的列子
  1. 架構(gòu)設(shè)計(jì)
    在這些鏈?zhǔn)郊軜?gòu)中湾蔓,主要的架構(gòu)考慮是選擇網(wǎng)絡(luò)的深度和每一層的寬度。即使只有一個(gè)隱藏層的網(wǎng)絡(luò)也足夠適應(yīng)訓(xùn)練集砌梆。更深層的網(wǎng)絡(luò)通常能夠 對(duì)每一層使用更少的單元數(shù)和更少的參數(shù)默责,并且經(jīng)常容易泛化到測(cè)試集,但是通常也更難以優(yōu)化咸包。

萬(wàn)能近似定理(universal approximation theorem):一個(gè)前饋神經(jīng)網(wǎng)絡(luò)如果具有線性輸出層和至少一層具有任何一種 “擠壓” 性質(zhì)的激活函數(shù)(例如logistic sigmoid激活函數(shù))的隱藏層桃序,只要給予網(wǎng)絡(luò)足夠數(shù)量的隱藏單元,它可以以任意的精度來(lái)近似任何從一個(gè)有限維空間到另一個(gè)有限維空間的 Borel 可測(cè)函數(shù)烂瘫。在 Rn 的有界閉集上的任意連續(xù)函數(shù)是 Borel 可測(cè)的媒熊, 因此可以用神經(jīng)網(wǎng)絡(luò)來(lái)近似。

總之坟比,具有單層的前饋網(wǎng)絡(luò)足以表示任何函數(shù)芦鳍,但是網(wǎng)絡(luò)層可能大得不可實(shí)現(xiàn), 并且可能無(wú)法正確地學(xué)習(xí)和泛化葛账。在很多情況下柠衅,使用更深的模型能夠減少表示期 望函數(shù)所需的單元的數(shù)量,并且可以減少泛化誤差籍琳。

  1. 反向傳播和其他的微分算法
    反向傳播(back propagation)算法菲宴,經(jīng)常簡(jiǎn)稱為backprop,允許來(lái)自代價(jià)函數(shù)的信息通過(guò)網(wǎng)絡(luò)向后流動(dòng)趋急, 以便計(jì)算梯度裙顽。
微分鏈?zhǔn)椒▌t

The chain rule of derivatives tells us how two small effects (that of a small change of x on y, and that of y on z) are composed. A small change Δx in x gets transformed first into a small change Δy in y by getting multiplied by ?y/?x (that is, the definition of partial derivative). Similarly, the change Δy creates a change Δz in z. Substituting one equation into the other gives the chain rule of derivatives — how Δx gets turned into Δz through multiplication by the product of ?y/?x and ?z/?x. It also works when x, y and z are vectors (and the derivatives are Jacobian matrices).

前向傳播與反向傳播

c: The equations used for computing the forward pass in a neural net with two hidden layers and one output layer, each constituting a module through which one can backpropagate gradients. At each layer, we first compute the total input z to each unit, which is a weighted sum of the outputs of the units in the layer below. Then a non-linear function f(.) is applied to z to get the output of the unit. For simplicity, we have omitted bias terms. The non-linear functions used in neural networks include the rectified linear unit (ReLU) f(z) = max(0,z), commonly used in recent years, as well as the more conventional sigmoids, such as the hyberbolic tangent, f(z) = (exp(z) ? exp(?z))/(exp(z) + exp(?z)) and logistic function logistic, f(z) = 1/(1 + exp(?z)).

d: The equations used for computing the backward pass. At each hidden layer we compute the error derivative with respect to the output of each unit, which is a weighted sum of the error derivatives with respect to the total inputs to the units in the layer above. We then convert the error derivative with respect to the output into the error derivative with respect to the input by multiplying it by the gradient of f(z). At the output layer, the error derivative with respect to the output of a unit is computed by differentiating the cost function. This gives yl ? tl if the cost function for unit l is 0.5(yl ? tl) , where tl is the target value. Once the ?E/?zk is known, the error-derivative for the weight wjk on the connection from unit j in the layer below is just yj ?E/?zk

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市宣谈,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌键科,老刑警劉巖闻丑,帶你破解...
    沈念sama閱讀 206,482評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異勋颖,居然都是意外死亡嗦嗡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門饭玲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)侥祭,“玉大人,你說(shuō)我怎么就攤上這事“” “怎么了谈宛?”我有些...
    開封第一講書人閱讀 152,762評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)胎署。 經(jīng)常有香客問(wèn)我吆录,道長(zhǎng),這世上最難降的妖魔是什么琼牧? 我笑而不...
    開封第一講書人閱讀 55,273評(píng)論 1 279
  • 正文 為了忘掉前任恢筝,我火速辦了婚禮,結(jié)果婚禮上巨坊,老公的妹妹穿的比我還像新娘撬槽。我一直安慰自己,他們只是感情好趾撵,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,289評(píng)論 5 373
  • 文/花漫 我一把揭開白布侄柔。 她就那樣靜靜地躺著,像睡著了一般鼓寺。 火紅的嫁衣襯著肌膚如雪勋拟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,046評(píng)論 1 285
  • 那天妈候,我揣著相機(jī)與錄音敢靡,去河邊找鬼。 笑死苦银,一個(gè)胖子當(dāng)著我的面吹牛啸胧,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播幔虏,決...
    沈念sama閱讀 38,351評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼纺念,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了想括?” 一聲冷哼從身側(cè)響起陷谱,我...
    開封第一講書人閱讀 36,988評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎瑟蜈,沒(méi)想到半個(gè)月后烟逊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,476評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡铺根,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,948評(píng)論 2 324
  • 正文 我和宋清朗相戀三年宪躯,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片位迂。...
    茶點(diǎn)故事閱讀 38,064評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡访雪,死狀恐怖详瑞,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情臣缀,我是刑警寧澤坝橡,帶...
    沈念sama閱讀 33,712評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站肝陪,受9級(jí)特大地震影響驳庭,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜氯窍,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,261評(píng)論 3 307
  • 文/蒙蒙 一饲常、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧狼讨,春花似錦贝淤、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至布隔,卻和暖如春离陶,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背衅檀。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工招刨, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人哀军。 一個(gè)月前我還...
    沈念sama閱讀 45,511評(píng)論 2 354
  • 正文 我出身青樓沉眶,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親杉适。 傳聞我的和親對(duì)象是個(gè)殘疾皇子谎倔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,802評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容