傳統(tǒng)RNN網(wǎng)絡(luò)中的梯度下降現(xiàn)象會(huì)導(dǎo)致RNN的記憶能力并不太好。為了使得RNN網(wǎng)絡(luò)能夠記得更久以前的信息著蛙,就有了GRU(gated recurrent unit)。GRU使得信息可以直接從過(guò)去流到現(xiàn)在耳贬,而不需要經(jīng)過(guò)連續(xù)的矩陣作用踏堡。
我們?cè)谶@里以tanh-RNN為例來(lái)說(shuō)明,傳統(tǒng)的網(wǎng)絡(luò)更新流程如圖Fig 0所示效拭。
Fig 0
但是GRU采用的策略如Fig1所示暂吉。
Fig 1
首先我們?cè)趆中選擇一個(gè)子集,這個(gè)子集經(jīng)過(guò)傳統(tǒng)的tanh作用后缎患,我們得到h'慕的,數(shù)學(xué)形式如Fig 2中所示。
Fig 2.
那么r(eset)這個(gè)值該怎么決定呢挤渔?
Fig 3
r決定了h中哪些元素在產(chǎn)生h'的時(shí)候起作用肮街。但是這里仍然不是最后的updata,最后的update如圖Fig 4所示判导。
Fig 4.
u是update gate嫉父,它的定義如圖Fig 5所示。
Fig 5.