RNN的研究發(fā)展過程

1982年挪丢,美國加州理工學院物理學家John hopfield 發(fā)明了一種單層反饋神經(jīng)網(wǎng)絡 Hopfield network蹂风,用來解決組合優(yōu)化問題。這是最早的RNN的雛形乾蓬。86年惠啄,michael I. Jordan 定義了recurrent的概念,提出 Jordan network。1990年, 美國認知科學家Jeffrey L. Elman 對jordan network進行了簡化,并采用BP算法進行訓練礁阁,便有了如今最簡單的包含單個自連接節(jié)點的RNN 模型巧号。但此時RNN由于梯度消失(gradient vanishing)及梯度爆炸(gradient exploding)的問題,訓練非常困難姥闭,應用非常受限丹鸿。直到1997年,人工智能研究所的主任Jurgen Schmidhuber 提出長短期記憶(LSTM)棚品,LSTM使用門控單元及記憶機制大大緩解了早期RNN訓練的問題靠欢。同樣在1997年,Mike Schuster 提出雙向RNN模型(Bidirectional RNN)铜跑。這兩種模型大大改進了早期RNN結(jié)構(gòu)门怪,拓寬了RNN的應用范圍,為后續(xù)序列建模的發(fā)展奠定了基礎锅纺。此時RNN雖然在一些序列建模任務上取得了不錯的效果掷空,但由于計算資源消耗大,后續(xù)幾年一直沒有太大的進展囤锉。

2010年坦弟,Tomas Mikolov對bengio提出的feedforward Neural network language model (NNLM) 進行了改進,提出了基于RNN的語言模型(RNN LM)官地,并將其用在語音識別任務中酿傍,大幅提升了識別精度。再此基礎上Tomas Mikolov于2013年提出了大名鼎鼎的word2vec驱入,與NNLM及RNNLM不同赤炒,word2vec的目標不再專注于建模語言模型,而是如何利用語言模型學習每個單詞的語義化向量(distributed representation)亏较,其中distributed representation概念最早要來源于Hinton 1986年的工作莺褒。Word2vec引發(fā)了深度學習在自然語言處理領(lǐng)域的浪潮,除此之外還啟發(fā)了knowledge representation宴杀,network representation等新的領(lǐng)域癣朗。

另一方面,2014年旺罢,Bengio團隊與google幾乎同時提出了seq2seq架構(gòu),將RNN用于機器翻譯绢记。沒過多久扁达,Bengio團隊又提出attention機制,對seq2seq架構(gòu)進行改進蠢熄。自此機器翻譯全面進入到神經(jīng)機器翻譯(NMT)的時代跪解,NMT不僅過程簡單,而且效果要遠超統(tǒng)計機器翻譯的效果签孔。目前主流的機器翻譯系統(tǒng)幾乎都采用了神經(jīng)機器翻譯的技術(shù)叉讥。除此之外窘行,attention機制也被廣泛用于基于深度學習的各種任務中。

近兩年图仓,相關(guān)領(lǐng)域仍有一些突破性進展罐盔,2017年,facebook人工智能實驗室提出基于卷積神經(jīng)網(wǎng)絡的seq2seq架構(gòu)救崔,將rnn替換為帶有門控單元的cnn惶看,提升效果的同時大幅加快了模型訓練速度,此后不久六孵,google提出transformer架構(gòu)纬黎,使用self-attention代替原有的RNN及CNN,更進一步降低了模型復雜度劫窒。在詞表示學習方面本今,Allen人工智能研究所2018年提出上下文相關(guān)的表示學習方法ELMo,利用雙向LSTM語言模型對不同語境下的單詞學習不同的向量表示主巍,在6個nlp任務上取得了提升诈泼。OpenAI團隊在此基礎上提出預訓練模型GPT,把LSTM替換為transformer來訓練語言模型煤禽,在應用到具體任務時铐达,與之前學習詞向量當作特征的方式不同,GPT直接在預訓練得到的語言模型最后一層接上softmax作為任務輸出層檬果,然后再對模型進行微調(diào)瓮孙,在多項任務上GPT取得了更好的效果。不久之后选脊,Google提出BERT模型杭抠,將GPT中的單向語言模型拓展為雙向語言模型(Masked Language Model),并在預訓練中引入了sentence prediction任務恳啥。BERT模型在11個任務中取得了最好的效果偏灿,是深度學習在nlp領(lǐng)域又一個里程碑式的工作。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末钝的,一起剝皮案震驚了整個濱河市翁垂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌硝桩,老刑警劉巖沿猜,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異碗脊,居然都是意外死亡啼肩,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來祈坠,“玉大人害碾,你說我怎么就攤上這事∩饩校” “怎么了慌随?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長另绩。 經(jīng)常有香客問我儒陨,道長,這世上最難降的妖魔是什么笋籽? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任蹦漠,我火速辦了婚禮,結(jié)果婚禮上车海,老公的妹妹穿的比我還像新娘笛园。我一直安慰自己,他們只是感情好侍芝,可當我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布研铆。 她就那樣靜靜地躺著,像睡著了一般州叠。 火紅的嫁衣襯著肌膚如雪棵红。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天咧栗,我揣著相機與錄音逆甜,去河邊找鬼。 笑死致板,一個胖子當著我的面吹牛交煞,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播斟或,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼娃胆,長吁一口氣:“原來是場噩夢啊……” “哼淹禾!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起何暮,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤漂洋,失蹤者是張志新(化名)和其女友劉穎狈茉,沒想到半個月后恼策,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瞭稼,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年绘面,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡揭璃,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出瘦馍,到底是詐尸還是另有隱情歼秽,我是刑警寧澤,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布情组,位于F島的核電站,受9級特大地震影響肆氓,放射性物質(zhì)發(fā)生泄漏谢揪。R本人自食惡果不足惜捐凭,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一拨扶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧茁肠,春花似錦患民、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至奶赔,卻和暖如春惋嚎,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背站刑。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工另伍, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人绞旅。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓摆尝,卻偏偏與公主長得像,于是被迫代替她去往敵國和親因悲。 傳聞我的和親對象是個殘疾皇子堕汞,可洞房花燭夜當晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容

  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎知識。這篇文章晃琳,甚至之后...
    我偏笑_NSNirvana閱讀 13,928評論 2 64
  • 9. 循環(huán)神經(jīng)網(wǎng)絡 場景描述 循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network)是一種主流的深度學習...
    _龍雀閱讀 2,916評論 0 3
  • 本文另兩篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(下) 3. 梯子的一級半 除了在word級別的embed...
    weizier閱讀 6,617評論 0 18
  • 近日讯检,谷歌官方在 Github開放了一份神經(jīng)機器翻譯教程琐鲁,該教程從基本概念實現(xiàn)開始,首先搭建了一個簡單的NMT模型...
    MiracleJQ閱讀 6,411評論 1 11
  • 激活函數(shù)(Activation Function) 為了讓神經(jīng)網(wǎng)絡能夠?qū)W習復雜的決策邊界(decision bou...
    御風之星閱讀 5,152評論 0 8