重磅盤點:過去8年中深度學(xué)習(xí)最重要的想法

姓名:韓宜真

學(xué)號17020120095

轉(zhuǎn)載自:https://mp.weixin.qq.com/s/6bRCoQTLi_SiW9cCMDR3MA

【嵌牛導(dǎo)讀】深度學(xué)習(xí)是一個瞬息萬變的領(lǐng)域帽揪,有著層出不窮的論文和新思路蝌衔。

【嵌牛鼻子】強化學(xué)習(xí) 深度學(xué)習(xí)

【嵌牛提問】深度學(xué)習(xí)這個機器學(xué)習(xí)領(lǐng)域的新方向有什么值得探究的問題呢延赌?

【嵌牛正文】深度學(xué)習(xí)是一個瞬息萬變的領(lǐng)域,層出不窮的論文和新思路可能會令人不知所措款慨。即使是經(jīng)驗豐富的研究人員,也很難準(zhǔn)確將研究成果傳達給公司的公關(guān)部門谬莹,繼而傳達給大眾檩奠。

對于初學(xué)者來說,理解和實現(xiàn)這些技術(shù)有利于打下堅實的理論基礎(chǔ)届良,是入門的最佳方法笆凌。

在深度學(xué)習(xí)領(lǐng)域,很多技術(shù)都可以跨域多個應(yīng)用領(lǐng)域士葫,包括計算機視覺乞而,自然語言,語音識別和強化學(xué)習(xí)等等慢显。在計算機視覺領(lǐng)域使用過深度學(xué)習(xí)的人爪模,可能很快就能將類似的技術(shù)應(yīng)用到自然語言研究中,即使特定的網(wǎng)絡(luò)結(jié)構(gòu)有所不同荚藻,但其概念屋灌,實現(xiàn)方法和代碼基本一致。

必須強調(diào)的是应狱,本文側(cè)重于計算機視覺共郭,自然語言,語音識別和強化學(xué)習(xí)領(lǐng)域疾呻,但不會詳細解釋每種深度學(xué)習(xí)技術(shù)除嘹,用寥寥數(shù)百字解釋清楚一篇幾十頁的論文是不現(xiàn)實的。另外還有一些不容易重現(xiàn)的重要研究岸蜗,比如 DeepMind 的 AlphaGo 或 OpenAI 的 OpenAI Five(Dota 2 模型)尉咕,涉及到巨大的工程和運算挑戰(zhàn),因此也不是討論的重點璃岳。

這篇文章的目的年缎,是回顧在深度學(xué)習(xí)領(lǐng)域影響深遠的成果,概述每種技術(shù)及其歷史背景铃慷,盡量引導(dǎo)深度學(xué)習(xí)新人接觸多個領(lǐng)域的基礎(chǔ)技術(shù)单芜。它們是這個領(lǐng)域最值得信賴的基石,每一個技術(shù)都經(jīng)過了無數(shù)次的引用犁柜、使用和改進缓溅,經(jīng)得起推敲。

2012 年:用 AlexNet 和 Dropout 解決 ImageNet 圖像分類

AlexNet 通常被認為是近年來引領(lǐng)深度學(xué)習(xí)和人工智能研究蓬勃發(fā)展的基礎(chǔ)算法赁温。它是一種深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)坛怪,基于人工智能大牛 Yann LeCun 早年間開發(fā)的 LeNet 模型淤齐。

AlexNet 結(jié)合了 GPU 的強大性能和先進的算法,在對 ImageNet 圖像數(shù)據(jù)集分類時袜匿,其表現(xiàn)遠遠超越了之前的所有算法更啄。它證明了神經(jīng)網(wǎng)絡(luò)真的很好用(至少在圖像分類上)。AlexNet 也是首次使用 Dropout 技巧的算法之一居灯,為了防止過擬合祭务。此后 Dropout 成為了提高各種深度學(xué)習(xí)模型泛化能力的重要工具。

AlexNet 使用的結(jié)構(gòu)怪嫌,包括一系列卷積層义锥,ReLU 非線性激活函數(shù)和最大池化(Max-pooling)已成為公認標(biāo)準(zhǔn)模式,在許多計算機視覺模型結(jié)構(gòu)中都有用到和進一步擴展岩灭。

與最新的模型相比拌倍,AlexNet 顯得異常簡單,得益于 PyTorch 等強大的軟件庫噪径,僅需幾行代碼即可實現(xiàn)柱恤。值得注意的是,目前 AlexNet 的許多實現(xiàn)方法都與最早論文中闡述的有些許不同找爱,目的是為了對卷積神經(jīng)網(wǎng)絡(luò)并行運算梗顺。

2013 年:利用深度強化學(xué)習(xí)玩 Atari 游戲

基于在圖像識別和 GPU 方面取得的突破,DeepMind 團隊成功利用強化學(xué)習(xí)(RL)訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)车摄,可以通過原始像素輸入來玩 Atari 游戲寺谤。而且在不知道游戲規(guī)則的前提下,相同的神經(jīng)網(wǎng)絡(luò)模型還學(xué)會了玩 7 種不同的游戲吮播,證明了這種方法的泛化性矗漾。

強化學(xué)習(xí)與監(jiān)督學(xué)習(xí)(例如圖像分類)的不同之處在于,AI 代理(agent)必須學(xué)會在多個時間點上最大化整體獎勵薄料,比如贏得一場比賽,而不僅僅是預(yù)測分類標(biāo)簽泵琳。

由于 AI 代理直接與環(huán)境交互且每個動作都會影響環(huán)境摄职,因此訓(xùn)練數(shù)據(jù)不是獨立同分布的(i.i.d.),這使得許多機器學(xué)習(xí)模型的訓(xùn)練非常不穩(wěn)定获列。這可以使用經(jīng)驗回放等技術(shù)解決谷市。

盡管沒有明顯的算法創(chuàng)新,但 DeepMind 的研究巧妙地結(jié)合了當(dāng)時的現(xiàn)有技術(shù)击孩,在 GPU 上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)迫悠,經(jīng)驗回放以及一些數(shù)據(jù)處理技巧,從而實現(xiàn)了超出大部分人預(yù)期的驚艷結(jié)果巩梢。這使人們有信心繼續(xù)探索深度強化學(xué)習(xí)技術(shù)创泄,以解決更復(fù)雜的任務(wù)艺玲,由此演變出 AlphaGo 圍棋 AI,Dota 2 AI 和星際爭霸 2 AI 等等鞠抑。

此后饭聚,Atari 系列游戲成為了強化學(xué)習(xí)研究的基準(zhǔn)。最初的算法只能在 7 個游戲中超越人類搁拙,但未來幾年中秒梳,更先進的模型開始在越來越多的游戲中擊敗人類。其中一款名為 “蒙特祖瑪?shù)膹?fù)仇” 的游戲因需要長期規(guī)劃而聞名箕速,也被認為是最難解決的游戲之一酪碘,于 2018 年被攻克。

今年 4 月盐茎,AI 終于在 Atari 的全部 57 款游戲中超越了人類兴垦。

2014 年:采用注意力機制的編碼器 - 解碼器網(wǎng)絡(luò)

在自然語言處理領(lǐng)域,盡管有長短期記憶網(wǎng)絡(luò)(LSTM)和編碼器 - 解碼器網(wǎng)絡(luò)(Encoder-Decoder)庭呜,能夠處理語言建模和翻譯任務(wù)滑进,但其實直到 2014 年注意力機制(Attention Mechanism)的問世,才獲得了跨越式的進步募谎。

在處理語言時扶关,每個標(biāo)記(token)—— 可能是字符,單詞或介于兩者之間的某種東西 —— 都會被輸入一個循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)之中数冬。例如 LSTM节槐,該網(wǎng)絡(luò)可以記住之前一定時間之內(nèi)的輸入值。

換句話說拐纱,句子與時間序列非常相似铜异,每個標(biāo)記都是一個時間步長。這些循環(huán)神經(jīng)網(wǎng)絡(luò)模型通常很難處理長時間的相關(guān)性秸架,因為會 “忘記” 較早的輸入值揍庄,而且使用梯度下降來優(yōu)化這些模型同樣非常困難。

新的注意力機制有助于緩解這一問題东抹。它通過引入 “快捷連接(shortcut connections)”蚂子,使神經(jīng)網(wǎng)絡(luò)可以自適應(yīng)選擇 “回顧” 前面的輸入值(將輸入加到輸出上)。在生成特定輸出時缭黔,這些連接允許網(wǎng)絡(luò)決定哪些輸入很重要食茎。翻譯模型是一個經(jīng)典例子,在生成翻譯后的輸出字 / 詞時馏谨,模型會將其映射到一個或多個特定的輸入字 / 詞别渔。

2014 年:Adam 優(yōu)化器

訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要使用優(yōu)化器使損失函數(shù)(比如平均分類錯誤)最小化。優(yōu)化器負責(zé)弄清楚如何調(diào)整網(wǎng)絡(luò)參數(shù),實現(xiàn)學(xué)習(xí)目標(biāo)哎媚。

大多數(shù)優(yōu)化器都基于隨機梯度下降(SGD)及其變種喇伯。許多優(yōu)化器本身都包含可調(diào)參數(shù),例如學(xué)習(xí)率(learning rate)抄伍。為特定問題找到正確的參數(shù)配置艘刚,不僅可以減少訓(xùn)練時間,還可以找到更好的損失函數(shù)局部最小值截珍,得到更好的訓(xùn)練結(jié)果攀甚。

大型研究實驗室經(jīng)常運行昂貴的超參數(shù)搜索,需要設(shè)計非常復(fù)雜的學(xué)習(xí)率變化計劃岗喉,以便從優(yōu)化器中獲得最大收益秋度。有時候,他們找到的最終結(jié)果超過了現(xiàn)有基準(zhǔn)钱床,但這是花費了大量資金對優(yōu)化器進行優(yōu)化的結(jié)果荚斯。類似的細節(jié)經(jīng)常在論文中被忽略,導(dǎo)致沒有相同預(yù)算來優(yōu)化其優(yōu)化器的研究人員找不到最優(yōu)解查牌。

Adam 優(yōu)化器使用了自適應(yīng)矩估計方法事期,對隨機目標(biāo)函數(shù)執(zhí)行一階梯度優(yōu)化并自動調(diào)整學(xué)習(xí)率。結(jié)果非持窖眨可靠兽泣,并且對超參數(shù)選擇不太敏感。

簡而言之胁孙,Adam 不需要像其他優(yōu)化器一樣進行大量的調(diào)整唠倦。盡管調(diào)整得非常好的 SGD 優(yōu)化器可以得到更好的結(jié)果,但是 Adam 讓研究更容易完成涮较,因為如果無法得到預(yù)想中的結(jié)果稠鼻,科研人員至少可以排除優(yōu)化器調(diào)整不當(dāng)這一原因。

2014/2015 年:生成式對抗網(wǎng)絡(luò)(GAN)

生成式模型的目標(biāo)是創(chuàng)建逼真的數(shù)據(jù)樣本狂票,例如栩栩如生的假人臉圖片候齿。因為這類模型必須對全部數(shù)據(jù)分布進行建模(像素很多),而不僅僅是分類圖片闺属,所以它們通常很難訓(xùn)練慌盯。生成式對抗網(wǎng)絡(luò)(GAN)就是這樣一種模型。

GAN 的基本思想是訓(xùn)練兩個神經(jīng)網(wǎng)絡(luò):生成器和判別器屋剑。生成器的目標(biāo)是生成樣本,蒙蔽判別器诗眨,而判別器則是要區(qū)分真實圖像和(生成器生成的)虛假圖像唉匾。隨著訓(xùn)練的進行,鑒別器的表現(xiàn)會越來越好,但生成器也會變得更好巍膘,生成的圖像也更加逼真厂财。

初代 GAN 只能產(chǎn)生模糊的低分辨率圖像,并且訓(xùn)練起來非常不穩(wěn)定峡懈。但是隨著人們不斷努力璃饱,誕生了諸如 DCGAN,Wasserstein GAN肪康,CycleGAN荚恶,StyleGAN 等多種多樣的模型,現(xiàn)在已經(jīng)可以生成高分辨率的逼真圖像和視頻磷支。

2015 年:殘差網(wǎng)絡(luò)(ResNet)

自 2012 年以來谒撼,研究人員在 AlexNet 的基礎(chǔ)上添磚加瓦,發(fā)明了性能更好的基于卷積神經(jīng)網(wǎng)絡(luò)的模型雾狈,例如 VGGNet 和 Inception 等等廓潜。ResNet 是其中最有代表性的一個,標(biāo)志著下一個迭代善榛。

目前辩蛋,ResNet 的變體通常用作各種任務(wù)的基準(zhǔn)模型,也被用來構(gòu)建更復(fù)雜的模型移盆。

除了在 ILSVRC 2015 分類挑戰(zhàn)中獲得第一名之外悼院,ResNet 的過人之處還在于它的模型深度:論文中提到的最深 ResNet 有 1000 層,并且仍然表現(xiàn)良好味滞,盡管在基準(zhǔn)任務(wù)上比其 101 和 152 層對應(yīng)的網(wǎng)絡(luò)稍差樱蛤。由于梯度消失,訓(xùn)練這種非常深的網(wǎng)絡(luò)是一個極具挑戰(zhàn)性的優(yōu)化問題剑鞍,幾乎沒有研究人員認為訓(xùn)練如此深的網(wǎng)絡(luò)可以帶來良好的穩(wěn)定結(jié)果昨凡。

ResNet 使用了 “身份快捷連接(identity shortcut connections)” 連接來幫助實現(xiàn)梯度流動。解釋這些連接的一種方法是蚁署,ResNet 只需要學(xué)習(xí)從一層到另一層的 “增量 delta”便脊,這通常比學(xué)習(xí)完整的(傳遞)要容易得多。

2017 年:Transformer

引入注意力機制的 Seq2Seq 模型已經(jīng)有很好的表現(xiàn)光戈,但缺點在于需要順序計算哪痰,很難做到并行。這讓研究人員很難將它們擴大到非常長的序列久妆,即使引入了注意力機制晌杰,該模型在構(gòu)建復(fù)雜的長期相關(guān)關(guān)系時仍然相形見絀。大多數(shù)的 “工作” 似乎都在循環(huán)層中完成筷弦。

Transformer 的出現(xiàn)解決了這些問題肋演,方法是完全消除循環(huán)抑诸,用多個前饋自我注意力層代替,然后并行處理序列中的所有單詞或符號爹殊。由于輸入和輸出之間的路徑較短蜕乡,更容易通過梯度下降優(yōu)化,進而實現(xiàn)快速訓(xùn)練且易于擴展梗夸。此外层玲,Transformer 還會使用位置編碼技術(shù),將輸入值的順序告訴神經(jīng)網(wǎng)絡(luò)反症。

Transformer 的效果超出了所有人的預(yù)料辛块。在接下來的幾年中,它成為了絕大多數(shù)自然語言處理任務(wù)和其他序列任務(wù)的標(biāo)準(zhǔn)架構(gòu)惰帽,甚至還用到了計算機視覺領(lǐng)域中憨降。

2018 年:BERT 和微調(diào)自然語言處理模型

預(yù)訓(xùn)練是指訓(xùn)練模型執(zhí)行某些任務(wù),然后將學(xué)到的參數(shù)作為初始參數(shù)该酗,用于其他類似任務(wù)中授药。這符合人們的直覺:一個已經(jīng)學(xué)會將圖像分類為貓或狗的模型,應(yīng)該已經(jīng)掌握了有關(guān)圖像和毛茸茸的動物的通用知識呜魄。所以微調(diào)該模型并對狐貍分類時悔叽,人們希望它比從零學(xué)習(xí)的模型做得更好。

類似地爵嗅,學(xué)會預(yù)測句子中下一個單詞的模型應(yīng)該已經(jīng)學(xué)會了有關(guān)人類語言模式的通用知識娇澎。人們希望它在翻譯或情緒分析等相關(guān)任務(wù)中起點更高。

預(yù)訓(xùn)練和微調(diào)已在計算機視覺領(lǐng)域作為標(biāo)準(zhǔn)使用許久睹晒,但將其運用在自然語言處理中更具挑戰(zhàn)性趟庄。大多數(shù)表現(xiàn)最好的結(jié)果仍來自完全監(jiān)督模型。隨著 Transformer 的出現(xiàn)伪很,研究人員終于可以更方便的開展預(yù)訓(xùn)練戚啥,由此誕生了 ELMo,ULMFiT 和 OpenAI GPT 之類的模型锉试。

BERT 是這種思路的最新成果猫十,許多人認為它開啟了自然語言處理研究的新紀(jì)元。該模型在預(yù)訓(xùn)練中會對句子中故意被刪掉的單詞進行預(yù)測呆盖,還會判斷兩個句子彼此相連的可性能拖云,而不是單純地預(yù)訓(xùn)練如何預(yù)測下一個單詞。

完成這些任務(wù)不需要標(biāo)記數(shù)據(jù)应又,因此它可以在任何文本上訓(xùn)練宙项,這意味著取之不盡的訓(xùn)練數(shù)據(jù)。該預(yù)訓(xùn)練模型已經(jīng)學(xué)習(xí)了一些語言方面的常規(guī)屬性株扛,之后對其進行微調(diào)就能用來解決監(jiān)督式任務(wù)尤筐,例如問題回答或預(yù)測情緒邑贴。

BERT 在各種各樣的任務(wù)中都表現(xiàn)出色,還有 HuggingFace 一類的公司叔磷,允許人們輕松獲取和微調(diào)用于各種自然語言處理任務(wù)的 BERT 類模型。時至今日奖磁,在 BERT 的基礎(chǔ)上出現(xiàn)了 XLNet改基,RoBERTa 和 ALBERT 等更加先進的模型。

2019/2020 年及未來:巨大的語言模型和自我監(jiān)督式學(xué)習(xí)

縱觀深度學(xué)習(xí)歷史及其發(fā)展趨勢咖为,人們不難發(fā)現(xiàn)秕狰,可以更好地并行運算,擁有更多數(shù)據(jù)和更多模型參數(shù)的算法一次又一次地擊敗了所謂的 “更聰明的技術(shù)”躁染。這種趨勢似乎一直持續(xù)至今鸣哀,OpenAI 放出了擁有 1750 億個參數(shù)的巨大語言模型 GPT-3,盡管它只有簡單的訓(xùn)練目標(biāo)和標(biāo)準(zhǔn)網(wǎng)絡(luò)結(jié)構(gòu)吞彤,卻顯示出無可比擬的強大泛化能力我衬。

同樣的趨勢還出現(xiàn)在自我監(jiān)督學(xué)習(xí)方法上,比如 SimCLR饰恕,它們可以更好地利用未標(biāo)記的數(shù)據(jù)挠羔。 隨著模型變大和訓(xùn)練速度變快,那些可以更有效地利用網(wǎng)絡(luò)上大量未標(biāo)記的數(shù)據(jù)埋嵌,并將學(xué)習(xí)到的通用知識轉(zhuǎn)移到其他任務(wù)上的模型將變得越來越有價值破加。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市雹嗦,隨后出現(xiàn)的幾起案子范舀,更是在濱河造成了極大的恐慌,老刑警劉巖了罪,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件锭环,死亡現(xiàn)場離奇詭異,居然都是意外死亡捶惜,警方通過查閱死者的電腦和手機田藐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吱七,“玉大人汽久,你說我怎么就攤上這事∮徊停” “怎么了景醇?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長吝岭。 經(jīng)常有香客問我三痰,道長吧寺,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任散劫,我火速辦了婚禮稚机,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘获搏。我一直安慰自己赖条,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布常熙。 她就那樣靜靜地躺著纬乍,像睡著了一般。 火紅的嫁衣襯著肌膚如雪裸卫。 梳的紋絲不亂的頭發(fā)上仿贬,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天,我揣著相機與錄音墓贿,去河邊找鬼茧泪。 笑死,一個胖子當(dāng)著我的面吹牛聋袋,可吹牛的內(nèi)容都是我干的调炬。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼舱馅,長吁一口氣:“原來是場噩夢啊……” “哼缰泡!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起代嗤,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤棘钞,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后干毅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體宜猜,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年硝逢,在試婚紗的時候發(fā)現(xiàn)自己被綠了姨拥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡渠鸽,死狀恐怖叫乌,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情徽缚,我是刑警寧澤憨奸,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站凿试,受9級特大地震影響排宰,放射性物質(zhì)發(fā)生泄漏似芝。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一板甘、第九天 我趴在偏房一處隱蔽的房頂上張望党瓮。 院中可真熱鬧,春花似錦盐类、人聲如沸麻诀。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至呻率,卻和暖如春硬毕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背礼仗。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工吐咳, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人元践。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓韭脊,卻偏偏與公主長得像,于是被迫代替她去往敵國和親单旁。 傳聞我的和親對象是個殘疾皇子沪羔,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容