深度學(xué)習(xí)簡(jiǎn)史

姓名:雷欣嵐弱判;學(xué)號(hào):21021210909;學(xué)院:電子工程學(xué)院

【嵌牛導(dǎo)讀】深度學(xué)習(xí)簡(jiǎn)史

【嵌牛正文】

1

1958 年:感知機(jī)的興起

1958 年赦肃,弗蘭克 · 羅森布拉特發(fā)明了感知機(jī),這是一種非常簡(jiǎn)單的機(jī)器模型公浪,后來成為當(dāng)今智能機(jī)器的核心和起源滔以。

感知機(jī)是一個(gè)非常簡(jiǎn)單的二元分類器,可以確定給定的輸入圖像是否屬于給定的類妓灌。為了實(shí)現(xiàn)這一點(diǎn),它使用了單位階躍激活函數(shù)蜜宪。使用單位階躍激活函數(shù)虫埂,如果輸入大于 0,則輸出為 1圃验,否則為 0掉伏。

感知機(jī)

Frank 的意圖不是將感知機(jī)構(gòu)建為算法,而是構(gòu)建成一種機(jī)器澳窑。感知機(jī)是在名為 Mark I 感知機(jī)的硬件中實(shí)現(xiàn)的斧散。Mark I 感知機(jī)是一臺(tái)純電動(dòng)機(jī)器。它有 400 個(gè)光電管(或光電探測(cè)器)摊聋,其權(quán)重被編碼到電位器中鸡捐,權(quán)重更新(發(fā)生在反向傳播中)由電動(dòng)機(jī)執(zhí)行。

就像你今天在新聞中看到的關(guān)于神經(jīng)網(wǎng)絡(luò)的內(nèi)容一樣麻裁,感知機(jī)也是當(dāng)時(shí)的頭條新聞箍镜。《紐約時(shí)報(bào)》報(bào)道說煎源,“[海軍] 期望電子計(jì)算機(jī)的初步模型能夠行走色迂、說話、觀察薪夕、書寫脚草、自我復(fù)制并意識(shí)到它的存在”。今天原献,我們都知道機(jī)器仍然難以行走馏慨、說話、觀察姑隅、書寫写隶、復(fù)制自己,而意識(shí)則是另一回事讲仰。

Mark I 感知機(jī)的目標(biāo)僅僅是識(shí)別圖像慕趴,而當(dāng)時(shí)它只能識(shí)別兩個(gè)類別。人們花了一些時(shí)間才知道添加更多層(感知機(jī)是單層神經(jīng)網(wǎng)絡(luò))可以使網(wǎng)絡(luò)具有學(xué)習(xí)復(fù)雜功能的能力。這進(jìn)一步產(chǎn)生了多層感知機(jī) (MLP)冕房。

2

1982-1986 : 循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)

在多層感知機(jī)顯示出解決圖像識(shí)別問題的潛力之后躏啰,人們開始思考如何對(duì)文本等序列數(shù)據(jù)進(jìn)行建模。

循環(huán)神經(jīng)網(wǎng)絡(luò)是一類旨在處理序列的神經(jīng)網(wǎng)絡(luò)耙册。與多層感知機(jī) (MLP) 等前饋網(wǎng)絡(luò)不同给僵,RNN 有一個(gè)內(nèi)部反饋回路,負(fù)責(zé)記住每個(gè)時(shí)間步長(zhǎng)的信息狀態(tài)详拙。

第一種 RNN 單元在 1982 年到 1986 年之間被發(fā)現(xiàn)帝际,但它并沒有引起人們的注意,因?yàn)楹?jiǎn)單的 RNN 單元在用于長(zhǎng)序列時(shí)會(huì)受到很大影響饶辙,主要是存在記憶力短和梯度不穩(wěn)定的問題蹲诀。

3

1998:LeNet-5,第一個(gè)CNN架構(gòu)

LeNet-5 是最早的卷積網(wǎng)絡(luò)架構(gòu)之一弃揽,于 1998 年用于文檔識(shí)別脯爪。LeNet-5 由 3 個(gè)部分組成:2 個(gè)卷積層、2 個(gè)子采樣或池化層和 3 個(gè)全連接層蹋宦。卷積層中沒有激活函數(shù)披粟。

LeNet-5 在當(dāng)時(shí)確實(shí)是一個(gè)有影響力的研究,但它(常規(guī)的卷積網(wǎng)絡(luò))直到 20 年后才受到關(guān)注冷冗!LeNet-5 建立在早期工作的基礎(chǔ)上守屉,例如福島邦彥提出的第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)、反向傳播(Hinton 等人蒿辙,1986 年)和應(yīng)用于手寫郵政編碼識(shí)別的反向傳播(LeCun 等人拇泛,1989 年)。

4

1998:長(zhǎng)短期記憶(LSTM)

由于梯度不穩(wěn)定的問題思灌,簡(jiǎn)單 RNN 單元無法處理長(zhǎng)序列問題俺叭。LSTM 是可用于處理長(zhǎng)序列的 RNN 版本。LSTM 基本上是 RNN 單元的極端情況泰偿。

LSTM 單元的一個(gè)特殊設(shè)計(jì)差異是它有一個(gè)門機(jī)制熄守,這是它可以控制多個(gè)時(shí)間步長(zhǎng)的信息流的基礎(chǔ)。

簡(jiǎn)而言之耗跛,LSTM 使用門來控制從當(dāng)前時(shí)間步長(zhǎng)到下一個(gè)時(shí)間步長(zhǎng)的信息流裕照,有以下 4 種方式:

輸入門識(shí)別輸入序列。

遺忘門去掉輸入序列中包含的所有不相關(guān)信息调塌,并將相關(guān)信息存儲(chǔ)在長(zhǎng)期記憶中晋南。

LTSM 單元更新“更新單元“的狀態(tài)值。

輸出門控制必須發(fā)送到下一個(gè)時(shí)間步長(zhǎng)的信息羔砾。

LSTM 處理長(zhǎng)序列的能力使其成為適合各種序列任務(wù)的神經(jīng)網(wǎng)絡(luò)架構(gòu)负间,例如文本分類偶妖、情感分析、語音識(shí)別政溃、圖像標(biāo)題生成和機(jī)器翻譯趾访。

LSTM 是一種強(qiáng)大的架構(gòu),但它的計(jì)算成本很高玩祟。2014 年推出的 GRU(Gated Recurrent Unit)可以解決這個(gè)問題腹缩。與 LSTM 相比,GRU的參數(shù)更少空扎,效果也很好。

5

2012 年:ImageNet 挑戰(zhàn)賽润讥、AlexNet 和 ConvNet 的興起

如果跳過 ImageNet 大規(guī)模視覺識(shí)別挑戰(zhàn)賽 (ILSVRC) 和 AlexNet转锈,就幾乎不可能討論神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的歷史。

ImageNet 挑戰(zhàn)賽的唯一目標(biāo)是評(píng)估大型數(shù)據(jù)集上的圖像分類和對(duì)象分類架構(gòu)楚殿。它帶來了許多新的撮慨、強(qiáng)大的、有趣的視覺架構(gòu)脆粥。

挑戰(zhàn)賽始于 2010 年砌溺,但在 2012 年發(fā)生了變化,AlexNet 以 15.3% 的 Top 5 低錯(cuò)誤率贏得了比賽变隔,這幾乎是此前獲勝者錯(cuò)誤率的一半规伐。AlexNet 由 5 個(gè)卷積層、隨后的最大池化層匣缘、3 個(gè)全連接層和一個(gè) Softmax 層組成猖闪。AlexNet 提出了深度卷積神經(jīng)網(wǎng)絡(luò)可以很好地處理視覺識(shí)別任務(wù)的想法。但當(dāng)時(shí)肌厨,這個(gè)觀點(diǎn)還沒有深入到其他應(yīng)用上培慌!

在隨后的幾年里,ConvNets 架構(gòu)不斷變得更大并且工作得更好柑爸。例如吵护,有 19 層的 VGG 以 7.3% 的錯(cuò)誤率贏得了挑戰(zhàn)。GoogLeNet(Inception-v1)更進(jìn)一步表鳍,將錯(cuò)誤率降低到 6.7%馅而。2015 年,ResNet(Deep Residual Networks)擴(kuò)展了這一點(diǎn)进胯,并將錯(cuò)誤率降低到 3.6%用爪,并表明通過殘差連接,我們可以訓(xùn)練更深的網(wǎng)絡(luò)(超過 100 層)胁镐,在此之前偎血,訓(xùn)練如此深的網(wǎng)絡(luò)是不可能的诸衔。人們發(fā)現(xiàn)更深層次的網(wǎng)絡(luò)做得更好,這導(dǎo)致產(chǎn)生了其他新架構(gòu)颇玷,如 ResNeXt笨农、Inception-ResNet、DenseNet帖渠、Xception 等谒亦。

6

2014 年 : 深度生成網(wǎng)絡(luò)

生成網(wǎng)絡(luò)用于從訓(xùn)練數(shù)據(jù)中生成或合成新的數(shù)據(jù)樣本,例如圖像和音樂空郊。

生成網(wǎng)絡(luò)有很多種類型份招,但最流行的是由 Ian Goodfellow 在 2014 年創(chuàng)建的生成對(duì)抗網(wǎng)絡(luò) (GAN)。GAN 由兩個(gè)主要組件組成:生成假樣本的生成器狞甚,以及區(qū)分真實(shí)樣本和生成器生成樣本的判別器锁摔。生成器和鑒別器可以說是互相競(jìng)爭(zhēng)的關(guān)系。他們都是獨(dú)立訓(xùn)練的哼审,在訓(xùn)練過程中谐腰,他們玩的是零和游戲。生成器不斷生成欺騙判別器的假樣本涩盾,而判別器則努力發(fā)現(xiàn)那些假樣本(參考真實(shí)樣本)十气。在每次訓(xùn)練迭代中,生成器在生成接近真實(shí)的假樣本方面做得更好春霍,判別器必須提高標(biāo)準(zhǔn)來區(qū)分不真實(shí)的樣本和真實(shí)樣本砸西。

GAN 一直是深度學(xué)習(xí)社區(qū)中最熱門的研究之一,該社區(qū)以生成偽造的圖像和 Deepfake 視頻而聞名终畅。如果讀者對(duì) GAN 的最新進(jìn)展感興趣籍胯,可以閱讀 StyleGAN2、DualStyleGAN离福、ArcaneGAN 和 AnimeGANv2 的簡(jiǎn)介杖狼。如需 GAN 資源的完整列表:https://github.com/nashory/gans-awesome-applications

GAN 是生成模型的一種妖爷。其他流行的生成模型類型還有 Variation Autoencoder (變分自編碼器蝶涩,VAE)、AutoEncoder (自編碼器)和擴(kuò)散模型等絮识。

7

2017 年:Transformers 和注意力機(jī)制

時(shí)間來到 2017 年绿聘。ImageNet 挑戰(zhàn)賽結(jié)束了。新的卷積網(wǎng)絡(luò)架構(gòu)也被制作出來次舌。計(jì)算機(jī)視覺社區(qū)的每個(gè)人都對(duì)當(dāng)前的進(jìn)展感到高興熄攘。核心計(jì)算機(jī)視覺任務(wù)(圖像分類、目標(biāo)檢測(cè)彼念、圖像分割)不再像以前那樣復(fù)雜挪圾。人們可以使用 GAN 生成逼真的圖像浅萧。

NLP 似乎落后了。但是隨后出現(xiàn)了一些事情哲思,并且在整個(gè)網(wǎng)絡(luò)上都成為了頭條新聞:一種完全基于注意力機(jī)制的新神經(jīng)網(wǎng)絡(luò)架構(gòu)橫空出世洼畅。并且 NLP 再次受到啟發(fā),在隨后的幾年棚赔,注意力機(jī)制繼續(xù)主導(dǎo)其他方向(最顯著的是視覺)帝簇。該架構(gòu)被稱為?Transformer?。

在此之后的 5 年靠益,也就是現(xiàn)在丧肴,我們?cè)谶@里談?wù)撘幌逻@個(gè)最大的創(chuàng)新成果。Transformer 是一類純粹基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)算法胧后。Transformer 不使用循環(huán)網(wǎng)絡(luò)或卷積闪湾。它由多頭注意力、殘差連接绩卤、層歸一化、全連接層和位置編碼組成江醇,用于保留數(shù)據(jù)中的序列順序濒憋。

Transformer 徹底改變了 NLP,目前它也在改變著計(jì)算機(jī)視覺領(lǐng)域陶夜。在 NLP 領(lǐng)域凛驮,它被用于機(jī)器翻譯、文本摘要条辟、語音識(shí)別黔夭、文本補(bǔ)全、文檔搜索等羽嫡。

讀者可以在其論文 《Attention is All You Need》 中了解有關(guān) Transformer 的更多信息本姥。

8

2018 年至今

自 2017 年以來,深度學(xué)習(xí)算法杭棵、應(yīng)用和技術(shù)突飛猛進(jìn)婚惫。為了清楚起見,后來的介紹是按類別劃分魂爪。在每個(gè)類別中先舷,我們都會(huì)重新審視主要趨勢(shì)和一些最重要的突破。

Vision Transformers

Transformer 在 NLP 中表現(xiàn)出優(yōu)異的性能后不久滓侍,一些勇于創(chuàng)新的人就迫不及待地將注意力機(jī)制用到了圖像領(lǐng)域蒋川。在論文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》中,谷歌的幾位研究人員表明撩笆,對(duì)直接在圖像塊序列上運(yùn)行的正常 Transformer 進(jìn)行輕微修改捺球,就可以在圖像分類數(shù)據(jù)集上產(chǎn)生實(shí)質(zhì)性的結(jié)果缸浦。他們將這種架構(gòu)稱為 Vision Transformer (ViT),它在大多數(shù)計(jì)算機(jī)視覺基準(zhǔn)測(cè)試中都有不錯(cuò)表現(xiàn)(在作者撰寫本文時(shí)懒构,ViT 是 Cifar-10 上最先進(jìn)的分類模型)餐济。

ViT 設(shè)計(jì)師并不是第一個(gè)嘗試在識(shí)別任務(wù)中使用注意力機(jī)制的人。我們可以在論文 Attention Augmented Convolutional Networks 中找到第一個(gè)使用注意力機(jī)制的記錄胆剧,這篇論文試圖結(jié)合自注意力機(jī)制和卷積(擺脫卷積主要是由于 CNN 引入的空間歸納偏置)絮姆。

另一個(gè)例子見于論文《Visual Transformers: Token-based Image Representation and Processing for Computer Vision,這篇論文在基于濾波器的 token 或視覺 token 上運(yùn)行 Transformer秩霍。

這兩篇論文和許多其他未在此處列出的論文突破了一些基線架構(gòu)(主要是 ResNet)的界限篙悯,但當(dāng)時(shí)并沒有超越當(dāng)前的基準(zhǔn)。ViT 確實(shí)是最偉大的論文之一铃绒。這篇論文最重要的見解之一是 ViT 設(shè)計(jì)師實(shí)際上使用圖像 patch 作為輸入表示鸽照。他們對(duì) Transformer 架構(gòu)沒有太大的改變。

除了使用圖像 patch 之外颠悬,使 Vision Transformer 成為強(qiáng)大架構(gòu)的結(jié)構(gòu)是 Transformer 的超強(qiáng)并行性及其縮放行為矮燎。但就像生活中的一切一樣,沒有什么是完美的赔癌。一開始诞外,ViT 在視覺下游任務(wù)(目標(biāo)檢測(cè)和分割)上表現(xiàn)不佳。

在引入 Swin Transformers 之后灾票,Vision Transformer 開始被用作目標(biāo)檢測(cè)和圖像分割等視覺下游任務(wù)的骨干網(wǎng)絡(luò)峡谊。Swin Transformer 超強(qiáng)性能的核心亮點(diǎn)是由于在連續(xù)的自注意力層之間使用了移位窗口。

Vision Transformer 一直是近來最令人興奮的研究領(lǐng)域之一刊苍。讀者可以在論文《Transformers in Vision: A Survey》中了解更多信息既们。其他最新視覺 Transformer 還有 CrossViT、ConViT 和 SepViT 等正什。

視覺和語言模型

視覺和語言模型通常被稱為多模態(tài)啥纸。它們是涉及視覺和語言的模型,例如文本到圖像生成(給定文本埠忘,生成與文本描述匹配的圖像)脾拆、圖像字幕(給定圖像,生成其描述)和視覺問答(給定一個(gè)圖像和關(guān)于圖像中內(nèi)容的問題莹妒,生成答案)名船。很大程度上,Transformer 在視覺和語言領(lǐng)域的成功促成了多模型作為一個(gè)單一的統(tǒng)一網(wǎng)絡(luò)旨怠。

實(shí)際上渠驼,所有視覺和語言任務(wù)都利用了預(yù)訓(xùn)練技術(shù)。在計(jì)算機(jī)視覺中鉴腻,預(yù)訓(xùn)練需要對(duì)在大型數(shù)據(jù)集(通常是 ImageNet)上訓(xùn)練的網(wǎng)絡(luò)進(jìn)行微調(diào)迷扇,而在 NLP 中百揭,往往是對(duì)預(yù)訓(xùn)練的 BERT 進(jìn)行微調(diào)。要了解有關(guān) V-L 任務(wù)中預(yù)訓(xùn)練的更多信息蜓席,請(qǐng)閱讀論文《A Survey of Vision-Language Pre-Trained Models》器一。有關(guān)視覺和語言任務(wù)、數(shù)據(jù)集的一般概述厨内,請(qǐng)查看論文《Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods》祈秕。

前段時(shí)間,OpenAI 發(fā)布了 DALL·E 2(改進(jìn)后的 DALL·E)雏胃,這是一種可以根據(jù)文本生成逼真圖像的視覺語言模型∏朊現(xiàn)有的文本轉(zhuǎn)圖像模型有很多,但 DALL·E 2 的分辨率瞭亮、圖像標(biāo)題匹配度和真實(shí)感都相當(dāng)出色方仿。

大規(guī)模語言模型 (LLM)

語言模型有多種用途。它們可用于預(yù)測(cè)句子中的下一個(gè)單詞或字符统翩、總結(jié)一段文檔仙蚜、將給定文本從一種語言翻譯成另一種語言、識(shí)別語音或?qū)⒁欢挝谋巨D(zhuǎn)換為語音厂汗。

開玩笑地說鳍征,發(fā)明 Transformers 的人必須為語言模型在朝著大規(guī)模參數(shù)化方向前進(jìn)而受到指責(zé)(但實(shí)際上沒有人應(yīng)該受到責(zé)備,Transformers 是過去十年中最偉大的發(fā)明之一面徽,大模型令人震驚的地方在于:如果給定足夠的數(shù)據(jù)和計(jì)算,它總能更好地工作)匣掸。在過去的 5 年中趟紊,語言模型的大小一直在不斷增長(zhǎng)。

在引入論文《Attention is all you need》一年后碰酝,大規(guī)模語言模型開始出現(xiàn)霎匈。2018 年,OpenAI 發(fā)布了 GPT(Generative Pre-trained Transformer)送爸,這是當(dāng)時(shí)最大的語言模型之一铛嘱。一年后,OpenAI 發(fā)布了 GPT-2袭厂,一個(gè)擁有 15 億個(gè)參數(shù)的模型墨吓。又一年后,他們發(fā)布了 GPT-3纹磺,它有 1750 億個(gè)參數(shù)帖烘,用了 570GB 的 文本來訓(xùn)練。這個(gè)模型有 175B 的參數(shù)橄杨,模型有 700GB秘症。根據(jù) lambdalabs 的說法照卦,如果使用在市場(chǎng)上價(jià)格最低的 GPU 云訓(xùn)練GPT-3,需要 366 年乡摹,花費(fèi) 460 萬美元役耕!

GPT-n 系列型號(hào)僅僅是個(gè)開始。還有其他更大的模型接近甚至比 GPT-3 更大聪廉。如:NVIDIA Megatron-LM 有 8.3B 參數(shù)瞬痘;最新的 DeepMind Gopher 有 280B 參數(shù)。2022 年 4 月 12 日锄列,DeepMind 發(fā)布了另一個(gè)名為 Chinchilla 的 70B 語言模型图云,盡管比 Gopher、GPT-3 和 Megatron-Turing NLG(530B 參數(shù))小邻邮,但它的性能優(yōu)于許多語言模型竣况。Chinchilla 的論文表明,現(xiàn)有的語言模型是訓(xùn)練不足的筒严,具體來說丹泉,它表明通過將模型的大小加倍,數(shù)據(jù)也應(yīng)該加倍鸭蛙。但是摹恨,幾乎在同一周內(nèi)又出現(xiàn)了具有 5400 億個(gè)參數(shù)的 Google Pathways 語言模型(PaLM)!

代碼生成模型

代碼生成是一項(xiàng)涉及補(bǔ)全給定代碼或根據(jù)自然語言或文本生成代碼的任務(wù)娶视,或者簡(jiǎn)單地說晒哄,它是可以編寫計(jì)算機(jī)程序的人工智能系統(tǒng)》净瘢可以猜到寝凌,現(xiàn)代代碼生成器是基于 Transformer 的。

可以確定地說孝赫,人們已經(jīng)開始考慮讓計(jì)算機(jī)編寫自己的程序了(就像我們夢(mèng)想教計(jì)算機(jī)做的所有其他事情一樣)较木,不過代碼生成器是在 OpenAI 發(fā)布 Codex 后受到關(guān)注。

Codex 是在 GitHub 公共倉(cāng)庫(kù)和其他公共源代碼上微調(diào)的 GPT-3青柄。OpenAI 表示:“OpenAI Codex 是一種通用編程模型伐债,這意味著它基本上可以應(yīng)用于任何編程任務(wù)(盡管結(jié)果可能會(huì)有所不同)。我們已經(jīng)成功地將它用于編譯致开、解釋代碼和重構(gòu)代碼峰锁。但我們知道,我們只觸及了可以做的事情的皮毛双戳∽娼瘢” 目前,由 Codex 支持的 GitHub Copilot 扮演著結(jié)對(duì)程序員的角色。

在我使用 Copilot 后千诬,我對(duì)它的功能感到非常驚訝耍目。作為不編寫 Java 程序的人,我用它來準(zhǔn)備我的移動(dòng)應(yīng)用程序(使用 Java)考試徐绑。人工智能幫助我準(zhǔn)備學(xué)術(shù)考試真是太酷了邪驮!

在 OpenAI 發(fā)布 Codex 幾個(gè)月后,DeepMind 發(fā)布了 AlphaCode傲茄,這是一種基于 Transformer 的語言模型毅访,可以解決編程競(jìng)賽問題。AlphaCode 發(fā)布的博文稱:“AlphaCode 通過解決需要結(jié)合批判性思維盘榨、邏輯喻粹、算法、編碼和自然語言理解的新問題草巡,在編程競(jìng)賽的參與者中估計(jì)排名前 54%守呜。” 解決編程問題(或一般的競(jìng)爭(zhēng)性編程)非常困難(每個(gè)做過技術(shù)面試的人都同意這一點(diǎn))山憨,正如 Dzmitry 所說查乒,擊敗 “人類水平仍然遙遙無期”。

前不久郁竟,來自 Meta AI 的科學(xué)家發(fā)布了 InCoder玛迄,這是一種可以生成和編輯程序的生成模型。更多關(guān)于代碼生成的論文和模型可以在這里找到:

https://paperswithcode.com/task/code-generation/codeless

再次回到感知機(jī)

在卷積神經(jīng)網(wǎng)絡(luò)和 Transformer 興起之前的很長(zhǎng)一段時(shí)間里棚亩,深度學(xué)習(xí)都圍繞著感知機(jī)展開蓖议。ConvNets 在取代 MLP 的各種識(shí)別任務(wù)中表現(xiàn)出優(yōu)異的性能。視覺 Transformer 目前也展示出似乎是一個(gè)很有前途的架構(gòu)讥蟆。但是感知機(jī)完全死了嗎拒担?答案可能不是。

在 2021 年 7 月攻询,研究人員發(fā)表了兩篇基于感知機(jī)的論文。一個(gè)是 MLP-Mixer: An all-MLP Architecture for Vision州弟,另一個(gè)是 Pay Attention to MLPs(gMLP).

MLP-Mixer 聲稱卷積和注意力都不是必需的钧栖。這篇論文僅使用多層感知機(jī) (MLP),就在圖像分類數(shù)據(jù)集上取得了很高的準(zhǔn)確性婆翔。MLP-Mixer 的一個(gè)重要亮點(diǎn)是拯杠,它包含兩個(gè)主要的 MLP 層:一個(gè)獨(dú)立應(yīng)用于圖像塊(通道混合),另一個(gè)是層跨塊應(yīng)用(空間混合)啃奴。

gMLP 還表明潭陪,通過避免使用自注意和卷積(當(dāng)前 NLP 和 CV 的實(shí)際使用的方式),可以在不同的圖像識(shí)別和 NLP 任務(wù)中實(shí)現(xiàn)很高的準(zhǔn)確性。

讀者顯然不會(huì)使用 MLP 去獲得最先進(jìn)的性能依溯,但它們與最先進(jìn)的深度網(wǎng)絡(luò)的可比性卻是令人著迷的老厌。

再次使用卷積網(wǎng)絡(luò):2020 年代的卷積網(wǎng)絡(luò)

自 Vision Transformer(2020 年)推出以來,計(jì)算機(jī)視覺的研究圍繞著 Transformer 展開(在 NLP 領(lǐng)域黎炉,Transformer 已經(jīng)是一種規(guī)范)枝秤。Vision Transformer (ViT)?在圖像分類方面取得了最先進(jìn)的結(jié)果,但在視覺下游任務(wù)(對(duì)象檢測(cè)和分割)中效果不佳慷嗜。隨著 Swin Transformers 的推出淀弹,使得Vision Transformer 很快也接管了視覺下游任務(wù)。

很多人(包括我自己)都喜歡卷積神經(jīng)網(wǎng)絡(luò)庆械。卷積神經(jīng)網(wǎng)絡(luò)確實(shí)能起效薇溃,而且放棄已經(jīng)被證明有效的東西是很難的。這種對(duì)深度網(wǎng)絡(luò)模型結(jié)構(gòu)的熱愛讓一些杰出的科學(xué)家回到過去缭乘,研究如何使卷積神經(jīng)網(wǎng)絡(luò)(準(zhǔn)確地說是 ResNet)現(xiàn)代化沐序,使其具有和 Vision Transformer 同樣的吸引人的特征。特別是忿峻,他們探討了「Transformers 中的設(shè)計(jì)決策如何影響卷積神經(jīng)網(wǎng)絡(luò)的性能薄啥?」這個(gè)問題。他們想把那些塑造了 Transformer 的秘訣應(yīng)用到 ResNet 上逛尚。

Meta AI 的 Saining Xie 和他的同事們采用了他們?cè)谡撐闹忻鞔_陳述的路線圖垄惧,最終形成了一個(gè)名為 ConvNeXt 的 ConvNet 架構(gòu)。ConvNeXt 在不同的基準(zhǔn)測(cè)試中取得了可與 Swin Transformer 相媲美的結(jié)果绰寞。讀者可以通過 ModernConvNets 庫(kù)(現(xiàn)代 CNN 架構(gòu)的總結(jié)和實(shí)現(xiàn))了解更多關(guān)于他們采用的路線圖到逊。

9

結(jié)論

深度學(xué)習(xí)是一個(gè)非常有活力、非常寬廣的領(lǐng)域滤钱,很難概括其中所發(fā)生的一切觉壶。作者只觸及了表面,論文多到一個(gè)人讀不完件缸,很難跟蹤所有內(nèi)容铜靶。例如,我們沒有討論強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)算法他炊,如 AlphaGo争剿、蛋白質(zhì)折疊 AlphaFold(這是最大的科學(xué)突破之一)、深度學(xué)習(xí)框架的演變(如 TensorFlow 和 PyTorch)痊末,以及深度學(xué)習(xí)硬件蚕苇。或許凿叠,還有其他重要的事情構(gòu)成了我們沒有討論過的深度學(xué)習(xí)歷史涩笤、算法和應(yīng)用程序的很大一部分嚼吞。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市蹬碧,隨后出現(xiàn)的幾起案子舱禽,更是在濱河造成了極大的恐慌,老刑警劉巖锰茉,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件呢蔫,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡飒筑,警方通過查閱死者的電腦和手機(jī)片吊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來协屡,“玉大人俏脊,你說我怎么就攤上這事》粝” “怎么了爷贫?”我有些...
    開封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)补憾。 經(jīng)常有香客問我漫萄,道長(zhǎng),這世上最難降的妖魔是什么盈匾? 我笑而不...
    開封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任腾务,我火速辦了婚禮,結(jié)果婚禮上削饵,老公的妹妹穿的比我還像新娘岩瘦。我一直安慰自己,他們只是感情好窿撬,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開白布启昧。 她就那樣靜靜地躺著,像睡著了一般劈伴。 火紅的嫁衣襯著肌膚如雪密末。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天跛璧,我揣著相機(jī)與錄音严里,去河邊找鬼。 笑死赡模,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的师抄。 我是一名探鬼主播漓柑,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了辆布?” 一聲冷哼從身側(cè)響起瞬矩,我...
    開封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎锋玲,沒想到半個(gè)月后景用,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡惭蹂,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年伞插,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盾碗。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡媚污,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出廷雅,到底是詐尸還是另有隱情耗美,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布航缀,位于F島的核電站商架,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏芥玉。R本人自食惡果不足惜蛇摸,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望飞傀。 院中可真熱鬧皇型,春花似錦、人聲如沸砸烦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽幢痘。三九已至唬格,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間颜说,已是汗流浹背购岗。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留门粪,地道東北人喊积。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像玄妈,于是被迫代替她去往敵國(guó)和親乾吻。 傳聞我的和親對(duì)象是個(gè)殘疾皇子髓梅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容