NLP簡報（Issue#5）：The Annotated GPT-2、CodeBERT波闹、JAX酝豪、GANILLA等

本文首發(fā)于微信公眾號：NewBeeNLP

歡迎來到 NLP 時事簡報！全文較長精堕，建議收藏孵淘。

如果想讓自己有趣的研究/項目出現(xiàn)在NLP簡報中，隨時在公眾號后臺留言聯(lián)系我

1歹篓、Publications ??

1.1 理解self-distillation
1.2 深度學(xué)習(xí)十年簡史
1.3 利用神經(jīng)網(wǎng)絡(luò)求解高等數(shù)學(xué)方程
1.4 CodeBERT

2瘫证、Creativity and Society ??

2.1 AI for scientific discovery
2.2 改善image-to-illustration
2.3 Andrew Ng談自監(jiān)督學(xué)習(xí)

3、Tools and Datasets ??

3.1 JAX libraries
3.2 處理維基百科數(shù)據(jù)的工具
3.3 Rust Tokenizers, DistilBERT base cased
3.4 夸夸語料

4庄撮、Ethics in AI ??

4.1 NLP和ML模型的道德考量

5背捌、Articles and Blog posts ??

5.1 The Annotated GPT-2
5.2 Beyond BERT?
5.3 矩陣壓縮算子

6、Education ??

6.1 NLP基礎(chǔ)
6.2 數(shù)學(xué)基礎(chǔ)課
6.3 書籍推薦
6.4 計算機科學(xué)自學(xué)指南

7洞斯、Noteworthy Mentions ??

1毡庆、Publications ??

1.1 理解self-distillation

在深度學(xué)習(xí)中，self-distillation[1]是將知識從一種架構(gòu)轉(zhuǎn)移到另一種相同架構(gòu)的過程烙如。在訓(xùn)練時么抗，原始模型的預(yù)測作為目標(biāo)值提供給另一個模型。除具有所需的屬性（例如減小模型大醒翘）外蝇刀，經(jīng)驗結(jié)果還表明該方法在held-out datasets上效果很好。

1.2 深度學(xué)習(xí)十年簡史

人工智能的先驅(qū)刀闷、LSTM之父JürgenSchmidhuber最近發(fā)布了一個新博客熊泵，The 2010s: Our Decade of Deep Learning / Outlook on the 2020s[3]，提供自2010年以來的深度學(xué)習(xí)歷史概述甸昏，包括LSTM顽分，前饋神經(jīng)網(wǎng)絡(luò)，GAN施蜜，深度強化學(xué)習(xí)卒蘸，元學(xué)習(xí)，世界模型，蒸餾神經(jīng)網(wǎng)絡(luò)缸沃，注意學(xué)習(xí)等一些主題恰起。文章最后總結(jié)了2020年代的前景，鼓勵人們關(guān)注緊迫的問題趾牧，例如隱私和數(shù)據(jù)市場检盼。

1.3 利用神經(jīng)網(wǎng)絡(luò)求解高等數(shù)學(xué)方程

1.4 CodeBERT

在這篇名為《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》[5]的論文中，來自哈工大翘单、中山大學(xué)和微軟的研究人員詳細介紹了這一新預(yù)訓(xùn)練模型吨枉，該模型可處理雙模態(tài)數(shù)據(jù)：編程語言（PL）和自然語言（NL）。

CodeBERT 學(xué)習(xí)能夠支持下游 NL-PL 應(yīng)用的通用表示哄芜，比如自然語言代碼搜索貌亭、代碼文檔生成，經(jīng)實驗 CodeBERT 模型在兩項任務(wù)均取得 SOTA 效果认臊，同時研究者構(gòu)建了 NL-PL 探測數(shù)據(jù)集圃庭，CodeBERT 在 zero-shot 設(shè)置中的性能表現(xiàn)也持續(xù)優(yōu)于 RoBERTa。

2失晴、Creativity and Society ??

2.1 AI for scientific discovery

Mattew Hutson報告了如何使用人工智能（AI）來生成仿真器[6]剧腻，這些仿真器在對復(fù)雜自然現(xiàn)象進行建模方面具有重要作用，而自然現(xiàn)象又可能導(dǎo)致不同類型的科學(xué)發(fā)現(xiàn)师坎。構(gòu)建這些仿真器的變化是恕酸，它們通常需要大規(guī)模數(shù)據(jù)和廣泛的參數(shù)探索。最近的論文提出了DENSE方法[7]胯陋，一種基于神經(jīng)結(jié)構(gòu)搜索[8]來構(gòu)建準(zhǔn)確的仿真器，而僅依賴有限數(shù)量的訓(xùn)練數(shù)據(jù)袱箱。他們通過對包括天體物理學(xué)遏乔，氣候科學(xué)和聚變能等在內(nèi)的案例進行仿真來對其進行測試。

2.2 改善image-to-illustration

2.3 Andrew Ng談自監(jiān)督學(xué)習(xí)

deeplearning.ai的創(chuàng)始人Andrew Ng加入人工智能播客[12]发笔，討論的主題包括他早期從事ML的工作盟萨，AI的未來和AI教育，正確使用ML的建議了讨，他的個人目標(biāo)以及在2020年代應(yīng)該關(guān)注ML技術(shù)捻激。

Andrew解釋了為什么他對自監(jiān)督的表示學(xué)習(xí)感到非常興奮。自監(jiān)督式學(xué)習(xí)涉及一個學(xué)習(xí)問題前计，該問題旨在從數(shù)據(jù)本身獲得監(jiān)督胞谭，以利用大量未標(biāo)記數(shù)據(jù)，這比純凈標(biāo)記數(shù)據(jù)更常見男杈。這些表示很重要丈屹，可用于處理下游任務(wù)，類似于BERT等語言模型中使用的任務(wù)。

3旺垒、Tools and Datasets ??

3.1 JAX libraries

JAX[14]是一個新庫彩库，結(jié)合了NumPy和自動微分功能，可以進行高性能ML研究先蒋。為了簡化使用JAX構(gòu)建神經(jīng)網(wǎng)絡(luò)的管道骇钦，DeepMind發(fā)布了Haiku[15]和RLax[16]。使用熟悉的面向?qū)ο缶幊棠Ｐ途貉琑Lax簡化了強化學(xué)習(xí)代理的實現(xiàn)眯搭，而Haiku簡化了神經(jīng)網(wǎng)絡(luò)的構(gòu)建。

3.2 處理維基百科數(shù)據(jù)的工具

3.3 Rust Tokenizers, DistilBERT base cased, Model cards

Hugging Face發(fā)行的新版Transformers[19]包括其快速分詞器庫的集成畴蹭，該庫旨在加速BERT坦仍，RoBERTa，GPT2等模型以及其他社區(qū)構(gòu)建的模型叨襟。

3.4 夸夸語料

夸夸語料[20]繁扎，來自豆瓣互相表揚組數(shù)據(jù)。

4糊闽、Ethics in AI ??

4.1 NLP和ML模型的道德考量

在NLP Highlights的新內(nèi)容中[21]梳玫，Emily Bender和主持人討論了在學(xué)術(shù)界和實際使用情況下開發(fā)NLP模型和技術(shù)時的一些道德考量。討論中的一些主題包括設(shè)計NLP任務(wù)右犹，數(shù)據(jù)收集方法以及最終發(fā)布結(jié)果時的道德考慮提澎。

除了上述所有考慮因素之外，AI社區(qū)中經(jīng)常討論的一個問題過于關(guān)注優(yōu)化指標(biāo)念链，這與AI旨在實現(xiàn)的目標(biāo)背道而馳盼忌。Rachel Thomas和David Uminsky[22]討論了通過對不同用例進行透徹分析而可能出錯的地方。他們還提出了一個緩解該問題的簡單框架掂墓，其中涉及多個指標(biāo)的使用和組合谦纱，然后是那些直接受到該技術(shù)影響的人的參與。

5君编、Articles and Blog posts ??

5.1 The Annotated GPT-2

5.2 Beyond BERT?

Sergi Castella[25]對BERT以外的內(nèi)容感興趣跨嘉。主要主題包括改善指標(biāo)，Hugging Face的Transformers庫如何支持研究吃嘿，查看有趣的數(shù)據(jù)集祠乃，解壓縮模型等。

5.3 矩陣壓縮算子

6兑燥、Education ??

6.1 NLP基礎(chǔ)

NLP基礎(chǔ)[27]從基礎(chǔ)開始講授NLP概念亮瓷，同時分享最佳實踐，重要參考贪嫂，應(yīng)避免的常見錯誤以及NLP的未來寺庄。包含一個Colab筆記本[28]，該項目將在此github[29]維護。

6.2 數(shù)學(xué)基礎(chǔ)課

Machine Learning Tokyo 將在3月8日主持一個遠程在線討論斗塘，其中回顧他們最近的在線學(xué)習(xí)課程中[30]涉及的章節(jié)赢织。該小組以前研究過Marc Peter Deisenroth，Ado Faisal和Cheng Soon Ong所著的《機器學(xué)習(xí)數(shù)學(xué)》[31]一書章節(jié)馍盟。

6.3 書籍推薦

6.4 計算機科學(xué)自學(xué)指南

7于置、Noteworthy Mentions ??

Torchmeta[35]是一個是由Tristan Deleu創(chuàng)作的可以輕松使用相關(guān)的數(shù)據(jù)加載器進行元學(xué)習(xí)研究的庫。

Manuel Tonneau撰寫了一篇文章贞岭，仔細研究了語言建模中涉及的一些機制[36]八毯，包括貪婪和波束搜索以及原子核采樣等主題。

MIT發(fā)布了名為“Introduction to Deep Learning[37]”的課程的完整提綱和課程表话速，其中包括已授課的視頻，他們的目標(biāo)是每周發(fā)布視頻講座和幻燈片泊交。

了解如何使用基于Transformer的方法在不到300行代碼中訓(xùn)練用于命名實體識別（NER）的模型[38]。您可以在此處找到隨附的Google Colab[39]廓俭。

本文參考資料

[1]

self-distillation: https://arxiv.org/pdf/1503.02531.pdf

[2]

Self-Distillation Amplifies Regularization in Hilbert Space: http://xxx.itp.ac.cn/abs/2002.05715

[3]

The 2010s: Our Decade of Deep Learning / Outlook on the 2020s: http://people.idsia.ch/~juergen/2010s-our-decade-of-deep-learning.html

[4]

Deep Learning for Symbolic Mathematics: https://arxiv.org/abs/1912.01412

[5]

《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》: https://arxiv.org/abs/2002.08155

[6]

如何使用人工智能（AI）來生成仿真器: https://www.sciencemag.org/news/2020/02/models-galaxies-atoms-simple-ai-shortcuts-speed-simulations-billions-times

[7]

論文提出了DENSE方法: https://arxiv.org/abs/2001.08055

[8]

神經(jīng)結(jié)構(gòu)搜索: https://en.wikipedia.org/wiki/Neural_architecture_search

[9]

GANILLA: https://github.com/giddyyupp/ganilla

[10]

圖像到圖像翻譯任務(wù): https://paperswithcode.com/task/image-to-image-translation

[11]

GANILLA: Generative Adversarial Networks for Image to Illustration Translation: https://arxiv.org/abs/2002.05638

[12]

人工智能播客: https://www.youtube.com/watch?v=0jspaMLxBig

[13]

SimCLR: https://arxiv.org/abs/2002.05709

[14]

JAX: https://github.com/google/jax

[15]

Haiku: https://github.com/deepmind/dm-haiku

[16]

RLax: https://github.com/deepmind/rlax

[17]

Sparkwiki: https://github.com/epfl-lts2/sparkwiki

[18]

捕獲跨不同語言版本的Wikipedia的趨勢和語言偏見: https://arxiv.org/abs/2002.06885

[19]

新版Transformers: https://github.com/huggingface/transformers/releases/tag/v2.5.0

[20]

夸夸語料: https://github.com/xiaopangxia/kuakua_corpus

[21]

NLP Highlights的新內(nèi)容中: https://soundcloud.com/nlp-highlights/106-ethical-considerations-in-nlp-research-emily-bender

[22]

Rachel Thomas和David Uminsky: https://arxiv.org/abs/2002.08512

[23]

The Annotated GPT-2: https://amaarora.github.io/2020/02/18/annotatedGPT2.html

[24]

The Annotated Transformer: https://nlp.seas.harvard.edu/2018/04/03/attention.html

[25]

Sergi Castella: https://towardsdatascience.com/beyond-bert-6f51a8bc5ce1

[26]

Matrix Compression Operator: https://blog.tensorflow.org/2020/02/matrix-compression-operator-tensorflow.html?linkId=82298016

[27]

NLP基礎(chǔ): https://medium.com/dair-ai/fundamentals-of-nlp-chapter-1-tokenization-lemmatization-stemming-and-sentence-segmentation-b362c5d07684

[28]

Colab筆記本: https://colab.research.google.com/drive/18ZnEnXKLQkkJoBXMZR2rspkWSm9EiDuZ

[29]

此github: https://github.com/dair-ai/nlp_fundamentals

[30]

在線學(xué)習(xí)課程中: https://www.meetup.com/Machine-Learning-Tokyo/events/268817313/

[31]

《機器學(xué)習(xí)數(shù)學(xué)》: https://mml-book.github.io/

[32]

TinyML: https://tinymlbook.com/?linkId=82595412

[33]

Deep Learning for Coders with fastai and PyTorch: AI Applications Without a PhD: https://www.amazon.com/Deep-Learning-Coders-fastai-PyTorch/dp/1492045527

[34]

reddit上也有類似的討論: https://www.reddit.com/r/learnprogramming/comments/87j7fw/teach_yourself_computer_science_a_diy_curriculum/

[35]

Torchmeta: https://arxiv.org/abs/1909.06576

[36]

語言建模中涉及的一些機制: https://creatext.ai/blog-posts/machine-text-writing-gpt2-beam-search?utm_medium=newsletter

[37]

Introduction to Deep Learning: http://introtodeeplearning.com/

[38]

訓(xùn)練用于命名實體識別（NER）的模型: https://github.com/huggingface/transformers/blob/master/examples/ner/run_pl_ner.py

[39]

隨附的Google Colab: https://colab.research.google.com/drive/184LPlygvdGGR64hgQl3ztqzZJu8MmITn

-?END?-

? Transformers Assemble（PART IV）

? 【NLP保姆級教程】手把手帶你CNN文本分類(附代碼)

? NLP簡報（Issue#4）

本文首發(fā)于微信公眾號：NewBeeNLP

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末痊土，一起剝皮案震驚了整個濱河市挽封，隨后出現(xiàn)的幾起案子父能，更是在濱河造成了極大的恐慌，老刑警劉巖谣膳，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件橄唬，死亡現(xiàn)場離奇詭異，居然都是意外死亡参歹，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門隆判，熙熙樓的掌柜王于貴愁眉苦臉地迎上來犬庇，“玉大人，你說我怎么就攤上這事侨嘀〕敉欤” “怎么了？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵咬腕，是天一觀的道長欢峰。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么纽帖？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任宠漩，我火速辦了婚禮，結(jié)果婚禮上懊直，老公的妹妹穿的比我還像新娘扒吁。我一直安慰自己，他們只是感情好室囊，可當(dāng)我...
茶點故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布雕崩。她就那樣靜靜地躺著，像睡著了一般融撞。火紅的嫁衣襯著肌膚如雪盼铁。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天尝偎，我揣著相機與錄音饶火，去河邊找鬼。笑死冬念，一個胖子當(dāng)著我的面吹牛趁窃，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播急前，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼醒陆，長吁一口氣：“原來是場噩夢啊……” “哼刨摩！你這毒婦竟也來了世吨？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤罢浇，失蹤者是張志新（化名）和其女友劉穎嚷闭，沒想到半個月后赖临，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,443評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡嗅榕，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年凌那，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片君旦。...
茶點故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡金砍，死狀恐怖恕稠，靈堂內(nèi)的尸體忽然破棺而出扶欣，到底是詐尸還是另有隱情，我是刑警寧澤骆捧，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布敛苇，位于F島的核電站顺呕，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏来涨。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一蹦掐、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧笤闯，春花似錦棍厂、人聲如沸牺弹。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案晶默，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽航攒。三九已至漠畜，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間蝴悉，已是汗流浹背瘾敢。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工簇抵，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人晃财。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓拓劝，卻偏偏與公主長得像嘉裤，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子屑宠，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,724評論 2贊 354

NLP簡報（Issue#5）：The Annotated GPT-2、CodeBERT宦焦、JAX发钝、GANILLA等

NLP簡報（Issue#5）：The Annotated GPT-2、CodeBERT波闹、JAX酝豪、GANILLA等

本文首發(fā)于微信公眾號：NewBeeNLP

1毡庆、Publications ??

1.1 理解self-distillation

1.2 深度學(xué)習(xí)十年簡史

1.3 利用神經(jīng)網(wǎng)絡(luò)求解高等數(shù)學(xué)方程

1.4 CodeBERT

2失晴、Creativity and Society ??

2.1 AI for scientific discovery

2.2 改善image-to-illustration

2.3 Andrew Ng談自監(jiān)督學(xué)習(xí)

3旺垒、Tools and Datasets ??

3.1 JAX libraries

3.2 處理維基百科數(shù)據(jù)的工具

3.3 Rust Tokenizers, DistilBERT base cased, Model cards

3.4 夸夸語料

4糊闽、Ethics in AI ??

4.1 NLP和ML模型的道德考量

5君编、Articles and Blog posts ??

5.1 The Annotated GPT-2

5.2 Beyond BERT?

5.3 矩陣壓縮算子

6兑燥、Education ??

6.1 NLP基礎(chǔ)

6.2 數(shù)學(xué)基礎(chǔ)課

6.3 書籍推薦

6.4 計算機科學(xué)自學(xué)指南

7于置、Noteworthy Mentions ??

本文參考資料

推薦閱讀更多精彩內(nèi)容