本文首發(fā)于微信公眾號:NewBeeNLP
歡迎來到 NLP 時事簡報!全文較長精堕,建議收藏孵淘。
如果想讓自己有趣的研究/項目出現(xiàn)在NLP簡報中,隨時在公眾號后臺留言聯(lián)系我
1.1 理解self-distillation
1.2 深度學(xué)習(xí)十年簡史
1.3 利用神經(jīng)網(wǎng)絡(luò)求解高等數(shù)學(xué)方程
1.4 CodeBERT
2.1 AI for scientific discovery
2.2 改善image-to-illustration
2.3 Andrew Ng談自監(jiān)督學(xué)習(xí)
3、Tools and Datasets ??
3.1 JAX libraries
3.2 處理維基百科數(shù)據(jù)的工具
3.3 Rust Tokenizers, DistilBERT base cased
3.4 夸夸語料
4庄撮、Ethics in AI ??
4.1 NLP和ML模型的道德考量
5背捌、Articles and Blog posts ??
5.1 The Annotated GPT-2
5.2 Beyond BERT?
5.3 矩陣壓縮算子
6、Education ??
6.1 NLP基礎(chǔ)
6.2 數(shù)學(xué)基礎(chǔ)課
6.3 書籍推薦
6.4 計算機科學(xué)自學(xué)指南
1毡庆、Publications ??
1.1 理解self-distillation
在深度學(xué)習(xí)中,self-distillation[1]是將知識從一種架構(gòu)轉(zhuǎn)移到另一種相同架構(gòu)的過程烙如。在訓(xùn)練時么抗,原始模型的預(yù)測作為目標(biāo)值提供給另一個模型。除具有所需的屬性(例如減小模型大醒翘)外蝇刀,經(jīng)驗結(jié)果還表明該方法在held-out datasets上效果很好。
1.2 深度學(xué)習(xí)十年簡史
人工智能的先驅(qū)刀闷、LSTM之父JürgenSchmidhuber最近發(fā)布了一個新博客熊泵,The 2010s: Our Decade of Deep Learning / Outlook on the 2020s[3],提供自2010年以來的深度學(xué)習(xí)歷史概述甸昏,包括LSTM顽分,前饋神經(jīng)網(wǎng)絡(luò),GAN施蜜,深度強化學(xué)習(xí)卒蘸,元學(xué)習(xí),世界模型 ,蒸餾神經(jīng)網(wǎng)絡(luò)缸沃,注意學(xué)習(xí)等一些主題恰起。文章最后總結(jié)了2020年代的前景,鼓勵人們關(guān)注緊迫的問題趾牧,例如隱私和數(shù)據(jù)市場检盼。
1.3 利用神經(jīng)網(wǎng)絡(luò)求解高等數(shù)學(xué)方程
1.4 CodeBERT
在這篇名為《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》[5]的論文中,來自哈工大翘单、中山大學(xué)和微軟的研究人員詳細介紹了這一新預(yù)訓(xùn)練模型吨枉,該模型可處理雙模態(tài)數(shù)據(jù):編程語言(PL)和自然語言(NL)。
CodeBERT 學(xué)習(xí)能夠支持下游 NL-PL 應(yīng)用的通用表示哄芜,比如自然語言代碼搜索貌亭、代碼文檔生成,經(jīng)實驗 CodeBERT 模型在兩項任務(wù)均取得 SOTA 效果认臊,同時研究者構(gòu)建了 NL-PL 探測數(shù)據(jù)集圃庭,CodeBERT 在 zero-shot 設(shè)置中的性能表現(xiàn)也持續(xù)優(yōu)于 RoBERTa。
2失晴、Creativity and Society ??
2.1 AI for scientific discovery
Mattew Hutson報告了如何使用人工智能(AI)來生成仿真器[6]剧腻,這些仿真器在對復(fù)雜自然現(xiàn)象進行建模方面具有重要作用,而自然現(xiàn)象又可能導(dǎo)致不同類型的科學(xué)發(fā)現(xiàn)师坎。構(gòu)建這些仿真器的變化是恕酸,它們通常需要大規(guī)模數(shù)據(jù)和廣泛的參數(shù)探索。最近的論文提出了DENSE方法[7]胯陋,一種基于神經(jīng)結(jié)構(gòu)搜索[8]來構(gòu)建準(zhǔn)確的仿真器,而僅依賴有限數(shù)量的訓(xùn)練數(shù)據(jù)袱箱。他們通過對包括天體物理學(xué)遏乔,氣候科學(xué)和聚變能等在內(nèi)的案例進行仿真來對其進行測試。
2.2 改善image-to-illustration
2.3 Andrew Ng談自監(jiān)督學(xué)習(xí)
deeplearning.ai的創(chuàng)始人Andrew Ng加入人工智能播客[12]发笔,討論的主題包括他早期從事ML的工作盟萨,AI的未來和AI教育,正確使用ML的建議了讨,他的個人目標(biāo)以及在2020年代應(yīng)該關(guān)注ML技術(shù)捻激。
Andrew解釋了為什么他對自監(jiān)督的表示學(xué)習(xí)感到非常興奮。自監(jiān)督式學(xué)習(xí)涉及一個學(xué)習(xí)問題前计,該問題旨在從數(shù)據(jù)本身獲得監(jiān)督胞谭,以利用大量未標(biāo)記數(shù)據(jù),這比純凈標(biāo)記數(shù)據(jù)更常見男杈。這些表示很重要丈屹,可用于處理下游任務(wù),類似于BERT等語言模型中使用的任務(wù)。
3旺垒、Tools and Datasets ??
3.1 JAX libraries
JAX[14]是一個新庫彩库,結(jié)合了NumPy和自動微分功能,可以進行高性能ML研究先蒋。為了簡化使用JAX構(gòu)建神經(jīng)網(wǎng)絡(luò)的管道骇钦,DeepMind發(fā)布了Haiku[15]和RLax[16]。使用熟悉的面向?qū)ο缶幊棠P途貉琑Lax簡化了強化學(xué)習(xí)代理的實現(xiàn)眯搭,而Haiku簡化了神經(jīng)網(wǎng)絡(luò)的構(gòu)建。
3.2 處理維基百科數(shù)據(jù)的工具
3.3 Rust Tokenizers, DistilBERT base cased, Model cards
Hugging Face發(fā)行的新版Transformers[19]包括其快速分詞器庫的集成畴蹭,該庫旨在加速BERT坦仍,RoBERTa,GPT2等模型以及其他社區(qū)構(gòu)建的模型叨襟。
3.4 夸夸語料
夸夸語料[20]繁扎,來自豆瓣互相表揚組數(shù)據(jù)。
4糊闽、Ethics in AI ??
4.1 NLP和ML模型的道德考量
在NLP Highlights的新內(nèi)容中[21]梳玫,Emily Bender和主持人討論了在學(xué)術(shù)界和實際使用情況下開發(fā)NLP模型和技術(shù)時的一些道德考量。討論中的一些主題包括設(shè)計NLP任務(wù)右犹,數(shù)據(jù)收集方法以及最終發(fā)布結(jié)果時的道德考慮提澎。
除了上述所有考慮因素之外,AI社區(qū)中經(jīng)常討論的一個問題過于關(guān)注優(yōu)化指標(biāo)念链,這與AI旨在實現(xiàn)的目標(biāo)背道而馳盼忌。Rachel Thomas和David Uminsky[22]討論了通過對不同用例進行透徹分析而可能出錯的地方。他們還提出了一個緩解該問題的簡單框架掂墓,其中涉及多個指標(biāo)的使用和組合谦纱,然后是那些直接受到該技術(shù)影響的人的參與。
5君编、Articles and Blog posts ??
5.1 The Annotated GPT-2
5.2 Beyond BERT?
Sergi Castella[25]對BERT以外的內(nèi)容感興趣跨嘉。主要主題包括改善指標(biāo),Hugging Face的Transformers庫如何支持研究吃嘿,查看有趣的數(shù)據(jù)集祠乃,解壓縮模型等。
5.3 矩陣壓縮算子
6兑燥、Education ??
6.1 NLP基礎(chǔ)
NLP基礎(chǔ)[27]從基礎(chǔ)開始講授NLP概念亮瓷,同時分享最佳實踐,重要參考贪嫂,應(yīng)避免的常見錯誤以及NLP的未來寺庄。包含一個Colab筆記本[28],該項目將在此github[29]維護。
6.2 數(shù)學(xué)基礎(chǔ)課
Machine Learning Tokyo 將在3月8日主持一個遠程在線討論斗塘,其中回顧他們最近的在線學(xué)習(xí)課程中[30]涉及的章節(jié)赢织。該小組以前研究過Marc Peter Deisenroth,Ado Faisal和Cheng Soon Ong所著的《機器學(xué)習(xí)數(shù)學(xué)》[31]一書章節(jié)馍盟。
6.3 書籍推薦
6.4 計算機科學(xué)自學(xué)指南
7于置、Noteworthy Mentions ??
Torchmeta[35]是一個是由Tristan Deleu創(chuàng)作的可以輕松使用相關(guān)的數(shù)據(jù)加載器進行元學(xué)習(xí)研究的庫。
Manuel Tonneau撰寫了一篇文章贞岭,仔細研究了語言建模中涉及的一些機制[36]八毯,包括貪婪和波束搜索以及原子核采樣等主題。
MIT發(fā)布了名為“Introduction to Deep Learning[37]”的課程的完整提綱和課程表话速,其中包括已授課的視頻, 他們的目標(biāo)是每周發(fā)布視頻講座和幻燈片泊交。
了解如何使用基于Transformer的方法在不到300行代碼中訓(xùn)練用于命名實體識別(NER)的模型[38]。您可以在此處找到隨附的Google Colab[39]廓俭。
本文參考資料
[1]
self-distillation: https://arxiv.org/pdf/1503.02531.pdf
[2]
Self-Distillation Amplifies Regularization in Hilbert Space: http://xxx.itp.ac.cn/abs/2002.05715
[3]
The 2010s: Our Decade of Deep Learning / Outlook on the 2020s: http://people.idsia.ch/~juergen/2010s-our-decade-of-deep-learning.html
[4]
Deep Learning for Symbolic Mathematics: https://arxiv.org/abs/1912.01412
[5]
《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》: https://arxiv.org/abs/2002.08155
[6]
如何使用人工智能(AI)來生成仿真器: https://www.sciencemag.org/news/2020/02/models-galaxies-atoms-simple-ai-shortcuts-speed-simulations-billions-times
[7]
論文提出了DENSE方法: https://arxiv.org/abs/2001.08055
[8]
神經(jīng)結(jié)構(gòu)搜索: https://en.wikipedia.org/wiki/Neural_architecture_search
[9]
GANILLA: https://github.com/giddyyupp/ganilla
[10]
圖像到圖像翻譯任務(wù): https://paperswithcode.com/task/image-to-image-translation
[11]
GANILLA: Generative Adversarial Networks for Image to Illustration Translation: https://arxiv.org/abs/2002.05638
[12]
人工智能播客: https://www.youtube.com/watch?v=0jspaMLxBig
[13]
SimCLR: https://arxiv.org/abs/2002.05709
[14]
JAX: https://github.com/google/jax
[15]
Haiku: https://github.com/deepmind/dm-haiku
[16]
RLax: https://github.com/deepmind/rlax
[17]
Sparkwiki: https://github.com/epfl-lts2/sparkwiki
[18]
捕獲跨不同語言版本的Wikipedia的趨勢和語言偏見: https://arxiv.org/abs/2002.06885
[19]
新版Transformers: https://github.com/huggingface/transformers/releases/tag/v2.5.0
[20]
夸夸語料: https://github.com/xiaopangxia/kuakua_corpus
[21]
NLP Highlights的新內(nèi)容中: https://soundcloud.com/nlp-highlights/106-ethical-considerations-in-nlp-research-emily-bender
[22]
Rachel Thomas和David Uminsky: https://arxiv.org/abs/2002.08512
[23]
The Annotated GPT-2: https://amaarora.github.io/2020/02/18/annotatedGPT2.html
[24]
The Annotated Transformer: https://nlp.seas.harvard.edu/2018/04/03/attention.html
[25]
Sergi Castella: https://towardsdatascience.com/beyond-bert-6f51a8bc5ce1
[26]
Matrix Compression Operator: https://blog.tensorflow.org/2020/02/matrix-compression-operator-tensorflow.html?linkId=82298016
[27]
NLP基礎(chǔ): https://medium.com/dair-ai/fundamentals-of-nlp-chapter-1-tokenization-lemmatization-stemming-and-sentence-segmentation-b362c5d07684
[28]
Colab筆記本: https://colab.research.google.com/drive/18ZnEnXKLQkkJoBXMZR2rspkWSm9EiDuZ
[29]
此github: https://github.com/dair-ai/nlp_fundamentals
[30]
在線學(xué)習(xí)課程中: https://www.meetup.com/Machine-Learning-Tokyo/events/268817313/
[31]
《機器學(xué)習(xí)數(shù)學(xué)》: https://mml-book.github.io/
[32]
TinyML: https://tinymlbook.com/?linkId=82595412
[33]
Deep Learning for Coders with fastai and PyTorch: AI Applications Without a PhD: https://www.amazon.com/Deep-Learning-Coders-fastai-PyTorch/dp/1492045527
[34]
reddit上也有類似的討論: https://www.reddit.com/r/learnprogramming/comments/87j7fw/teach_yourself_computer_science_a_diy_curriculum/
[35]
Torchmeta: https://arxiv.org/abs/1909.06576
[36]
語言建模中涉及的一些機制: https://creatext.ai/blog-posts/machine-text-writing-gpt2-beam-search?utm_medium=newsletter
[37]
Introduction to Deep Learning: http://introtodeeplearning.com/
[38]
訓(xùn)練用于命名實體識別(NER)的模型: https://github.com/huggingface/transformers/blob/master/examples/ner/run_pl_ner.py
[39]
隨附的Google Colab: https://colab.research.google.com/drive/184LPlygvdGGR64hgQl3ztqzZJu8MmITn
-?END?-
? Transformers Assemble(PART IV)
本文首發(fā)于微信公眾號:NewBeeNLP