NLP簡報(Issue#5):The Annotated GPT-2、CodeBERT波闹、JAX酝豪、GANILLA等

本文首發(fā)于微信公眾號:NewBeeNLP


歡迎來到 NLP 時事簡報!全文較長精堕,建議收藏孵淘。

如果想讓自己有趣的研究/項目出現(xiàn)在NLP簡報中,隨時在公眾號后臺留言聯(lián)系我


  • 1歹篓、Publications ??
    • 1.1 理解self-distillation

    • 1.2 深度學(xué)習(xí)十年簡史

    • 1.3 利用神經(jīng)網(wǎng)絡(luò)求解高等數(shù)學(xué)方程

    • 1.4 CodeBERT

  • 2瘫证、Creativity and Society ??
    • 2.1 AI for scientific discovery

    • 2.2 改善image-to-illustration

    • 2.3 Andrew Ng談自監(jiān)督學(xué)習(xí)

  • 3、Tools and Datasets ??

    • 3.1 JAX libraries

    • 3.2 處理維基百科數(shù)據(jù)的工具

    • 3.3 Rust Tokenizers, DistilBERT base cased

    • 3.4 夸夸語料

  • 4庄撮、Ethics in AI ??

    • 4.1 NLP和ML模型的道德考量

  • 5背捌、Articles and Blog posts ??

    • 5.1 The Annotated GPT-2

    • 5.2 Beyond BERT?

    • 5.3 矩陣壓縮算子

  • 6、Education ??

    • 6.1 NLP基礎(chǔ)

    • 6.2 數(shù)學(xué)基礎(chǔ)課

    • 6.3 書籍推薦

    • 6.4 計算機科學(xué)自學(xué)指南

  • 7洞斯、Noteworthy Mentions ??

  • 1毡庆、Publications ??

    1.1 理解self-distillation

    在深度學(xué)習(xí)中,self-distillation[1]是將知識從一種架構(gòu)轉(zhuǎn)移到另一種相同架構(gòu)的過程烙如。在訓(xùn)練時么抗,原始模型的預(yù)測作為目標(biāo)值提供給另一個模型。除具有所需的屬性(例如減小模型大醒翘)外蝇刀,經(jīng)驗結(jié)果還表明該方法在held-out datasets上效果很好。

    1.2 深度學(xué)習(xí)十年簡史

    人工智能的先驅(qū)刀闷、LSTM之父JürgenSchmidhuber最近發(fā)布了一個新博客熊泵,The 2010s: Our Decade of Deep Learning / Outlook on the 2020s[3],提供自2010年以來的深度學(xué)習(xí)歷史概述甸昏,包括LSTM顽分,前饋神經(jīng)網(wǎng)絡(luò),GAN施蜜,深度強化學(xué)習(xí)卒蘸,元學(xué)習(xí),世界模型 ,蒸餾神經(jīng)網(wǎng)絡(luò)缸沃,注意學(xué)習(xí)等一些主題恰起。文章最后總結(jié)了2020年代的前景,鼓勵人們關(guān)注緊迫的問題趾牧,例如隱私和數(shù)據(jù)市場检盼。

    1.3 利用神經(jīng)網(wǎng)絡(luò)求解高等數(shù)學(xué)方程

    1.4 CodeBERT

    在這篇名為《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》[5]的論文中,來自哈工大翘单、中山大學(xué)和微軟的研究人員詳細介紹了這一新預(yù)訓(xùn)練模型吨枉,該模型可處理雙模態(tài)數(shù)據(jù):編程語言(PL)和自然語言(NL)。

    CodeBERT 學(xué)習(xí)能夠支持下游 NL-PL 應(yīng)用的通用表示哄芜,比如自然語言代碼搜索貌亭、代碼文檔生成,經(jīng)實驗 CodeBERT 模型在兩項任務(wù)均取得 SOTA 效果认臊,同時研究者構(gòu)建了 NL-PL 探測數(shù)據(jù)集圃庭,CodeBERT 在 zero-shot 設(shè)置中的性能表現(xiàn)也持續(xù)優(yōu)于 RoBERTa。

    2失晴、Creativity and Society ??

    2.1 AI for scientific discovery

    Mattew Hutson報告了如何使用人工智能(AI)來生成仿真器[6]剧腻,這些仿真器在對復(fù)雜自然現(xiàn)象進行建模方面具有重要作用,而自然現(xiàn)象又可能導(dǎo)致不同類型的科學(xué)發(fā)現(xiàn)师坎。構(gòu)建這些仿真器的變化是恕酸,它們通常需要大規(guī)模數(shù)據(jù)和廣泛的參數(shù)探索。最近的論文提出了DENSE方法[7]胯陋,一種基于神經(jīng)結(jié)構(gòu)搜索[8]來構(gòu)建準(zhǔn)確的仿真器,而僅依賴有限數(shù)量的訓(xùn)練數(shù)據(jù)袱箱。他們通過對包括天體物理學(xué)遏乔,氣候科學(xué)和聚變能等在內(nèi)的案例進行仿真來對其進行測試。

    2.2 改善image-to-illustration

    2.3 Andrew Ng談自監(jiān)督學(xué)習(xí)

    deeplearning.ai的創(chuàng)始人Andrew Ng加入人工智能播客[12]发笔,討論的主題包括他早期從事ML的工作盟萨,AI的未來和AI教育,正確使用ML的建議了讨,他的個人目標(biāo)以及在2020年代應(yīng)該關(guān)注ML技術(shù)捻激。

    Andrew解釋了為什么他對自監(jiān)督的表示學(xué)習(xí)感到非常興奮。自監(jiān)督式學(xué)習(xí)涉及一個學(xué)習(xí)問題前计,該問題旨在從數(shù)據(jù)本身獲得監(jiān)督胞谭,以利用大量未標(biāo)記數(shù)據(jù),這比純凈標(biāo)記數(shù)據(jù)更常見男杈。這些表示很重要丈屹,可用于處理下游任務(wù),類似于BERT等語言模型中使用的任務(wù)。

    3旺垒、Tools and Datasets ??

    3.1 JAX libraries

    JAX[14]是一個新庫彩库,結(jié)合了NumPy和自動微分功能,可以進行高性能ML研究先蒋。為了簡化使用JAX構(gòu)建神經(jīng)網(wǎng)絡(luò)的管道骇钦,DeepMind發(fā)布了Haiku[15]和RLax[16]。使用熟悉的面向?qū)ο缶幊棠P途貉琑Lax簡化了強化學(xué)習(xí)代理的實現(xiàn)眯搭,而Haiku簡化了神經(jīng)網(wǎng)絡(luò)的構(gòu)建。

    3.2 處理維基百科數(shù)據(jù)的工具

    3.3 Rust Tokenizers, DistilBERT base cased, Model cards

    Hugging Face發(fā)行的新版Transformers[19]包括其快速分詞器庫的集成畴蹭,該庫旨在加速BERT坦仍,RoBERTa,GPT2等模型以及其他社區(qū)構(gòu)建的模型叨襟。

    3.4 夸夸語料

    夸夸語料[20]繁扎,來自豆瓣互相表揚組數(shù)據(jù)。

    4糊闽、Ethics in AI ??

    4.1 NLP和ML模型的道德考量

    在NLP Highlights的新內(nèi)容中[21]梳玫,Emily Bender和主持人討論了在學(xué)術(shù)界和實際使用情況下開發(fā)NLP模型和技術(shù)時的一些道德考量。討論中的一些主題包括設(shè)計NLP任務(wù)右犹,數(shù)據(jù)收集方法以及最終發(fā)布結(jié)果時的道德考慮提澎。

    除了上述所有考慮因素之外,AI社區(qū)中經(jīng)常討論的一個問題過于關(guān)注優(yōu)化指標(biāo)念链,這與AI旨在實現(xiàn)的目標(biāo)背道而馳盼忌。Rachel Thomas和David Uminsky[22]討論了通過對不同用例進行透徹分析而可能出錯的地方。他們還提出了一個緩解該問題的簡單框架掂墓,其中涉及多個指標(biāo)的使用和組合谦纱,然后是那些直接受到該技術(shù)影響的人的參與。

    5君编、Articles and Blog posts ??

    5.1 The Annotated GPT-2

    5.2 Beyond BERT?

    Sergi Castella[25]對BERT以外的內(nèi)容感興趣跨嘉。主要主題包括改善指標(biāo),Hugging Face的Transformers庫如何支持研究吃嘿,查看有趣的數(shù)據(jù)集祠乃,解壓縮模型等。

    5.3 矩陣壓縮算子

    6兑燥、Education ??

    6.1 NLP基礎(chǔ)

    NLP基礎(chǔ)[27]從基礎(chǔ)開始講授NLP概念亮瓷,同時分享最佳實踐,重要參考贪嫂,應(yīng)避免的常見錯誤以及NLP的未來寺庄。包含一個Colab筆記本[28],該項目將在此github[29]維護。

    6.2 數(shù)學(xué)基礎(chǔ)課

    Machine Learning Tokyo 將在3月8日主持一個遠程在線討論斗塘,其中回顧他們最近的在線學(xué)習(xí)課程中[30]涉及的章節(jié)赢织。該小組以前研究過Marc Peter Deisenroth,Ado Faisal和Cheng Soon Ong所著的《機器學(xué)習(xí)數(shù)學(xué)》[31]一書章節(jié)馍盟。

    6.3 書籍推薦

    6.4 計算機科學(xué)自學(xué)指南

    7于置、Noteworthy Mentions ??

    Torchmeta[35]是一個是由Tristan Deleu創(chuàng)作的可以輕松使用相關(guān)的數(shù)據(jù)加載器進行元學(xué)習(xí)研究的庫。

    Manuel Tonneau撰寫了一篇文章贞岭,仔細研究了語言建模中涉及的一些機制[36]八毯,包括貪婪和波束搜索以及原子核采樣等主題。

    MIT發(fā)布了名為“Introduction to Deep Learning[37]”的課程的完整提綱和課程表话速,其中包括已授課的視頻, 他們的目標(biāo)是每周發(fā)布視頻講座和幻燈片泊交。

    了解如何使用基于Transformer的方法在不到300行代碼中訓(xùn)練用于命名實體識別(NER)的模型[38]。您可以在此處找到隨附的Google Colab[39]廓俭。


    本文參考資料

    [1]

    self-distillation: https://arxiv.org/pdf/1503.02531.pdf

    [2]

    Self-Distillation Amplifies Regularization in Hilbert Space: http://xxx.itp.ac.cn/abs/2002.05715

    [3]

    The 2010s: Our Decade of Deep Learning / Outlook on the 2020s: http://people.idsia.ch/~juergen/2010s-our-decade-of-deep-learning.html

    [4]

    Deep Learning for Symbolic Mathematics: https://arxiv.org/abs/1912.01412

    [5]

    《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》: https://arxiv.org/abs/2002.08155

    [6]

    如何使用人工智能(AI)來生成仿真器: https://www.sciencemag.org/news/2020/02/models-galaxies-atoms-simple-ai-shortcuts-speed-simulations-billions-times

    [7]

    論文提出了DENSE方法: https://arxiv.org/abs/2001.08055

    [8]

    神經(jīng)結(jié)構(gòu)搜索: https://en.wikipedia.org/wiki/Neural_architecture_search

    [9]

    GANILLA: https://github.com/giddyyupp/ganilla

    [10]

    圖像到圖像翻譯任務(wù): https://paperswithcode.com/task/image-to-image-translation

    [11]

    GANILLA: Generative Adversarial Networks for Image to Illustration Translation: https://arxiv.org/abs/2002.05638

    [12]

    人工智能播客: https://www.youtube.com/watch?v=0jspaMLxBig

    [13]

    SimCLR: https://arxiv.org/abs/2002.05709

    [14]

    JAX: https://github.com/google/jax

    [15]

    Haiku: https://github.com/deepmind/dm-haiku

    [16]

    RLax: https://github.com/deepmind/rlax

    [17]

    Sparkwiki: https://github.com/epfl-lts2/sparkwiki

    [18]

    捕獲跨不同語言版本的Wikipedia的趨勢和語言偏見: https://arxiv.org/abs/2002.06885

    [19]

    新版Transformers: https://github.com/huggingface/transformers/releases/tag/v2.5.0

    [20]

    夸夸語料: https://github.com/xiaopangxia/kuakua_corpus

    [21]

    NLP Highlights的新內(nèi)容中: https://soundcloud.com/nlp-highlights/106-ethical-considerations-in-nlp-research-emily-bender

    [22]

    Rachel Thomas和David Uminsky: https://arxiv.org/abs/2002.08512

    [23]

    The Annotated GPT-2: https://amaarora.github.io/2020/02/18/annotatedGPT2.html

    [24]

    The Annotated Transformer: https://nlp.seas.harvard.edu/2018/04/03/attention.html

    [25]

    Sergi Castella: https://towardsdatascience.com/beyond-bert-6f51a8bc5ce1

    [26]

    Matrix Compression Operator: https://blog.tensorflow.org/2020/02/matrix-compression-operator-tensorflow.html?linkId=82298016

    [27]

    NLP基礎(chǔ): https://medium.com/dair-ai/fundamentals-of-nlp-chapter-1-tokenization-lemmatization-stemming-and-sentence-segmentation-b362c5d07684

    [28]

    Colab筆記本: https://colab.research.google.com/drive/18ZnEnXKLQkkJoBXMZR2rspkWSm9EiDuZ

    [29]

    此github: https://github.com/dair-ai/nlp_fundamentals

    [30]

    在線學(xué)習(xí)課程中: https://www.meetup.com/Machine-Learning-Tokyo/events/268817313/

    [31]

    《機器學(xué)習(xí)數(shù)學(xué)》: https://mml-book.github.io/

    [32]

    TinyML: https://tinymlbook.com/?linkId=82595412

    [33]

    Deep Learning for Coders with fastai and PyTorch: AI Applications Without a PhD: https://www.amazon.com/Deep-Learning-Coders-fastai-PyTorch/dp/1492045527

    [34]

    reddit上也有類似的討論: https://www.reddit.com/r/learnprogramming/comments/87j7fw/teach_yourself_computer_science_a_diy_curriculum/

    [35]

    Torchmeta: https://arxiv.org/abs/1909.06576

    [36]

    語言建模中涉及的一些機制: https://creatext.ai/blog-posts/machine-text-writing-gpt2-beam-search?utm_medium=newsletter

    [37]

    Introduction to Deep Learning: http://introtodeeplearning.com/

    [38]

    訓(xùn)練用于命名實體識別(NER)的模型: https://github.com/huggingface/transformers/blob/master/examples/ner/run_pl_ner.py

    [39]

    隨附的Google Colab: https://colab.research.google.com/drive/184LPlygvdGGR64hgQl3ztqzZJu8MmITn

    -?END?-

    ? Transformers Assemble(PART IV)

    ? 【NLP保姆級教程】手把手帶你CNN文本分類(附代碼)

    ? NLP簡報(Issue#4)

    本文首發(fā)于微信公眾號:NewBeeNLP

    ?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
    • 序言:七十年代末痊土,一起剝皮案震驚了整個濱河市挽封,隨后出現(xiàn)的幾起案子父能,更是在濱河造成了極大的恐慌,老刑警劉巖谣膳,帶你破解...
      沈念sama閱讀 217,406評論 6 503
    • 序言:濱河連續(xù)發(fā)生了三起死亡事件橄唬,死亡現(xiàn)場離奇詭異,居然都是意外死亡参歹,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
      沈念sama閱讀 92,732評論 3 393
    • 文/潘曉璐 我一進店門隆判,熙熙樓的掌柜王于貴愁眉苦臉地迎上來犬庇,“玉大人,你說我怎么就攤上這事侨嘀〕敉欤” “怎么了?”我有些...
      開封第一講書人閱讀 163,711評論 0 353
    • 文/不壞的土叔 我叫張陵咬腕,是天一觀的道長欢峰。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么纽帖? 我笑而不...
      開封第一講書人閱讀 58,380評論 1 293
    • 正文 為了忘掉前任宠漩,我火速辦了婚禮,結(jié)果婚禮上懊直,老公的妹妹穿的比我還像新娘扒吁。我一直安慰自己,他們只是感情好室囊,可當(dāng)我...
      茶點故事閱讀 67,432評論 6 392
    • 文/花漫 我一把揭開白布雕崩。 她就那樣靜靜地躺著,像睡著了一般融撞。 火紅的嫁衣襯著肌膚如雪盼铁。 梳的紋絲不亂的頭發(fā)上,一...
      開封第一講書人閱讀 51,301評論 1 301
    • 那天尝偎,我揣著相機與錄音饶火,去河邊找鬼。 笑死冬念,一個胖子當(dāng)著我的面吹牛趁窃,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播急前,決...
      沈念sama閱讀 40,145評論 3 418
    • 文/蒼蘭香墨 我猛地睜開眼醒陆,長吁一口氣:“原來是場噩夢啊……” “哼刨摩!你這毒婦竟也來了世吨?” 一聲冷哼從身側(cè)響起,我...
      開封第一講書人閱讀 39,008評論 0 276
    • 序言:老撾萬榮一對情侶失蹤罢浇,失蹤者是張志新(化名)和其女友劉穎嚷闭,沒想到半個月后赖临,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
      沈念sama閱讀 45,443評論 1 314
    • 正文 獨居荒郊野嶺守林人離奇死亡嗅榕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
      茶點故事閱讀 37,649評論 3 334
    • 正文 我和宋清朗相戀三年凌那,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片君旦。...
      茶點故事閱讀 39,795評論 1 347
    • 序言:一個原本活蹦亂跳的男人離奇死亡金砍,死狀恐怖恕稠,靈堂內(nèi)的尸體忽然破棺而出扶欣,到底是詐尸還是另有隱情,我是刑警寧澤骆捧,帶...
      沈念sama閱讀 35,501評論 5 345
    • 正文 年R本政府宣布敛苇,位于F島的核電站顺呕,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏来涨。R本人自食惡果不足惜,卻給世界環(huán)境...
      茶點故事閱讀 41,119評論 3 328
    • 文/蒙蒙 一蹦掐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧笤闯,春花似錦棍厂、人聲如沸牺弹。這莊子的主人今日做“春日...
      開封第一講書人閱讀 31,731評論 0 22
    • 文/蒼蘭香墨 我抬頭看了看天上的太陽航攒。三九已至漠畜,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蝴悉,已是汗流浹背瘾敢。 一陣腳步聲響...
      開封第一講書人閱讀 32,865評論 1 269
    • 我被黑心中介騙來泰國打工簇抵, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人晃财。 一個月前我還...
      沈念sama閱讀 47,899評論 2 370
    • 正文 我出身青樓拓劝,卻偏偏與公主長得像嘉裤,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子屑宠,可洞房花燭夜當(dāng)晚...
      茶點故事閱讀 44,724評論 2 354

    推薦閱讀更多精彩內(nèi)容