本文首發(fā)于微信公眾號(hào):NewBeeNLP
歡迎來(lái)到 NLP 時(shí)事簡(jiǎn)報(bào)!涵蓋了諸如特定語(yǔ)言 BERT 模型叮贩、免費(fèi)數(shù)據(jù)集戳稽、深度學(xué)習(xí)庫(kù)等主題灸芳。
1、Publications ??
1.1 Language-specific BERT models
我已經(jīng)記不清現(xiàn)在有多少種特定語(yǔ)言的 BERT 模型了闷游,這里有一些最新的版本:
大多數(shù)這些模型也可以通過(guò) huggingFace 的Transformer 庫(kù)[11]獲得峻汉,該庫(kù)最近升級(jí)到了2.4.1[12]。
1.2 Overly Optimistic Prediction Results on Imbalanced Data: Flaws and Benefits of Applying Over-sampling
這篇論文[13]揭示并廣泛討論了在對(duì)數(shù)據(jù)集進(jìn)行劃分之前應(yīng)用過(guò)采樣來(lái)處理不平衡數(shù)據(jù)集的缺點(diǎn)和優(yōu)點(diǎn)脐往。此外休吠,該工作復(fù)現(xiàn)了先前的研究,并確定了導(dǎo)致過(guò)于樂(lè)觀的結(jié)果的方法論缺陷业簿。
1.3 Encode, Tag and Realize: A Controllable and Efficient Approach for Text Generation
為了減少基于 seq2seq 的文本生成方法中常見(jiàn)的 hallucination [14](產(chǎn)生輸入文本不支持的輸出)的影響瘤礁,Google 工程師公開(kāi)了一種稱為L(zhǎng)aserTagger[15]的文本生成方法。該方法的主要思想是通過(guò)使用預(yù)測(cè)的編輯操作(例如KEEP
梅尤,DELETE-ADD
等)標(biāo)記單詞并在所謂的realization step中將其應(yīng)用于輸入單詞來(lái)產(chǎn)生輸出柜思。
這代替了通常只從頭生成輸出的文本生成方法,這種方法通常很慢而且容易出錯(cuò)巷燥。該模型除了產(chǎn)生更少的錯(cuò)誤外赡盘,還提供了其他好處,例如缰揪,在進(jìn)行少量訓(xùn)練示例的情況下陨享,可以在實(shí)現(xiàn)并行預(yù)測(cè)的同時(shí)進(jìn)行編輯操作,同時(shí)仍保持良好的準(zhǔn)確性并優(yōu)于 BERT baseline钝腺。
1.4 Convolutional Neural Networks as a Model of the Visual System: Past, Present, and Future
1.5 Multilingual Denoising Pre-training for Neural Machine Translation
1.6 On improving conversational agents
Meena[18]是一種 neural conversational agents抛姑,旨在進(jìn)行更明智和更具體的改進(jìn)對(duì)話----定義為從人類對(duì)話中捕獲重要屬性(例如,流暢度)的指標(biāo)艳狐。該模型通過(guò)編碼器學(xué)習(xí)會(huì)話上下文途戒,并通過(guò)解碼器制定合理的響應(yīng)。據(jù)報(bào)道僵驰,通過(guò)考慮使用更強(qiáng)大的解碼器可以提高通話質(zhì)量喷斋。
你也可以了解更多 Alan Nichol(Rasa HQ 的聯(lián)合創(chuàng)始人)關(guān)于這項(xiàng)工作的想法[19]唁毒。
2、Creativity and Society ??
2.1 ML tools — reading comprehension test and sentiment analyzer
2.2 A Self-Taught AI Researcher at Google
在這個(gè)采訪A Self-Taught AI Researcher at Google[23]中星爪,你可以直接從 Google Art&Culture 的 ML 研究人員 Emil 那里聽(tīng)到有關(guān)他作為一名自學(xué)成才的研究人員從事 AI 事業(yè)的經(jīng)歷浆西。
3、Tools and Datasets ??
3.1 Free Datasets
Google 數(shù)據(jù)集搜索[24]正式退出測(cè)試版顽腾,現(xiàn)在可提供多達(dá) 2500 萬(wàn)個(gè)數(shù)據(jù)集進(jìn)行搜索近零。如果你想獲得下一個(gè)數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)項(xiàng)目的靈感,那么這里是查找對(duì)整個(gè) Internet 上托管的數(shù)據(jù)集的引用的地方抄肖。它基本上是用于數(shù)據(jù)集的搜索引擎久信,這是一項(xiàng)了不起的工作,需要付出巨大的努力漓摩!
Big Bad NLP 數(shù)據(jù)庫(kù)[25]是一個(gè)網(wǎng)站裙士,你可以在其中搜索 200 多種 NLP 數(shù)據(jù)集的專用數(shù)據(jù)庫(kù),以執(zhí)行諸如常識(shí)管毙,情感分析腿椎,問(wèn)題回答,蘊(yùn)含推理等任務(wù)夭咬。
3.2 Reinforcement learning library
最近啃炸,Chris Nota 開(kāi)發(fā)并發(fā)布了PyTorch 庫(kù)[26],用于基于流行的深度 RL 算法(例如 DQN卓舵,PPO 和 DDPG 等)來(lái)構(gòu)建強(qiáng)化學(xué)習(xí)代理南用。該庫(kù)的重點(diǎn)是面向?qū)ο蟮脑O(shè)計(jì),并能夠快速實(shí)施和評(píng)估新型強(qiáng)化學(xué)習(xí)代理掏湾。
3.3 ML Explainability and Interpretability
如果你當(dāng)前正在使用基于文本的語(yǔ)言模型裹虫,并且想了解在應(yīng)用于不同語(yǔ)言任務(wù)時(shí)如何更輕松地解釋它們,那么你可能會(huì)對(duì)Captum[27]感興趣忘巧。Captum 是一個(gè)可解釋性庫(kù)恒界,可用于分析功能重要性,解釋文本和視覺(jué)模型砚嘴,解釋多峰模型以及其他模型(例如用于回答問(wèn)題的 BERT)十酣。
如果你對(duì)模型的可解釋性感興趣,那么這套教程[28]也可能會(huì)讓您感興趣际长。它包括通過(guò) notebook 了解功能重要性的方法耸采。
3.4 Machine learning and deep learning libraries
Google Research 團(tuán)隊(duì)發(fā)布了Flax[29],一種基于JAX[30]的靈活而強(qiáng)大的神經(jīng)網(wǎng)絡(luò)庫(kù)工育,該庫(kù)提供了使用典型的 Numpy API 進(jìn)行快速計(jì)算和訓(xùn)練機(jī)器學(xué)習(xí)模型的框架虾宇。
Thinc[31]是由 spaCy 的開(kāi)發(fā)者開(kāi)發(fā)的輕量級(jí)深度學(xué)習(xí)庫(kù)。它提供了功能編程 API如绸,用于組成嘱朽,配置和部署使用 PyTorch 和 TensorFlow 之類的庫(kù)構(gòu)建的自定義模型旭贬。
Lyft 發(fā)布了Flyte[32],它是一個(gè)多租戶搪泳,可用于生產(chǎn)的無(wú)服務(wù)器平臺(tái)稀轨,用于部署并發(fā),可伸縮和可維護(hù)的 ML 和數(shù)據(jù)處理工作流岸军。
3.5 A tool for conversational AI
開(kāi)源對(duì)話式 AI 框架DeepPavlov[33]為構(gòu)建對(duì)話系統(tǒng)和復(fù)雜的對(duì)話系統(tǒng)提供了免費(fèi)且易于使用的解決方案奋刽。DeepPavlov 帶有幾個(gè)預(yù)定義的組件,用于解決與 NLP 相關(guān)的問(wèn)題艰赞。它將 BERT(包括會(huì)話 BERT)集成到三個(gè)下游任務(wù)中:文本分類佣谐,命名實(shí)體識(shí)別(和一般的序列標(biāo)記)以及問(wèn)題解答。結(jié)果方妖,它在所有這些任務(wù)上都取得了重大改進(jìn)狭魂。(Google Colab[34] | Blog[35] | Demo[36])
4、Ethics in AI ??
4.1 Facial recognition and privacy
紐約時(shí)報(bào)針對(duì)與面部識(shí)別技術(shù)有關(guān)的隱私的不同觀點(diǎn)撰寫(xiě)了一篇有趣的報(bào)告吁断。這個(gè)故事的重點(diǎn)是一個(gè)名為“ Clearview”的“秘密公司”趁蕊,據(jù)稱該公司使用 AI 技術(shù)通過(guò)從 Twitter坞生,F(xiàn)acebook 和 YouTube 等社交媒體網(wǎng)站上抓取的圖像來(lái)構(gòu)建通用的面部識(shí)別仔役。所述技術(shù)引起了人們對(duì)隱私的擔(dān)憂,但是據(jù)稱它還主要用于執(zhí)法是己。點(diǎn)擊此處[37]閱讀更多故事又兵。
4.2 Human-Level AI Progress
Jeremy Kahn 在這個(gè)報(bào)告[38]中廣泛討論了在 AI 技術(shù)的當(dāng)前發(fā)展背景下“ Narrow AI”和“ General AI”之間的區(qū)別。除了討論的許多主題之外卒废,關(guān)于(如果可能的話)實(shí)現(xiàn) AGI 的回報(bào)還有很多問(wèn)題沛厨。該報(bào)告還提到了大型高科技公司最近對(duì)這些努力進(jìn)行投資的興趣。最值得注意的是摔认,該報(bào)告包括一些受人尊敬的研究人員提出的一些擔(dān)憂逆皮,他們聲稱某些試圖操縱 AI 敘述以利于他們的研究組織表現(xiàn)出“不負(fù)責(zé)任和不道德”的行為。
4.3 Understanding AI Ethics and Safety
5参袱、Articles and Blog posts ??
5.1 Speeding up tokenization tutorial
Steven van de Graaf 撰寫(xiě)了這篇文章[40]电谣,報(bào)告說(shuō),與使用 Transformers 中的標(biāo)準(zhǔn)內(nèi)置標(biāo)記器相比抹蚀,使用HuggingFace 的新 Tokenizer 庫(kù)[41]的性能有所提高剿牺。Steven 報(bào)告說(shuō),其速度提高了 9 倍环壤,并且實(shí)現(xiàn)過(guò)程花費(fèi)了 10.6 秒來(lái)標(biāo)記 100 萬(wàn)個(gè)句子晒来。
5.2 Can language models really comprehend?
The Gradient 最近在Gary Marcus 的這篇文章[42]中發(fā)表,他討論了他認(rèn)為是 GPT-2 等語(yǔ)言模型背后的基本缺陷的內(nèi)容郑现。Gary Marcus 的主要觀點(diǎn)是湃崩,經(jīng)過(guò)訓(xùn)練能夠預(yù)測(cè)下一個(gè)單詞的模型不一定是可以理解或推理的模型荧降,即“預(yù)測(cè)是理解的組成部分,而不是整體攒读√芘祝” 他還討論了在語(yǔ)言環(huán)境中先天性的重要性,并指出當(dāng)前的語(yǔ)言模型沒(méi)有考慮到這一點(diǎn)整陌。
5.3 Curriculum for Reinforcement Learning
5.4 Introduction to NumPy
6拗窃、Education ??
6.1 Foundations of machine learning and statistical inference
來(lái)自加州理工學(xué)院的 Anima Anandkumar 發(fā)布了一門(mén)名為“機(jī)器學(xué)習(xí)和統(tǒng)計(jì)推論的基礎(chǔ)”的課程。該課程側(cè)重于 ML 概念泌辫,例如矩陣随夸,張量,優(yōu)化震放,概率模型宾毒,神經(jīng)網(wǎng)絡(luò)等。這是一門(mén)很棒的課程殿遂,因?yàn)樗鼈?cè)重于 ML 的理論方面诈铛,這對(duì)于理解和改進(jìn)更高級(jí)的方法同樣重要。(視頻播放列表[45]|課程提綱[46])
6.2 Deep Learning Lecture Series
DeepMind 與 UCL 合作發(fā)布了深度學(xué)習(xí)講座系列[47]墨礁,其中包括 12 個(gè)講座幢竹,這些講座將由 DeepMind 的領(lǐng)先研究科學(xué)家進(jìn)行。主題包括如何使用注意力恩静,記憶力和生成模型等方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)焕毫。
6.3 Open Syllabus
6.4 Discussing, Sharing, and Learning about ML
r/ResearchML[49]是用于討論 ML 論文的新的機(jī)器學(xué)習(xí)子目錄。這一主題更側(cè)重于研究并鼓勵(lì)更深入的討論驶乾。
7邑飒、Notable Mentions ??
How we built the good first issues feature[51]:了解有關(guān) GitHub 如何利用機(jī)器學(xué)習(xí)為開(kāi)發(fā)人員發(fā)現(xiàn)簡(jiǎn)單和個(gè)性化問(wèn)題的更多信息,以便他們可以解決與他們的興趣相匹配的問(wèn)題级乐。這鼓勵(lì)了來(lái)自開(kāi)源貢獻(xiàn)者的更快和更多的貢獻(xiàn)疙咸。
緊跟 Sebastian Ruder 的 NLP News[52],以獲取最新的 NLP 最新新聞风科。重點(diǎn)包括 NLP 進(jìn)展的更新撒轮,過(guò)去十年的回顧,新的 NLP 課程以及其他主題丐重。
一份超贊的TensorFlow 2.0 深度學(xué)習(xí) notebook[53]列表腔召,范圍從 CycleGAN 到 Transformers 到圖像字幕任務(wù)。它們由 LBNL 的科學(xué)學(xué)院深度學(xué)習(xí)公開(kāi)發(fā)布扮惦。
一篇令人印象深刻且易于理解的博客文章臀蛛,解釋了貝葉斯神經(jīng)網(wǎng)絡(luò)[54]的基礎(chǔ),入門(mén)的絕佳介紹。
An Opinionated Guide to ML Research[55]:John Schulman 就如何更好地選擇研究問(wèn)題以及在實(shí)施和解決手頭的研究任務(wù)方面更具戰(zhàn)略性等方面浊仆,為即將到來(lái)的機(jī)器學(xué)習(xí)研究人員提供了一些建議客峭,還分享了個(gè)人發(fā)展和持續(xù)進(jìn)步的技巧。
今日限定款分割線抡柿,右下角鏈接可以閱讀原文~
本文參考資料
[1]
RobBERT: https://arxiv.org/abs/2001.06286
[2]
BERTje: https://arxiv.org/abs/1912.09582
[3]
德語(yǔ) German BERT: https://deepset.ai/german-bert
[4]
葡萄牙語(yǔ) Portuguese BERT: https://github.com/neuralmind-ai/portuguese-bert
[5]
CamemBERT: https://arxiv.org/abs/1911.03894
[6]FlauBERT: https://arxiv.org/abs/1912.05372[7]AlBERTo: http://ceur-ws.org/Vol-2481/paper57.pdf
[8]UmBERTo: https://github.com/musixmatchresearch/umberto
[9]BETO: https://github.com/dccuchile/beto
[10]araBERT: https://colab.research.google.com/drive/1KSy89fAkWt6EGfnFQElDjXrBror9lIZh
[11]Transformer 庫(kù): https://huggingface.co/models
[12]2.4.1: https://github.com/huggingface/transformers/releases
[13]論文: https://arxiv.org/abs/2001.06296
[14]hallucination : https://arxiv.org/abs/1910.08684
[15]LaserTagger: https://ai.googleblog.com/2020/01/encode-tag-and-realize-controllable-and.html
[16]報(bào)告: https://arxiv.org/abs/2001.07092
[17]mBART: https://arxiv.org/pdf/2001.08210.pdf
[18]Meena: https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html
[19]關(guān)于這項(xiàng)工作的想法: https://venturebeat.com/2020/01/31/with-googles-meena-are-ai-assistants-about-to-get-alot-smarter/
[20]Albert Learns to Read: https://littlealbert.now.sh/#/
[21]ALBERT: https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html
[22]博客 Teaching Machines to Read: https://www.spark64.com/post/machine-comprehension
[23]A Self-Taught AI Researcher at Google: https://blog.floydhub.com/emils-story-as-a-self-taught-ai-researcher/
[24]Google 數(shù)據(jù)集搜索: https://blog.google/products/search/discovering-millions-datasets-web/
[25]Big Bad NLP 數(shù)據(jù)庫(kù): https://quantumstat.com/dataset/dataset.html
[26]PyTorch 庫(kù): https://github.com/cpnota/autonomous-learning-library
[27]Captum: https://captum.ai/
[28]這套教程: https://www.kaggle.com/learn/machine-learning-explainability
[29]Flax: https://github.com/google-research/flax/tree/prerelease
[30]JAX: https://github.com/google/jax
[31]Thinc: https://thinc.ai/
[32]Flyte: https://eng.lyft.com/introducing-flyte-cloud-native-machine-learning-and-data-processing-platform-fb2bb3046a59
[33]DeepPavlov: https://github.com/deepmipt/DeepPavlov
[34]Google Colab: https://colab.research.google.com/github/deepmipt/dp_notebooks/blob/master/DP_tf.ipynb
[35]Blog: https://medium.com/tensorflow/deeppavlov-an-open-source-library-for-end-to-end-dialog-systems-and-chatbots-31cf26849e37
[36]Demo: https://demo.deeppavlov.ai/#/en/textqa
[37]此處: https://www.nytimes.com/2020/01/18/technology/clearview-privacy-facial-recognition.html
[38]這個(gè)報(bào)告: https://fortune.com/longform/ai-artificial-intelligence-big-tech-microsoft-alphabet-openai/
[39]這份非常詳盡的報(bào)告: https://www.turing.ac.uk/sites/default/files/2019-06/understanding_artificial_intelligence_ethics_and_safety.pdf
[40]這篇文章: https://towardsdatascience.com/a-small-timing-experiment-on-the-new-tokenizers-library-a-write-up-7caab6f80ea6
[41]HuggingFace 的新 Tokenizer 庫(kù): https://github.com/huggingface/tokenizers
[42]Gary Marcus 的這篇文章: https://thegradient.pub/gpt2-and-the-nature-of-intelligence/
[43]幾種基于課程的方法: https://lilianweng.github.io/lil-log/2020/01/29/curriculum-for-reinforcement-learning.html
[44]非常詳細(xì)的 numpy 教程: https://numpy.org/devdocs/user/absolute_beginners.html
[45]視頻播放列表: https://www.youtube.com/playlist?list=PLVNifWxslHCDlbyitaLLYBOAEPbmF1AHg
[46]課程提綱: http://tensorlab.cms.caltech.edu/users/anima/cms165-2020.html
[47]深度學(xué)習(xí)講座系列: https://www.eventbrite.co.uk/o/ucl-x-deepmind-deep-learning-lecture-series-general-29078980901
[48]Open Syllabus: https://opensyllabus.org/
[49]r/ResearchML: https://www.reddit.com/r/ResearchML/
[50]PracticalAI: https://practicalai.me/explore/content/
[51]How we built the good first issues feature: https://github.blog/2020-01-22-how-we-built-good-first-issues/
[52]NLP News: http://newsletter.ruder.io/issues/nlp-progress-restrospectives-and-look-ahead-new-nlp-courses-independent-research-initiatives-interviews-lots-of-resources-217744
[53]TensorFlow 2.0 深度學(xué)習(xí) notebook: https://github.com/NERSC/dl4sci-tf-tutorials
[54]貝葉斯神經(jīng)網(wǎng)絡(luò): https://engineering.papercup.com/posts/bayesian-neural-nets/
[55]An Opinionated Guide to ML Research: http://joschu.net/blog/opinionated-guide-ml-research.html
本文首發(fā)于微信公眾號(hào):NewBeeNLP