今天看了幾篇簡直炸裂的文章蕴侣,之前火的要死的 transformer 終于搞懂了(尤其是在 Bert問世之后)硬毕,感覺學會了很多東西,下面分享鏈接颜及。
今天算是收獲滿滿了~
NLP2017至今的兩年炸裂歷程:
Transformer
->
Weighted Transformer
->
Universal Transformers
->
Transformer-XL
->
ELMO
GPT
ULM-FiT
->
BERT
講解:
The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)
附帶一篇自適應計算次數(ACT)的解讀文章蹂楣,理解 universal transformer 時會用到~:
Adaptive Computation Time
當然還有很多很多俏站,我就不一一貼出來啦,小編在此祝大家學習愉快~