神經(jīng)網(wǎng)絡(luò)擁有很強的預測能力幌氮,但它們往往無法知道自己的預測何時可能出錯。與此密切相關(guān)的是out-of-distribution檢測任務(wù)朴肺,在這個任務(wù)中炕檩,模型必須確定輸入是否超出了...
![240](https://cdn2.jianshu.io/assets/default_avatar/12-aeeea4bedf10f2a12c0d50d626951489.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
神經(jīng)網(wǎng)絡(luò)擁有很強的預測能力幌氮,但它們往往無法知道自己的預測何時可能出錯。與此密切相關(guān)的是out-of-distribution檢測任務(wù)朴肺,在這個任務(wù)中炕檩,模型必須確定輸入是否超出了...
文章主要介紹了兩種Multi-dimensional Self-Attention機制和Directional Self-Attention機制斗蒋。在此基礎(chǔ)上設(shè)計了Direct...
文章認為普通的attention存在以下兩個問題: 對整個序列使用加權(quán)和來計算注意力信息,會使相鄰token的注意力被削弱敲霍。舉個栗子:Amy eat a banana, an...
文章的motivation是將soft attention和hard attention結(jié)合起來俊马,使其保留二者的優(yōu)點丁存,同時丟棄二者的缺點。具體地說柴我,hard attentio...
作者:Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Yoshua Bengio 來源: ICLR 2018 鏈接...
介紹 我們使用一些傳統(tǒng)的監(jiān)督學習方法做分類的時候解寝,往往是訓練樣本規(guī)模越大,分類的效果就越好艘儒。但是在現(xiàn)實生活的很多場景中聋伦,標記樣本的獲取是比較困難的,這需要領(lǐng)域內(nèi)的專家來進行人...
Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention with Relative Pos...
詞表示是自然語言處理的基礎(chǔ)彤悔,一個好的詞向量在很大程度上決定了后續(xù)任務(wù)的上限嘉抓。本文是我最近學習該部分內(nèi)容的筆記,主要參照的是基于神經(jīng)網(wǎng)絡(luò)的詞和文檔語義向量表示方法研究一文晕窑,穿插...