任務(wù)名稱
文本預(yù)處理体斩;語言模型遵堵;循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
學(xué)習(xí)心得
1箱玷、鑒于自己從事NLP已有一段時間,因此該部分還是稍微輕松一些。
2汪茧、以前總是直接用開源的已經(jīng)訓(xùn)練好的語言模型椅亚,大部分都是word2vec的預(yù)訓(xùn)練模型限番,以及后面新出現(xiàn)的比較強大的BERT等舱污。沒有自己動手去研究語言模型的來龍去脈,正好借此機會補習(xí)一下弥虐。
3扩灯、兩種采樣方式:
隨機采樣:在隨機采樣中,每個樣本是原始序列上任意截取的一段序列霜瘪,相鄰的兩個隨機小批量在原始序列上的位置不一定相毗鄰珠插。
相鄰采樣:在相鄰采樣中,相鄰的兩個隨機小批量在原始序列上的位置相毗鄰颖对。
4捻撑、語言模型困惑度(perplexity):用來評價語言模型的好壞。困惑度是對交叉熵損失函數(shù)做指數(shù)運算后得到的值缤底。
最佳情況下顾患,模型總是把標(biāo)簽類別的概率預(yù)測為1,此時困惑度為1个唧;
最壞情況下江解,模型總是把標(biāo)簽類別的概率預(yù)測為0,此時困惑度為正無窮徙歼;
基線情況下犁河,模型總是預(yù)測所有類別的概率都相同,此時困惑度為類別個數(shù)魄梯。
顯然桨螺,任何一個有效模型的困惑度必須小于類別個數(shù)。
困惑度(perplexity)的基本思想是:給測試集的句子賦予較高概率值的語言模型較好,當(dāng)語言模型訓(xùn)練完之后酿秸,測試集中的句子都是正常的句子灭翔,那么訓(xùn)練好的模型就是在測試集上的概率越高越好,公式如下:
由公式可知允扇,語言模型越好缠局,困惑度越小。