第一周 循環(huán)序列模型
目前還是使用one-hot的方法來做~
為什么不適用標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)呢舞终?原因有以下幾點(diǎn):
它不僅根據(jù)現(xiàn)在的輸入決定輸出融涣,而且根據(jù)之前的輸入決定輸出泳姐。但是這樣的單向只利用了之前的信息袍患,沒利用后面的信息俊戳。所以,會在后面的雙向RNN中介紹~
前向傳播
反向傳播:
有很對序列模型 輸入和輸出維度不一樣雪位,
多對多的里面機(jī)器翻譯竭钝,提到了Attention模型,還有上周師兄講過的transformer模型
用RNN建立一個語言模型雹洗,a little abstract:
采樣? ?從RNN中隨機(jī)選擇
還可以用基于字符的語言模型香罐。優(yōu)點(diǎn)是不會出現(xiàn)mau這種UNK詞匯,缺點(diǎn)是計(jì)算負(fù)擔(dān)重时肿,難以捕捉詞匯間的關(guān)系
如何解決梯度消失問題庇茫,還有梯度爆炸問題也存在。深層的RNN難以捕捉深層次的長期依賴
GRU(gated recurrent unit)
可以更好捕捉長期依賴~
LSTM(long short term memory)長短期記憶網(wǎng)絡(luò)【閑時看了下Wang的個人主頁螃成,發(fā)現(xiàn)人與人真是云泥之別旦签,不再確定自己是否真的適合這一行。哎锈颗∏昱】增加了遺忘門和更新門,并且和GRU不同的是击吱,a和c視作是不同的值淋淀。
GRU:結(jié)構(gòu)更簡單點(diǎn),更能夠創(chuàng)建大點(diǎn)的網(wǎng)絡(luò)覆醇,計(jì)算更大 LSTM更強(qiáng)大靈活
雙向循環(huán)神經(jīng)網(wǎng)絡(luò)
Deep RNNs:一般三層就OK了
第二周 自然語言處理與詞嵌入
Word representation:one-hot朵纷,使用這樣的方法不能捕捉詞和詞之間的聯(lián)系,因?yàn)樗鼈儍?nèi)積都是0永脓。使用詞嵌入可以用特征來表示兩個詞袍辞,可以使用TSNE來將300維的向量可視化。
NLP and word embedding:可以使用遷移學(xué)習(xí)常摧,把網(wǎng)上學(xué)好的詞典的數(shù)據(jù)拿來用
和圖像識別的不同:圖像可以是未知的圖片搅吁,而詞向量是有固定的詞表的
詞嵌入的特性:實(shí)現(xiàn)類比推理。計(jì)算向量距離
計(jì)算相似度的:
嵌入矩陣:通過E與one-hot向量相乘落午,得到最終的300維的表示谎懦。
學(xué)習(xí)詞嵌入:
word2Vec:
負(fù)采樣:
Glove詞向量:最小化這個函數(shù)
情感分類:將embedding加起來,但是左下角的不使用溃斋,所以要使用RNN界拦,來捕捉not good這種思想。
詞嵌入除偏:
第三周:序列模型和注意力機(jī)制
序列模型作機(jī)器翻譯和圖像描述
機(jī)器翻譯可以看作是條件語言模型:找到可能性最大的序列
貪心算法并不適用
定向搜索:考慮多種結(jié)果
改進(jìn)定向搜索:長度歸一化梗劫,上面的損失函數(shù)傾向于短句子
束搜索的誤差分析:判斷是RNN模型出錯了享甸,還是束搜索出錯了
Bleu score(bilingual evaluation understudy 雙語評估houbu):用來衡量一個語言翻譯結(jié)果的準(zhǔn)確性截碴,因?yàn)橥ǔS卸喾N結(jié)果
為了懲罰太短的翻譯結(jié)果:BP
Attention模型直觀理解:That's it,Attention!
注意力模型:
語音識別
觸發(fā)字檢測:
At last 這是deep learning的開始,不是結(jié)束蛉威。接下來我將完成課程配套的quiz以及編程練習(xí)并將代碼放在我的GitHub主頁上~