Andrew Ng深度學習課程筆記閱讀記錄(5.2):序列模型

1.我們可以假設有300個不同的特征辆苔，這樣的話就會有一列數(shù)字亮钦，新的特征表示的東西肯定比較難搞清楚，通常我們可以把這300維的數(shù)據(jù)嵌入到一個二維空間，這樣就可以可視化了亿眠。常用的可視化算法是t-SNE算法碎罚，把這個空間映射到低維空間，可以畫出一個2維圖像然后觀察纳像，這就是術(shù)語嵌入的來源荆烈。

2.使用詞嵌入做遷移學習：

從大量的文本集中學習詞嵌入（大量的文本集，或者下載網(wǎng)上預訓練好的詞嵌入模型）
用這些詞嵌入模型遷移到你的只有少量標注訓練集的任務重，比如用這個300維的詞嵌入來表示你的單詞憔购。
在新任務上訓練模型時宫峦，可以選擇要不要繼續(xù)微調(diào)，用新的數(shù)據(jù)調(diào)整詞嵌入（只有你標記的數(shù)據(jù)集很大你才會這樣做）

3.詞嵌入的特性：類比推理

當算法被問及man對woman相當于king對什么時玫鸟，算法做的就是計算：
???????? ???????? ??: ???????????? ??????(????, ??king ? ??man + ??woman)
在使用t-SNE對300維數(shù)據(jù)進行降維到2維時导绷，這個降維算法是以一種非常復雜的非線性方式進行映射，所以在2維空間中平行四邊形的類比會失效屎飘。
余弦相似度：

其實就是計算向量U和向量V之間夾角的余弦妥曲，我們通過cos的圖像可以知道，當兩向量夾角為0時钦购，余弦相似度是1檐盟，夾角是90度時，余弦相似度是0押桃。所以葵萎，兩向量之間的角度越小，這兩個向量越相似

4.嵌入矩陣

假設詞匯表有10000個單詞唱凯，我們要做的就是學習一個嵌入矩陣E羡忘，這個嵌入矩陣是30010000的維度。假設其中一個詞a是這個單詞表中的第100個單詞波丰，那么它的one hot表示就是除了第100個位置為1其余都是0壳坪，拿這個嵌入矩陣E和這個One-hot表示相乘，我們得到的就是3001的一個向量掰烟，也就是嵌入矩陣E中第100個單詞的向量表示爽蝴，它就表示了這個詞a（詞嵌入的表示方法）

如果目標是要建立一個語言模型，那么一般選取目標詞之前的幾個詞作為上下文纫骑，如果目標不是學習語言模型本身蝎亚，那么可以選擇其他的上下文。見下圖：
學習語言模型-可以用這個target詞前面的四個詞
學習嵌入矩陣-可以用target詞的前后四個詞先馆，可以用target前一個詞发框，可以用target詞附近的一個詞

image.png

Word2vec

skip-gram：
抽取上下文和目標詞配對，來構(gòu)造一個監(jiān)督學習問題煤墙。這個監(jiān)督學習問題是：給定一個詞作為上下文詞梅惯，要求預測在這個詞的一個正負窗口內(nèi)選擇目標詞詞。
給定一個詞（上下文詞）仿野，可以獲取到它的one-hot表示Oorange铣减，我們用嵌入矩陣E與這個Oorange相乘，得到向量Ec 脚作，然后把它喂給softMax單元：

image.png

這個softmax的損失函數(shù)使用交叉熵表示葫哗。所以在這個問題中缔刹，嵌入矩陣E包含所有嵌入向量Ec的參數(shù)，softmax也有thelta的參數(shù)劣针，優(yōu)化這個損失函數(shù)會得到一個比較好的嵌入向量集校镐。
問題：如果使用上面的softmax的計算方式，代價太大速度太慢捺典，需要對詞匯表的詞進行求和運算鸟廓。因此有一些解決方案：
①分級softmax(hierarchical softmax)這是一個樹形的分類器，樹上的每個節(jié)點都是一個二分類器辣苏。這種分類樹的計算成本和詞匯表大小的對數(shù)成正比肝箱。這種分類樹并不是左右分支詞數(shù)對稱的樹，而是把常用詞放在頂部稀蟋，不常用的詞在樹的更深處煌张。
②負采樣（negative sampling）
一旦選擇了上下文c，問題就變成了在c的一個正負窗口內(nèi)對目標詞進行采樣退客。那么怎么選擇上下文c骏融？如果對語料庫進行均勻且隨機的采樣，會出現(xiàn)大量無意義的詞萌狂，如：the,a,and等等档玻。這會使得在上下文到目標詞的映射會頻繁的得到這些詞，進而導致較為頻繁的更新softmax中的e_c 茫藏。所以詞p(c)的分布并不是在語料庫上均勻且隨機的采樣得到的误趴，而是采用了不同的分級來平衡更常見的詞和不那么常見的詞。
生成訓練數(shù)據(jù)的方法：選擇一個上下文詞务傲，在此基礎上選擇一個目標詞凉当，給這個pair一個標簽1，然后再選擇K次其他的詞售葡，將（上下文看杭，其他詞）的標簽設置為0。（其中的K挟伙，小數(shù)據(jù)集中選擇5-20楼雹，大數(shù)據(jù)中選擇2-5）
這就變成了一個監(jiān)督學習的模型，給定（c,t）,預測輸出的y是0還是1尖阔≈澹可以定義一個邏輯回歸模型。每一個正樣本都有K個對應的負樣本來訓練一個類似于邏輯回歸的模型介却。
假設輸入詞是orange（詞6257）谴供，我們要做的就是輸入one-hot向量，傳遞給嵌入矩陣E筷笨，兩者相乘得到嵌入向量e_6257，就得到了10000個可能的邏輯回歸的分類問題，但并不是每次迭代都訓練全部的10000個胃夏，我們只訓練其中的一個正樣本和K個負樣本轴或，所以這個成本相比于開始的會變的很低。
那么如何選取負樣本仰禀？根據(jù)論文作者Mikolov的經(jīng)驗照雁，它們發(fā)現(xiàn)使用一下方式采樣最好：

image.png

F(wi)是觀測到的在語料庫中的某個英文詞的詞頻。通過3/4次方的計算答恶，使其處于完全獨立的分布和訓練集的觀測分布兩個極端之間饺蚊。

GloVe ？悬嗓？污呼？？

CBOW適用于小型語料庫包竹，skip-gram適用于大型語料

5.情感分析

One-hot===>詞嵌入===>對這一句的詞嵌入取和或平均

image.png

取和或者平均實際上會把所有單詞的意思平均起來燕酷，并未考慮詞語出現(xiàn)的順序，如果有not good這種表示周瞎，更不能理解真實的情感苗缩。解決方法可以用一個RNN:

image.png

6.序列模型和注意力機制

decoder網(wǎng)絡和之前的那個語言模型非常相似，區(qū)別就是語言模型是從0向量開始預測輸出的句子声诸，而decoder是會在encoder網(wǎng)絡計算出的表示輸入的句子的條件下輸出句子的翻譯酱讶。

image.png

在機器翻譯中，我們并不想得到的是隨機的輸出彼乌，也就是說并不是從得到的分布中進行隨機取樣泻肯，二是要找到一個y,使得p(y1,y2,….yt|x)的概率最大，解決這個問題最常用的就是beam search囤攀。為什么不用greedy search呢软免，因為貪心搜索是在選中第一個最有可能的詞的基礎上再去選擇最有可能的第二個詞，再去選最有可能的第三個詞焚挠，但在機器翻譯中膏萧，這種做法并不好。比如我們現(xiàn)在要翻譯成的句子有兩種方法：
he is visiting Africa in September
he is going to be visting Africa in September.
假設現(xiàn)在貪心搜索選中了前兩個詞"he is"蝌衔，那么在語料中榛泛，is going to 更常見，所以第二個句子可能概率會更高噩斟，但這個翻譯并不好曹锨；此外，如果翻譯有10個詞這么長剃允，詞典中有10000個詞沛简，那么就要考慮10000的10次方這么多齐鲤。

7.Beam Search

1.概念
集束搜索算法有一個參數(shù)B叫做集束寬，假設我們把B設為3椒楣。
第一步给郊，將法語句子輸入到encoder，然后進入decoder捧灰，softmax層會輸出10000個概率值淆九，得到這10000個概率值，取前三個存起來毛俏。
第二步炭庙，已經(jīng)知道了作為第一個單詞的最有可能的三個選擇，然后針對這三個選擇煌寇，把詞匯中的所有單詞列出來焕蹄，按下圖的式子列出來，再取最大的前三個唧席。也就是說這一步就是評估3*10000個可能的結(jié)果擦盾。

重復執(zhí)行，直到出現(xiàn)句尾終止符號淌哟。

image.png

2.改進集束搜索（長度歸一化）
優(yōu)化目標：

\arg \max_{y} \prod\limits_{t = 1}^{{T_y}} {P({y^{ < t > }}|x,{y^{ < 1 > }}, \ldots ,{y^{ < t - 1 > }})} = \arg \max_{y} P(y^{ < 1 > },\cdots,y^{ <T_{y} > }|x) = \arg \max_{y} P(y^{ < 1 > }|x) P(y^{ < 2> }|x,y^{ < 1 >})\cdots P(y^{ < T_{y}> }|x,y^{ < 1 >},\cdots, y^{ <T_{y}-1>})

image.png

概率值都是小于1的迹卢，概率乘積連乘會造成數(shù)值下溢，因此在實踐中徒仓，我們不會最大化這個連乘的形式腐碱，而是會對齊取個log，最大化這個取log之后的值掉弛。對于這個目標函數(shù)症见，如果有一個很長的句子，那么這個句子的概率會很低殃饿，就會傾向于選擇一個比較短的句子作為最紅的結(jié)果谋作，因此我們可以把它歸一化，通過除以翻譯結(jié)果的單詞數(shù)量乎芳，就是取每個單詞的概率對數(shù)值的平均了遵蚜，這樣能減少對輸出長的結(jié)果的懲罰。在實踐中奈惑，相比于直接除以句子的單詞總數(shù)吭净，還可以在這個總數(shù)上加一個指數(shù)α。這個叫做歸一化的對數(shù)似然目標函數(shù)肴甸。
3.B的選擇：工業(yè)上常把束寬設到10寂殉，科研上經(jīng)常設到1000或3000。
4.Beam search的誤差分析
假設在dev集中原在，人工翻譯和已完成的學習的翻譯模型運行束搜索算法不一致時友扰，怎么判斷是模型的問題彤叉，還是beam search的問題？
人工翻譯：jane visits Africa in September. *
模型翻譯：jane visted Africa last September. ^
我們的seq2seq模型會計算P(y|x)村怪，所以我們用這個模型計算P(y|x)的概率和p(y^|x)的概率姆坚。
如果P(y|x)>p(y^|x) 那么就意味著y應該是可能的結(jié)果，但是beam search輸出了y^实愚，所以是beam search的問題。
如果P(y|x)<p(y^|x) 那么就意味著seq2seq模型出了問題兔辅。

8.BLEU得分

http://www.reibang.com/p/15c22fadcba5 這篇寫的不錯

9.Attention

image.png

最后編輯于：2018.12.04 20:06:25

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末腊敲，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子维苔，更是在濱河造成了極大的恐慌碰辅，老刑警劉巖，帶你破解...
沈念sama閱讀 216,692評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件介时，死亡現(xiàn)場離奇詭異没宾，居然都是意外死亡，警方通過查閱死者的電腦和手機沸柔，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,482評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門循衰，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人褐澎，你說我怎么就攤上這事会钝。” “怎么了工三？”我有些...
開封第一講書人閱讀 162,995評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵迁酸，是天一觀的道長。經(jīng)常有香客問我俭正，道長奸鬓，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,223評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任掸读，我火速辦了婚禮串远，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘寺枉。我一直安慰自己抑淫，他們只是感情好，可當我...
茶點故事閱讀 67,245評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布姥闪。她就那樣靜靜地躺著始苇，像睡著了一般。火紅的嫁衣襯著肌膚如雪筐喳。梳的紋絲不亂的頭發(fā)上催式，一...
開封第一講書人閱讀 51,208評論 1贊 299
城市分裂傳說
那天函喉，我揣著相機與錄音，去河邊找鬼荣月。笑死管呵，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的哺窄。我是一名探鬼主播捐下，決...
沈念sama閱讀 40,091評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼萌业！你這毒婦竟也來了坷襟？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,929評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤生年，失蹤者是張志新（化名）和其女友劉穎婴程，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抱婉，經(jīng)...
沈念sama閱讀 45,346評論 1贊 311
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡档叔，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,570評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了蒸绩。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衙四。...
茶點故事閱讀 39,739評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖患亿，靈堂內(nèi)的尸體忽然破棺而出届搁，到底是詐尸還是另有隱情，我是刑警寧澤窍育，帶...
沈念sama閱讀 35,437評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布卡睦，位于F島的核電站，受9級特大地震影響漱抓，放射性物質(zhì)發(fā)生泄漏表锻。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,037評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一乞娄、第九天我趴在偏房一處隱蔽的房頂上張望瞬逊。院中可真熱鬧，春花似錦仪或、人聲如沸确镊。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,677評論 0贊 22
一樁弒父案范删，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽蕾域。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間旨巷，已是汗流浹背巨缘。一陣腳步聲響...
開封第一講書人閱讀 32,833評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留采呐，地道東北人若锁。一個月前我還...
沈念sama閱讀 47,760評論 2贊 369
代替公主和親
正文我出身青樓，卻偏偏與公主長得像斧吐，于是被迫代替她去往敵國和親又固。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,647評論 2贊 354

Andrew Ng深度學習課程筆記閱讀記錄(5.2):序列模型

2.使用詞嵌入做遷移學習：

3.詞嵌入的特性：類比推理

4.嵌入矩陣

Word2vec

5.情感分析

6.序列模型和注意力機制

7.Beam Search

8.BLEU得分

9.Attention

推薦閱讀更多精彩內(nèi)容