23.1 近似訓(xùn)練
- 由于softmax運算考慮了背景詞可能是詞典V中的任一詞,以上損失包含了詞典大小數(shù)目的項的累加铺呵。
- 不論是跳字模型還是連續(xù)詞袋模型,由于條件概率使用了softmax運算,每一步的梯度計算都包含詞典大小數(shù)目的項的累加记焊。
- 兩種近似訓(xùn)練方法
- 負采樣(negative sampling)或?qū)有騭oftmax(hierarchical softmax)酣溃。
23.2 負采樣
- 負采樣修改了原來的目標函數(shù)瘦穆。
-
給定中心詞 wc 的一個背景窗口,把背景詞 wo 出現(xiàn)在該背景窗口看作一個事件赊豌,并將該事件的概率計算為:
-
其中的 σ 函數(shù)與sigmoid激活函數(shù)的定義相同:
先考慮最大化文本序列中所有該事件的聯(lián)合概率來訓(xùn)練詞向量扛或。
-
具體來說,給定一個長度為 T 的文本序列碘饼,設(shè)時間步 t 的詞為
-
且背景窗口大小為 m 熙兔,考慮最大化聯(lián)合概率
-
-
- 負采樣通過采樣并添加負類樣本使目標函數(shù)更有意義。
負設(shè)背景詞 wo 出現(xiàn)在中心詞 wc 的一個背景窗口為事件 P 艾恼,根據(jù)分布 P(w) 采樣 K 個未出現(xiàn)在該背景窗口中的詞住涉,即噪聲詞。
-
設(shè)噪聲詞
- 不出現(xiàn)在中心詞 wc 的該背景窗口為事件 Nk 钠绍。
-
假設(shè)同時含有正類樣本和負類樣本的事件
-
相互獨立舆声,負采樣將以上需要最大化的僅考慮正類樣本的聯(lián)合概率改寫為:
-
-
負其中條件概率被近似表示為:
-
設(shè)文本序列中時間步 t 的詞
- 在詞典中的索引為it,噪聲詞wk在詞典中的索引為hk柳爽。
-
有關(guān)以上條件概率的對數(shù)損失為:
23.3 層序softmax
-
層序softmax是另一種近似訓(xùn)練法媳握。
-
它使用了二叉樹這一數(shù)據(jù)結(jié)構(gòu),樹的每個葉結(jié)點代表詞典 V 中的每個詞磷脯。
-
-
假設(shè) L(w) 為從二叉樹的根結(jié)點到詞 w 的葉結(jié)點的路徑(包括根結(jié)點和葉結(jié)點)上的結(jié)點數(shù)
-
設(shè) n(w,j) 為該路徑上第 j 個結(jié)點蛾找,并設(shè)該結(jié)點的背景詞向量為
-
以圖為例,
-
層序softmax將跳字模型中的條件概率近似表示為:
-
-
由于在二叉樹中由根結(jié)點到葉結(jié)點 W3 的路徑上需要向左争拐、向右再向左地遍歷(圖中加粗的路徑)腋粥,得到:
-
由于 σ(x)+σ(?x)=1 ,給定中心詞 Wc 生成詞典 V 中任一詞的條件概率之和為1這一條件也將滿足:
-
此外架曹,
- 當(dāng)詞典 V 很大時隘冲,層序softmax在訓(xùn)練中每一步的梯度計算開銷相較未使用近似訓(xùn)練時大幅降低。
大數(shù)據(jù)視頻推薦:
騰訊課堂
CSDN
大數(shù)據(jù)語音推薦:
企業(yè)級大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機器學(xué)習(xí)案例之推薦系統(tǒng)
自然語言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門到精通
- 當(dāng)詞典 V 很大時隘冲,層序softmax在訓(xùn)練中每一步的梯度計算開銷相較未使用近似訓(xùn)練時大幅降低。