23.深度學(xué)習(xí)之自然語言處理-近似訓(xùn)練

23.1 近似訓(xùn)練

  • 由于softmax運算考慮了背景詞可能是詞典V中的任一詞,以上損失包含了詞典大小數(shù)目的項的累加铺呵。
  • 不論是跳字模型還是連續(xù)詞袋模型,由于條件概率使用了softmax運算,每一步的梯度計算都包含詞典大小數(shù)目的項的累加记焊。
  • 兩種近似訓(xùn)練方法
    • 負采樣(negative sampling)或?qū)有騭oftmax(hierarchical softmax)酣溃。

23.2 負采樣

  • 負采樣修改了原來的目標函數(shù)瘦穆。
    • 給定中心詞 wc 的一個背景窗口,把背景詞 wo 出現(xiàn)在該背景窗口看作一個事件赊豌,并將該事件的概率計算為:


    • 其中的 σ 函數(shù)與sigmoid激活函數(shù)的定義相同:


    • 先考慮最大化文本序列中所有該事件的聯(lián)合概率來訓(xùn)練詞向量扛或。

    • 具體來說,給定一個長度為 T 的文本序列碘饼,設(shè)時間步 t 的詞為


      • 且背景窗口大小為 m 熙兔,考慮最大化聯(lián)合概率


  • 負采樣通過采樣并添加負類樣本使目標函數(shù)更有意義。
    • 負設(shè)背景詞 wo 出現(xiàn)在中心詞 wc 的一個背景窗口為事件 P 艾恼,根據(jù)分布 P(w) 采樣 K 個未出現(xiàn)在該背景窗口中的詞住涉,即噪聲詞。

    • 設(shè)噪聲詞


      • 不出現(xiàn)在中心詞 wc 的該背景窗口為事件 Nk 钠绍。
    • 假設(shè)同時含有正類樣本和負類樣本的事件


      • 相互獨立舆声,負采樣將以上需要最大化的僅考慮正類樣本的聯(lián)合概率改寫為:


    • 負其中條件概率被近似表示為:


  • 設(shè)文本序列中時間步 t 的詞


  • 在詞典中的索引為it,噪聲詞wk在詞典中的索引為hk柳爽。
  • 有關(guān)以上條件概率的對數(shù)損失為:


23.3 層序softmax

  • 層序softmax是另一種近似訓(xùn)練法媳握。

    • 它使用了二叉樹這一數(shù)據(jù)結(jié)構(gòu),樹的每個葉結(jié)點代表詞典 V 中的每個詞磷脯。


  • 假設(shè) L(w) 為從二叉樹的根結(jié)點到詞 w 的葉結(jié)點的路徑(包括根結(jié)點和葉結(jié)點)上的結(jié)點數(shù)

    • 設(shè) n(w,j) 為該路徑上第 j 個結(jié)點蛾找,并設(shè)該結(jié)點的背景詞向量為


    • 以圖為例,


    • 層序softmax將跳字模型中的條件概率近似表示為:


  • 由于在二叉樹中由根結(jié)點到葉結(jié)點 W3 的路徑上需要向左争拐、向右再向左地遍歷(圖中加粗的路徑)腋粥,得到:


  • 由于 σ(x)+σ(?x)=1 ,給定中心詞 Wc 生成詞典 V 中任一詞的條件概率之和為1這一條件也將滿足:


  • 此外架曹,


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末绑雄,一起剝皮案震驚了整個濱河市展辞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌万牺,老刑警劉巖罗珍,帶你破解...
    沈念sama閱讀 211,496評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件洽腺,死亡現(xiàn)場離奇詭異,居然都是意外死亡覆旱,警方通過查閱死者的電腦和手機蘸朋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,187評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來扣唱,“玉大人藕坯,你說我怎么就攤上這事≡肷常” “怎么了炼彪?”我有些...
    開封第一講書人閱讀 157,091評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長正歼。 經(jīng)常有香客問我辐马,道長,這世上最難降的妖魔是什么局义? 我笑而不...
    開封第一講書人閱讀 56,458評論 1 283
  • 正文 為了忘掉前任喜爷,我火速辦了婚禮,結(jié)果婚禮上旭咽,老公的妹妹穿的比我還像新娘贞奋。我一直安慰自己,他們只是感情好穷绵,可當(dāng)我...
    茶點故事閱讀 65,542評論 6 385
  • 文/花漫 我一把揭開白布轿塔。 她就那樣靜靜地躺著,像睡著了一般仲墨。 火紅的嫁衣襯著肌膚如雪勾缭。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,802評論 1 290
  • 那天目养,我揣著相機與錄音俩由,去河邊找鬼。 笑死癌蚁,一個胖子當(dāng)著我的面吹牛幻梯,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播努释,決...
    沈念sama閱讀 38,945評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼碘梢,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了伐蒂?” 一聲冷哼從身側(cè)響起煞躬,我...
    開封第一講書人閱讀 37,709評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后恩沛,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體在扰,經(jīng)...
    沈念sama閱讀 44,158評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,502評論 2 327
  • 正文 我和宋清朗相戀三年雷客,在試婚紗的時候發(fā)現(xiàn)自己被綠了芒珠。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,637評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡搅裙,死狀恐怖妓局,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情呈宇,我是刑警寧澤,帶...
    沈念sama閱讀 34,300評論 4 329
  • 正文 年R本政府宣布局雄,位于F島的核電站甥啄,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏炬搭。R本人自食惡果不足惜蜈漓,卻給世界環(huán)境...
    茶點故事閱讀 39,911評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望宫盔。 院中可真熱鬧融虽,春花似錦、人聲如沸灼芭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,744評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽彼绷。三九已至巍佑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間寄悯,已是汗流浹背萤衰。 一陣腳步聲響...
    開封第一講書人閱讀 31,982評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留猜旬,地道東北人脆栋。 一個月前我還...
    沈念sama閱讀 46,344評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像洒擦,于是被迫代替她去往敵國和親椿争。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,500評論 2 348

推薦閱讀更多精彩內(nèi)容