論文閱讀:DSSM

論文地址:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2013_DSSM_fullversion.pdf

DSSM的全稱是Deep Semantic Similarity Model

要點:

  • 目的是進(jìn)行語義相似度建模
  • 輸入的是一對語料 (X, Y)(在問答場景是query-query懒浮,在搜索場景是query-doc等)
  • 基本思路是通過深度網(wǎng)絡(luò)分別提取輸入語義表征向量转砖,通過計算向量距離來計算相似度(如cos)
  • 訓(xùn)練的數(shù)據(jù)需要有正負(fù)例,需要知道哪些 (X, Y) 是語義相似的脚仔,哪些是不相似的屈暗。負(fù)例也可以通過一些方法構(gòu)造
  • 訓(xùn)練的目標(biāo)是最大化讓正例之間的距離減負(fù)例之間距離
  • 模型訓(xùn)練完成后爆捞,可以預(yù)先計算好文本的語義表征向量曼验,比如問答場景里考阱,所有候選集的query語義向量都可以預(yù)先算好翠忠,線上只需要計算用戶輸入query的向量,然后計算向量距離就可以了
  • 詞序列的第一步表征使用了字符trigram乞榨,但這個方法不能用到中文中


    image.png

1秽之、特征表征部分

Word hashing layer

這一步是為了將不等長的輸入詞組轉(zhuǎn)成等長的向量表示当娱,常用的方法有很多種,比如最簡單的按照詞ngram做one-hot考榨,或者按照詞embedding做求和或平均跨细。

DSSM用了字符的ngram,比如cat這個詞的trigram就變成(詞的開頭和結(jié)尾用#表示)

cat → #cat# → #-c-a, c-a-t, a-t-#

這么做有以下幾個好處

  • 在英語中河质,只有50K 字符的trigrams冀惭,可以大大降低輸入向量的維度
  • 捕獲sub-word的特征,比如英語中的前綴掀鹅、后綴散休、詞根等都有相似的語義
  • 選擇trigram而不是bigram,或者更大的ngram是為了在候選集和沖突率之間折中

對于50萬的單詞表乐尊,bigram的候選集是1607戚丸,但是沖突率是0.2%;trigram的候選集是3萬扔嵌,沖突率只有0.004%

2限府、深度部分

中間是多層的深度網(wǎng)絡(luò),下面是論文里面的結(jié)構(gòu)


image.png

3对人、目標(biāo)函數(shù)部分

image.png

4谣殊、樣本選取和指標(biāo)評估

論文中數(shù)據(jù)集使用了搜索點擊日志,query和點擊的doc作為一組正樣本牺弄,曝光不點擊的doc作為負(fù)樣本姻几。

使用NDCG@k(1、3势告、10)評估的模型的效果蛇捌。

附:

NDCG的計算方法

NDCG Normalized Discounted cumulative gain是一種常用的評價搜索或者推薦結(jié)果的指標(biāo),直覺的想法是相關(guān)度越高的項出現(xiàn)在越靠前的位置咱台,指標(biāo)的得分應(yīng)該越高络拌。

每一個候選項都有相關(guān)度和順序兩個變量,我們來一步一步拆解

(1)CG就是候選項相關(guān)度的求和回溺,這就不考慮順序的影響


image.png

(2)DCG對不同位置上的相關(guān)度進(jìn)行加權(quán)春贸,位置i的權(quán)重是1/log2(i+1)


image.png

還有另一種算法,可以強化相關(guān)度的作用


image.png

(3)由于不同搜索詞對應(yīng)p可能不同遗遵,需要增加歸一化

歸一化使用理想情況下最大的DCG萍恕,也就是完全按照相關(guān)度從大到小排序后計算一次DCG。

參考:

https://zhuanlan.zhihu.com/p/53326791

https://www.cnblogs.com/by-dream/p/9403984.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末车要,一起剝皮案震驚了整個濱河市允粤,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖类垫,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件司光,死亡現(xiàn)場離奇詭異,居然都是意外死亡悉患,警方通過查閱死者的電腦和手機残家,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來购撼,“玉大人跪削,你說我怎么就攤上這事∮厍螅” “怎么了?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵晃跺,是天一觀的道長揩局。 經(jīng)常有香客問我,道長掀虎,這世上最難降的妖魔是什么凌盯? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮烹玉,結(jié)果婚禮上驰怎,老公的妹妹穿的比我還像新娘。我一直安慰自己二打,他們只是感情好县忌,可當(dāng)我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著继效,像睡著了一般症杏。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上瑞信,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天厉颤,我揣著相機與錄音,去河邊找鬼凡简。 笑死逼友,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的秤涩。 我是一名探鬼主播帜乞,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼溉仑!你這毒婦竟也來了挖函?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎怨喘,沒想到半個月后津畸,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡必怜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年肉拓,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片梳庆。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡暖途,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出膏执,到底是詐尸還是另有隱情驻售,我是刑警寧澤,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布更米,位于F島的核電站欺栗,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏征峦。R本人自食惡果不足惜迟几,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望栏笆。 院中可真熱鬧类腮,春花似錦、人聲如沸蛉加。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽七婴。三九已至祟偷,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間打厘,已是汗流浹背修肠。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留户盯,地道東北人嵌施。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像莽鸭,于是被迫代替她去往敵國和親吗伤。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識硫眨。這篇文章足淆,甚至之后...
    我偏笑_NSNirvana閱讀 13,906評論 2 64
  • 背景:在NLP中,對于兩個文本比較和分析的任務(wù),比如文本相似度或者問答模型巧号,因為涉及到兩個輸入源族奢,如果使用單一的神...
    AxsPlayer閱讀 27,598評論 0 8
  • 搜索中,通過點擊日志得到的query-doc 對兒提供了豐富的有價值的信息丹鸿≡阶撸基于點擊形成的圖,提出了“向量傳播算法...
    吹洞簫飲酒杏花下閱讀 784評論 0 0
  • 本文另兩篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(下) 3. 梯子的一級半 除了在word級別的embed...
    weizier閱讀 6,601評論 0 18
  • 前兩天靠欢,我們朋友幾個一起吃飯廊敌,愛玩愛嘗新鮮的我忍不住地推薦了一家新開的酒店,該酒店的風(fēng)格是輕奢北歐風(fēng)门怪,2層式Lof...
    sharespeak閱讀 405評論 0 2