語義相似度度量

在比較兩個文本語義是否相同的時候虑绵,通常的做法是

  1. 使用傳統(tǒng)方法:one-hot word vector -> tf-idf/BM25 加權(quán) -> 使用歐式距離或者cosine相似系數(shù)
  2. 使用深度學習方法:
    a. 得到詞的embedding怔锌,對詞的embedding做(加權(quán))平均得到句子向量,再用度量方法;
    b. 借助深度模型得到句子的embedding,在句子語義層面上使用度量方法璧眠。

下面主要討論深度學習中歐式距離和cosine相似系數(shù)的一些度量方法
主要參考自: Wang S, Jiang J. A compare-aggregate model for matching text sequences[J]. arXiv preprint arXiv:1611.01747, 2016.


這篇論文解決的問題是句子匹配任務(wù)渠鸽, 作者搭建了一個模型,并且重點比較了幾種相似度度量方法
先大致說一下這個模型踩衩,感興趣的可以看原文和相關(guān)分析嚼鹉,分為四個步驟:

  1. Preprocess, 對原始的問題和答案進行預(yù)處理,使每個詞獲得句子的上下文信息驱富,使用的是只保留了輸入門的lstm锚赤;
  2. Attention, 傳統(tǒng)的attention機制,用問題對答案加attention
  3. Comparison褐鸥,整合线脚,用于比較相似度
  4. Aggregation,結(jié)合CNN叫榕,構(gòu)建輸出網(wǎng)絡(luò)

下面主要說一下兩個vector的整合方式:

  1. NN: 就是將兩個向量拼接起來浑侥,然后過一層神經(jīng)網(wǎng)絡(luò);


  2. Euc+Cos: 計算兩個向量的歐式距離以及它們的余弦相似度晰绎,再把兩者的結(jié)果拼接起來寓落。


  3. Sub/Mult : 兩個向量按位減后乘或者直接相乘


  4. Sub/Mult + NN:在3的基礎(chǔ)上將二者拼起來,接一個NN


  5. NTN: neural tensor network荞下,張量網(wǎng)絡(luò)伶选,能比較好的獲得詞向量間交叉乘積的能力,不過還是element-wise锄弱,具體原理可以參考Quora上的回答論文原文


得到的是一個L維的向量考蕾,類似于CNN的filter可以定義多個,這里可以理解成定義了多個相乘關(guān)系会宪。

實驗結(jié)果:


可以看到這篇文章的模型在三個數(shù)據(jù)集上取得了非常好的結(jié)果肖卧,其中element-wise multiplication相關(guān)的方式是比較好的comparison function,比我們之前常用的余弦相似度掸鹅,歐氏距離等要高出不少塞帐。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末拦赠,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子葵姥,更是在濱河造成了極大的恐慌荷鼠,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件榔幸,死亡現(xiàn)場離奇詭異允乐,居然都是意外死亡,警方通過查閱死者的電腦和手機削咆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進店門牍疏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人拨齐,你說我怎么就攤上這事鳞陨。” “怎么了瞻惋?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵厦滤,是天一觀的道長。 經(jīng)常有香客問我歼狼,道長掏导,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任蹂匹,我火速辦了婚禮碘菜,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘限寞。我一直安慰自己,他們只是感情好仰坦,可當我...
    茶點故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布履植。 她就那樣靜靜地躺著,像睡著了一般悄晃。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上妈橄,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天,我揣著相機與錄音眷蚓,去河邊找鬼。 笑死沙热,一個胖子當著我的面吹牛叉钥,可吹牛的內(nèi)容都是我干的罢缸。 我是一名探鬼主播,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼枫疆,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了息楔?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤扒披,失蹤者是張志新(化名)和其女友劉穎钞螟,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體谎碍,經(jīng)...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年拯啦,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片褒链。...
    茶點故事閱讀 39,688評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡疑苔,死狀恐怖甫匹,靈堂內(nèi)的尸體忽然破棺而出惦费,到底是詐尸還是另有隱情,我是刑警寧澤薪贫,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站瞧省,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏鞍匾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一构拳、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧隐圾,春花似錦、人聲如沸暇藏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至县好,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間缕贡,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工晾咪, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留贮配,地道東北人谍倦。 一個月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓泪勒,卻偏偏與公主長得像,于是被迫代替她去往敵國和親圆存。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,573評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 關(guān)注和概要用神經(jīng)注意的共同學習 摘要 詢問相關(guān)排序和句子顯著排序是兩個主要的任務(wù)在提取詢問專注概要送淆。 之前的監(jiān)督概...
    __子不語__閱讀 967評論 0 0
  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識怕轿。這篇文章辟拷,甚至之后...
    我偏笑_NSNirvana閱讀 13,906評論 2 64
  • 每天進步一點點 堅持帶來大改變 當你坐在辦公室正專心致志用手機完成工作時,突然老板走進辦公室看到你拿...
    Cicily_閱讀 197評論 0 1
  • 由于之前年少無知诀紊,在代碼正式運行的環(huán)境中,犯過很多的嚴重錯誤邻奠。所慶幸的是笤喳,這些嚴重的錯誤并沒有給之前服務(wù)的公司帶來...
    ankerjian閱讀 726評論 0 2
  • 挖石油碌宴,挖出東西來。石油贰镣,遠古之血。 環(huán)保 魔力海碑隆,海水有毒, 歸來上煤,多玩玩, 博物館劫狠, 游記 昆侖山,大河靈秀峰
    plantAtree_dAp閱讀 154評論 4 0