余弦計算相似度理解以及計算

相似度度量(Similarity),即計算個體間的相似程度,相似度度量的值越小匠童,說明個體間相似度越小,相似度的值越大說明個體差異越大塑顺。

對于多個不同的文本或者短文本對話消息要來計算他們之間的相似度如何汤求,一個好的做法就是將這些文本中詞語,映射到向量空間严拒,形成文本中文字和向量數(shù)據(jù)的映射關(guān)系扬绪,通過計算幾個或者多個不同的向量的差異的大小,來計算文本的相似度裤唠。下面介紹一個詳細(xì)成熟的向量空間余弦相似度方法計算相似度

向量空間余弦相似度(Cosine

Similarity)

余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小挤牛。余弦值越接近1,就表明夾角越接近0度种蘸,也就是兩個向量越相似墓赴,這就叫"余弦相似性"竞膳。

上圖兩個向量a,b的夾角很小可以說a向量和b向量有很高的的相似性,極端情況下竣蹦,a和b向量完全重合顶猜。如下圖:

如上圖二:可以認(rèn)為a和b向量是相等的沧奴,也即a痘括,b向量代表的文本是完全相似的,或者說是相等的滔吠。如果a和b向量夾角較大纲菌,或者反方向。如下圖

如上圖三:

兩個向量a,b的夾角很大可以說a向量和b向量有很底的的相似性疮绷,或者說a和b向量代表的文本基本不相似翰舌。那么是否可以用兩個向量的夾角大小的函數(shù)值來計算個體的相似度呢?

向量空間余弦相似度理論就是基于上述來計算個體相似度的一種方法冬骚。下面做詳細(xì)的推理過程分析椅贱。

想到余弦公式,最基本計算方法就是初中的最簡單的計算公式只冻,計算夾角


的余弦定值公式為:


但是這個是只適用于直角三角形的,而在非直角三角形中,余弦定理的公式是


三角形中邊a和b的夾角 的余弦計算公式為:

公式(2)


在向量表示的三角形中庇麦,假設(shè)a向量是(x1,

y1),b向量是(x2, y2)喜德,那么可以將余弦定理改寫成下面的形式:


向量a和向量b的夾角 的余弦計算如下



擴(kuò)展山橄,如果向量a和b不是二維而是n維,上述余弦的計算法仍然正確舍悯。假定a和b是兩個n維向量航棱,a是,b是萌衬,則a與b的夾角 的余弦等于:


余弦值越接近1饮醇,就表明夾角越接近0度,也就是兩個向量越相似秕豫,夾角等于0朴艰,即兩個向量相等,這就叫"余弦相似性"馁蒂。

【下面舉一個例子呵晚,來說明余弦計算文本相似度】

舉一個例子來說明,用上述理論計算文本的相似性沫屡。為了簡單起見饵隙,先從句子著手。

句子A:這只皮靴號碼大了沮脖。那只號碼合適

句子B:這只皮靴號碼不小金矛,那只更合適

怎樣計算上面兩句話的相似程度芯急?

基本思路是:如果這兩句話的用詞越相似,它們的內(nèi)容就應(yīng)該越相似驶俊。因此娶耍,可以從詞頻入手,計算它們的相似程度饼酿。

第一步榕酒,分詞

句子A:這只/皮靴/號碼/大了故俐。那只/號碼/合適想鹰。

句子B:這只/皮靴/號碼/不/小,那只/更/合適药版。

第二步辑舷,列出所有的詞。

這只槽片,皮靴何缓,號碼,大了还栓。那只碌廓,合適,不蝙云,小氓皱,很

第三步,計算詞頻勃刨。

句子A:這只1波材,皮靴1,號碼2身隐,大了1廷区。那只1,合適1贾铝,不0隙轻,小0,更0

句子B:這只1垢揩,皮靴1玖绿,號碼1,大了0叁巨。那只1斑匪,合適1,不1锋勺,小1蚀瘸,更1

第四步狡蝶,寫出詞頻向量。

句子A:(1贮勃,1贪惹,2,1寂嘉,1奏瞬,1,0垫释,0丝格,0)

句子B:(1,1棵譬,1,0预伺,1订咸,1,1酬诀,1脏嚷,1)

到這里,問題就變成了如何計算這兩個向量的相似程度瞒御。我們可以把它們想象成空間中的兩條線段父叙,都是從原點([0, 0,

...])出發(fā),指向不同的方向肴裙。兩條線段之間形成一個夾角趾唱,如果夾角為0度,意味著方向相同蜻懦、線段重合,這是表示兩個向量代表的文本完全相等甜癞;如果夾角為90度,意味著形成直角宛乃,方向完全不相似悠咱;如果夾角為180度,意味著方向正好相反征炼。因此析既,我們可以通過夾角的大小,來判斷向量的相似程度谆奥。夾角越小眼坏,就代表越相似。

使用上面的公式(4)

計算兩個句子向量

句子A:(1雄右,1空骚,2纺讲,1,1囤屹,1熬甚,0,0肋坚,0)

和句子B:(1乡括,1,1智厌,0诲泌,1,1铣鹏,1敷扫,1,1)的向量余弦值來確定兩個句子的相似度诚卸。

計算過程如下:

計算結(jié)果中夾角的余弦值為0.81非常接近于1葵第,所以,上面的句子A和句子B是基本相似的

由此合溺,我們就得到了文本相似度計算的處理流程是:

(1)找出兩篇文章的關(guān)鍵詞卒密;

(2)每篇文章各取出若干個關(guān)鍵詞,合并成一個集合棠赛,計算每篇文章對于這個集合中的詞的詞頻

(3)生成兩篇文章各自的詞頻向量哮奇;

(4)計算兩個向量的余弦相似度,值越大就表示越相似睛约。


原文參考:http://blog.csdn.net/u012160689/article/details/15341303

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鼎俘,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子痰腮,更是在濱河造成了極大的恐慌而芥,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,252評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件膀值,死亡現(xiàn)場離奇詭異棍丐,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)沧踏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評論 3 399
  • 文/潘曉璐 我一進(jìn)店門歌逢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人翘狱,你說我怎么就攤上這事秘案。” “怎么了?”我有些...
    開封第一講書人閱讀 168,814評論 0 361
  • 文/不壞的土叔 我叫張陵阱高,是天一觀的道長赚导。 經(jīng)常有香客問我,道長赤惊,這世上最難降的妖魔是什么吼旧? 我笑而不...
    開封第一講書人閱讀 59,869評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮未舟,結(jié)果婚禮上圈暗,老公的妹妹穿的比我還像新娘。我一直安慰自己裕膀,他們只是感情好员串,可當(dāng)我...
    茶點故事閱讀 68,888評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著昼扛,像睡著了一般寸齐。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上野揪,一...
    開封第一講書人閱讀 52,475評論 1 312
  • 那天访忿,我揣著相機(jī)與錄音,去河邊找鬼斯稳。 笑死,一個胖子當(dāng)著我的面吹牛迹恐,可吹牛的內(nèi)容都是我干的挣惰。 我是一名探鬼主播,決...
    沈念sama閱讀 41,010評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼殴边,長吁一口氣:“原來是場噩夢啊……” “哼憎茂!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起锤岸,我...
    開封第一講書人閱讀 39,924評論 0 277
  • 序言:老撾萬榮一對情侶失蹤竖幔,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后是偷,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拳氢,經(jīng)...
    沈念sama閱讀 46,469評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,552評論 3 342
  • 正文 我和宋清朗相戀三年蛋铆,在試婚紗的時候發(fā)現(xiàn)自己被綠了馋评。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,680評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡刺啦,死狀恐怖留特,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤蜕青,帶...
    沈念sama閱讀 36,362評論 5 351
  • 正文 年R本政府宣布苟蹈,位于F島的核電站,受9級特大地震影響右核,放射性物質(zhì)發(fā)生泄漏慧脱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,037評論 3 335
  • 文/蒙蒙 一蒙兰、第九天 我趴在偏房一處隱蔽的房頂上張望磷瘤。 院中可真熱鬧,春花似錦搜变、人聲如沸采缚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽扳抽。三九已至,卻和暖如春殖侵,著一層夾襖步出監(jiān)牢的瞬間贸呢,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評論 1 274
  • 我被黑心中介騙來泰國打工拢军, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留楞陷,地道東北人。 一個月前我還...
    沈念sama閱讀 49,099評論 3 378
  • 正文 我出身青樓茉唉,卻偏偏與公主長得像固蛾,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子度陆,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,691評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 相似度度量(Similarity)艾凯,即計算個體間的相似程度,相似度度量的值越小懂傀,說明個體間相似度越小趾诗,相似度的值越...
    SHAN某人閱讀 8,871評論 3 5
  • 原文:http://blog.csdn.net/nishiwodeangel/article/details/12...
    mogu醬閱讀 1,178評論 0 7
  • 轉(zhuǎn)自:http://www.cnblogs.com/heaad/archive/2011/03/08/197773...
    羅田閱讀 1,448評論 0 4
  • 簡介:余弦相似度,即兩物體之間的cos$值蹬蚁,值越大恃泪,表示兩物體的相似度越大。 1缚忧、向量空間余弦相似度:即向量空間中...
    __0_0__閱讀 2,168評論 0 0
  • 前面的文章主要從理論的角度介紹了自然語言人機(jī)對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識悟泵。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 13,928評論 2 64