基于向量空間模型的余弦相似度算法###
向 量 空 間 模 型 VSM ( vector space model ) 是 由 Salton 在 1975 年 的Communications of the ACM 上提出的靴姿。
它的基本思想是:
在自然界中任何事物都可以用一些最基本的元素加以表示,這些最基本的元素作為基礎(chǔ)單元,類似于坐標系中坐標軸宅荤,通過這種假設(shè)與推理木西,每一個構(gòu)成事物的基本元素都對應(yīng)著n維空間中某個坐標系立镶,則事物可通過各個基本元素表示為坐標系向量的形式.
那么浴讯,兩個向量之間的夾角越小静盅,則兩個向量所代表的事物就越相似椭坚。
基本概念和定義:
文本(document):通常是文本中具有一定規(guī)模的片斷予跌,如句子、句群善茎、段落段落組直至整篇文本券册。
項/特征項(term/feature term):特征項是文本表示中最基本的元素,正是由于特征項之間的不同組合構(gòu)成了文本垂涯,同時特征項作為基本元素構(gòu)成了表示文本的向量形式烁焙。 文本被看作為項的集合 Document = (t1,t2,t3...tn).
項的權(quán)重(term weight): Document = (t1,t2,t3...tn)表示文檔中包含 n 個關(guān)鍵詞(特征項),在文本向量中每一個維度上的特征項tk都依據(jù)一定的原則被賦予一個特征項權(quán)重wk表示它們在文檔中的重要程度.權(quán)值的計算方法有幾種:基于詞頻(TF)的關(guān)鍵詞權(quán)值,基于文檔頻率(DF)的關(guān)鍵詞權(quán)值,基于文檔頻率的關(guān)鍵詞權(quán)值耕赘,基于信息增益的關(guān)鍵詞權(quán)值骄蝇,基于卡方分布的關(guān)鍵詞權(quán)值,基于互信息的關(guān)鍵詞權(quán)值
我們可以(t1,t2,t3..tn)看成是一個n維坐標系操骡。坐標系的每一個維度對應(yīng)一個特征項九火,權(quán)重對應(yīng)在坐標軸上的值赚窃。 一個文本就是坐標系中的一個向量。
D = (w1,w2,w3..wn)就是文本的向量表示
如何計算相似度
設(shè)文檔 D1和D2表示向量空間模型中的兩個向量
D1 = (w11,w12,w13..w1n)
D2 = (w21,w22,w23..w2n)
那么兩個文本的相似度計算公式如下: