原文:http://blog.csdn.net/OrthocenterChocolate/article/details/38596633
? 本文將介紹一些數(shù)據(jù)挖掘奠涌、機(jī)器學(xué)習(xí)、信息檢索等領(lǐng)域中常用的一些相似性磷杏、相關(guān)性度量指標(biāo):
(1)Euclidean Distance(歐幾里德距離溜畅、歐氏距離)
? ? ? ? ?設(shè)有兩個(gè)向量
? ? ? ? ?它們之間的Euclidean Distance為:
? ? ? ? ?
(2)Manhattan?Distance(曼哈頓距離)
? ? ? ? ?設(shè)有兩個(gè)向量
? ? ? ? ?它們之間的Manhattan?Distance為:
? ? ? ? ? ? ??
(3)Minkowsk?Distance(閔可夫斯基距離)
? ? ? ? ?設(shè)有兩個(gè)向量
? ? ? ? ?它們之間的Minkowsk?Distance為:
? ? ? ? ?
(4)Hamming?Distance(海明距離)
? ? ? ? ??Hamming?Distance可以用來度量兩個(gè)串(通常是二進(jìn)制串)的距離,其定義為這兩個(gè)二進(jìn)制串對(duì)應(yīng)的位有幾個(gè)不一樣美莫,那么海明距離就是幾页眯,值越小越相似。例如x=1010厢呵,y=1011窝撵,那么x和y的海明距離就是1。又如x=1000襟铭,y=1111碌奉,那么x和y的海明距離就是3。
(5)Jaccard?Coefficient(Jaccard?系數(shù))
? ? ? ? ?Jaccard?Coefficient用來度量兩個(gè)集合的相似度蝌矛,設(shè)有兩個(gè)集合
? ? ? ? ?
? ? ? ? ? 例如
(6)Pearson Correlation Coefficient(皮爾森相關(guān)系數(shù))
? ? ? ? ?設(shè)有兩個(gè)向量
? ? ? ? ?它們之間的Pearson Correlation Coefficient為:
? ? ? ? ?
(7)Cosine Similarity(余弦相似度)
? ? ? ? ?設(shè)有兩個(gè)向量
? ? ? ? ?它們之間的Cosine Similarity為:
? ? ? ? ? ? ? ?
(8)Mahalanobis Distance(馬氏距離)
? ? ? ? ?設(shè)有兩個(gè)向量
? ? ? ? ?它們之間的Mahalanobis Distance為:
? ? ? ? ?
? ? ? ? ? 其中
(9)Kullback-Leibler?Divergence(KL散度)
? ? ? ? ? ?KL散度用來度量兩個(gè)分布之間的距離热芹,分布P和分布Q的KL散度定義為:
? ? ? ? ??
(10)PMI?(Pointwise Mutual Information,點(diǎn)對(duì)互信息)
? ? ? ? ??PMI利用co-occurance來衡量兩個(gè)東西x和y的相似度魁衙,定義為:
? ? ? ? ??
? ? ? ? ? 其中
(11)NGD(Normalized?Google?Distance)
? ? ? ? ? ?NGD可以用來度量兩個(gè)東西x和y之間的相關(guān)性祷蝌,作用和PMI有點(diǎn)類似茅撞,定義為:
? ? ? ? ??
? ? ? ? ? ? ? ? ?其中
? ??