參考鄒博的PPT對5種常見的相似度的衡量方法進行一下匯總曙搬。
1究西、 Minkowski distance:
Minkowski距離是對歐氏距離和曼哈頓距離的一般化货葬,當(dāng)p = 1時為曼哈頓距離勾给,當(dāng)p = 2時為歐氏距離。
2哑舒、 Jaccard distance:
Jaccard距離描述的是兩個樣本集合的差異性妇拯, 與Jaccard index正好互補。Jaccard distance與simple matching coefficient非常相似洗鸵,但也存在著很重要的區(qū)別越锈,如在兩個都是0、1的集合A膘滨、B中甘凭,Jaccard distance不考慮A、B中都是0的情況火邓,而simple matching coefficient則會考慮丹弱,這也導(dǎo)致了兩者在應(yīng)用上的一些差異。具體案例見wikipedia铲咨。
3躲胳、 cosine similarity:
余弦相似性主要是通過計算空間中兩個向量的夾角來衡量其相似性。夾角越小纤勒,其相似性越大坯苹,反之越小。
4摇天、 pearson correlation coefficient:
關(guān)于歐式距離粹湃、余弦相似度和pearson系數(shù)的關(guān)系可以查看知乎上的討論恐仑。總結(jié)的說:
a为鳄、 在數(shù)據(jù)標(biāo)準(zhǔn)化后裳仆,Pearson相關(guān)性系數(shù)、余弦相似度孤钦、歐式距離的平方可認為是等價的鉴逞。
b、 pearson相關(guān)系數(shù)是余弦相似度在維度值缺失情況下的一種改進司训。
5构捡、 Kullback-Leibler divergence(相對熵、KL散度)
P壳猜、 Q是兩個不同的分布勾徽,假設(shè)P是數(shù)據(jù)真實的分布,Q是用模型擬合的分布统扳。
D(P||Q)表示Q到P的散度喘帚。在機器學(xué)習(xí)語意下,其表示用分布Q代替P時所得到的信息增量咒钟,為了讓Q更接近P吹由,在模型訓(xùn)練時我們應(yīng)該取KL散度的極小值。
a朱嘴、 KL散度是不對稱的倾鲫,即P到Q的距離不等于Q到P的距離;
b萍嬉、 KL散度不滿足三角距離公式乌昔,兩邊之和大于第三邊,兩邊之差小于第三邊壤追。
參考文獻:
1磕道、 https://en.wikipedia.org/wiki/Minkowski_distance
2、 https://en.wikipedia.org/wiki/Simple_matching_coefficient
3行冰、 https://en.wikipedia.org/wiki/Jaccard_index
4溺蕉、 https://en.wikipedia.org/wiki/Cosine_similarity
5、 https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
6悼做、 https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
7疯特、 https://blog.csdn.net/u012885320/article/details/81059915
8、 https://blog.csdn.net/zb1165048017/article/details/48937135
9贿堰、 https://www.zhihu.com/question/19734616
10辙芍、 https://www.zhihu.com/question/41252833