1. 歐氏距離疤孕,最常見(jiàn)的兩點(diǎn)之間或多點(diǎn)之間的距離表示法扎瓶,又稱(chēng)之為歐幾里得度量妈拌,它定義于歐幾里得空間中,如點(diǎn) x = (x1,...,xn) 和 y = (y1,...,yn) 之間的距離為:
(1)二維平面上兩點(diǎn)a(x1,y1)與b(x2,y2)間的歐氏距離:
(2)三維空間兩點(diǎn)a(x1,y1,z1)與b(x2,y2,z2)間的歐氏距離:
(3)兩個(gè)n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的歐氏距離:
也可以用表示成向量運(yùn)算的形式:
2. 曼哈頓距離刽沾,我們可以定義曼哈頓距離的正式意義為L(zhǎng)1-距離或城市區(qū)塊距離,也就是在歐幾里得空間的固定直角坐標(biāo)系上兩點(diǎn)所形成的線(xiàn)段對(duì)軸產(chǎn)生的投影的距離總和排拷。例如在平面上侧漓,坐標(biāo)(x1, y1)的點(diǎn)P1與坐標(biāo)(x2, y2)的點(diǎn)P2的曼哈頓距離為:
,要注意的是监氢,曼哈頓距離依賴(lài)座標(biāo)系統(tǒng)的轉(zhuǎn)度布蔗,而非系統(tǒng)在座標(biāo)軸上的平移或映射。
通俗來(lái)講浪腐,想象你在曼哈頓要從一個(gè)十字路口開(kāi)車(chē)到另外一個(gè)十字路口纵揍,駕駛距離是兩點(diǎn)間的直線(xiàn)距離嗎?顯然不是议街,除非你能穿越大樓泽谨。而實(shí)際駕駛距離就是這個(gè)“曼哈頓距離”,此即曼哈頓距離名稱(chēng)的來(lái)源特漩, 同時(shí)吧雹,曼哈頓距離也稱(chēng)為城市街區(qū)距離(City Block distance)。
(1)二維平面兩點(diǎn)a(x1,y1)與b(x2,y2)間的曼哈頓距離
(2)兩個(gè)n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的曼哈頓距離
3. 切比雪夫距離涂身,若二個(gè)向量或二個(gè)點(diǎn)p 雄卷、and q,其坐標(biāo)分別為及
這也等于以下Lp度量的極值:,因此切比雪夫距離也稱(chēng)為L(zhǎng)∞度量悴能。
以數(shù)學(xué)的觀(guān)點(diǎn)來(lái)看揣钦,切比雪夫距離是由一致范數(shù)(uniform norm)(或稱(chēng)為上確界范數(shù))所衍生的度量,也是超凸度量(injective metric space)的一種搜骡。
在平面幾何中拂盯,若二點(diǎn)p及q的直角坐標(biāo)系坐標(biāo)為及
玩過(guò)國(guó)際象棋的朋友或許知道谈竿,國(guó)王走一步能夠移動(dòng)到相鄰的8個(gè)方格中的任意一個(gè)。那么國(guó)王從格子(x1,y1)走到格子(x2,y2)最少需要多少步摸吠?空凸。你會(huì)發(fā)現(xiàn)最少步數(shù)總是max( | x2-x1 | , | y2-y1 | ) 步 。有一種類(lèi)似的一種距離度量方法叫切比雪夫距離寸痢。
(1)二維平面兩點(diǎn)a(x1,y1)與b(x2,y2)間的切比雪夫距離
(2)兩個(gè)n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的切比雪夫距離
這個(gè)公式的另一種等價(jià)形式是
4. 閔可夫斯基距離(Minkowski Distance)呀洲,閔氏距離不是一種距離,而是一組距離的定義。
(1) 閔氏距離的定義
兩個(gè)n維變量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的閔可夫斯基距離定義為:
其中p是一個(gè)變參數(shù)道逗。
當(dāng)p=1時(shí)兵罢,就是曼哈頓距離
當(dāng)p=2時(shí),就是歐氏距離
當(dāng)p→∞時(shí)滓窍,就是切比雪夫距離
根據(jù)變參數(shù)的不同卖词,閔氏距離可以表示一類(lèi)的距離。
5. 標(biāo)準(zhǔn)化歐氏距離 (Standardized Euclidean distance )吏夯,標(biāo)準(zhǔn)化歐氏距離是針對(duì)簡(jiǎn)單歐氏距離的缺點(diǎn)而作的一種改進(jìn)方案此蜈。標(biāo)準(zhǔn)歐氏距離的思路:既然數(shù)據(jù)各維分量的分布不一樣,那先將各個(gè)分量都“標(biāo)準(zhǔn)化”到均值噪生、方差相等裆赵。至于均值和方差標(biāo)準(zhǔn)化到多少,先復(fù)習(xí)點(diǎn)統(tǒng)計(jì)學(xué)知識(shí)跺嗽。
假設(shè)樣本集X的數(shù)學(xué)期望或均值(mean)為m战授,標(biāo)準(zhǔn)差(standard deviation,方差開(kāi)根)為s抛蚁,那么X的“標(biāo)準(zhǔn)化變量”X*表示為:(X-m)/s陈醒,而且標(biāo)準(zhǔn)化變量的數(shù)學(xué)期望為0惕橙,方差為1瞧甩。
即,樣本集的標(biāo)準(zhǔn)化過(guò)程(standardization)用公式描述就是:
標(biāo)準(zhǔn)化后的值 = ( 標(biāo)準(zhǔn)化前的值 - 分量的均值 ) /分量的標(biāo)準(zhǔn)差
經(jīng)過(guò)簡(jiǎn)單的推導(dǎo)就可以得到兩個(gè)n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的標(biāo)準(zhǔn)化歐氏距離的公式:
如果將方差的倒數(shù)看成是一個(gè)權(quán)重弥鹦,這個(gè)公式可以看成是一種加權(quán)歐氏距離(Weighted Euclidean distance)肚逸。
6. 馬氏距離(Mahalanobis Distance)
(1)馬氏距離定義
有M個(gè)樣本向量X1~Xm,協(xié)方差矩陣記為S彬坏,均值記為向量μ朦促,則其中樣本向量X到u的馬氏距離表示為:
(協(xié)方差矩陣中每個(gè)元素是各個(gè)矢量元素之間的協(xié)方差Cov(X,Y),Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]}栓始,其中E為數(shù)學(xué)期望)而其中向量Xi與Xj之間的馬氏距離定義為:
若協(xié)方差矩陣是單位矩陣(各個(gè)樣本向量之間獨(dú)立同分布),則公式就成了:
若協(xié)方差矩陣是對(duì)角矩陣,公式變成了標(biāo)準(zhǔn)化歐氏距離幻赚。
(2)馬氏距離的優(yōu)缺點(diǎn):量綱無(wú)關(guān)禀忆,排除變量之間的相關(guān)性的干擾。
「微博上的seafood高清版點(diǎn)評(píng)道:原來(lái)馬氏距離是根據(jù)協(xié)方差矩陣演變落恼,一直被老師誤導(dǎo)了箩退,怪不得看Killian在05年NIPS發(fā)表的LMNN論文時(shí)候老是看到協(xié)方差矩陣和半正定,原來(lái)是這回事」
7佳谦、巴氏距離(BhattacharyyaDistance)戴涝,在統(tǒng)計(jì)中,Bhattacharyya距離測(cè)量?jī)蓚€(gè)離散或連續(xù)概率分布的相似性。它與衡量?jī)蓚€(gè)統(tǒng)計(jì)樣品或種群之間的重疊量的Bhattacharyya系數(shù)密切相關(guān)啥刻。Bhattacharyya距離和Bhattacharyya系數(shù)以20世紀(jì)30年代曾在印度統(tǒng)計(jì)研究所工作的一個(gè)統(tǒng)計(jì)學(xué)家A. Bhattacharya命名奸鸯。同時(shí),Bhattacharyya系數(shù)可以被用來(lái)確定兩個(gè)樣本被認(rèn)為相對(duì)接近的可帽,它是用來(lái)測(cè)量中的類(lèi)分類(lèi)的可分離性府喳。
(1)巴氏距離的定義
對(duì)于離散概率分布 p和q在同一域 X,它被定義為:
其中:
是Bhattacharyya系數(shù)蘑拯。
對(duì)于連續(xù)概率分布钝满,Bhattacharyya系數(shù)被定義為:
在
這兩種情況下,巴氏距離
并沒(méi)有服從三角不等式.(值得一提的是申窘,Hellinger距離不服從三角不等式
)弯蚜。
對(duì)于多變量的高斯分布
,
剃法,
和是手段和協(xié)方差的分布碎捺。
需要注意的是,在這種情況下贷洲,第一項(xiàng)中的Bhattacharyya距離與馬氏距離有關(guān)聯(lián)收厨。
(2)Bhattacharyya系數(shù)
Bhattacharyya系數(shù)是兩個(gè)統(tǒng)計(jì)樣本之間的重疊量的近似測(cè)量,可以被用于確定被考慮的兩個(gè)樣本的相對(duì)接近优构。
計(jì)算Bhattacharyya系數(shù)涉及集成的基本形式的兩個(gè)樣本的重疊的時(shí)間間隔的值的兩個(gè)樣本被分裂成一個(gè)選定的分區(qū)數(shù)诵叁,并且在每個(gè)分區(qū)中的每個(gè)樣品的成員的數(shù)量,在下面的公式中使用
考慮樣品a 和 b 钦椭,n是的分區(qū)數(shù)拧额,并且
被一個(gè) 和 b i的日分區(qū)中的樣本數(shù)量的成員。更多介紹請(qǐng)參看:http://en.wikipedia.org/wiki/Bhattacharyya_coefficient彪腔。
8. 漢明距離(Hamming distance)侥锦, 兩個(gè)等長(zhǎng)字符串s1與s2之間的漢明距離定義為將其中一個(gè)變?yōu)榱硗庖粋€(gè)所需要作的最小替換次數(shù)。例如字符串“1111”與“1001”之間的漢明距離為2德挣。應(yīng)用:信息編碼(為了增強(qiáng)容錯(cuò)性恭垦,應(yīng)使得編碼間的最小漢明距離盡可能大)。
或許格嗅,你還沒(méi)明白我再說(shuō)什么番挺,不急,看下上篇blog中第78題的第3小題整理的一道面試題目吗浩,便一目了然了建芙。如下圖所示:
,