樣本相似性度量(歐幾里得距離拴念、曼哈頓距離钧萍、切比雪夫距離、閔可夫斯基距離政鼠、標準化歐氏距離)
簡書的 Makedown 語法支持比較差风瘦,有些語法支持不好,可以看 CSDN 的 樣本相似性度量(歐幾里得距離公般、曼哈頓距離弛秋、切比雪夫距離、閔可夫斯基距離俐载、標準化歐氏距離)
在分類過程中蟹略,常常需要估算不同樣本直接的 Similarity Measurement (相似性度量)。
此時常用的方法就是計算兩個樣本直接的 Distance(距離)遏佣。
常用方法有:
<h2 id="1">
- 歐幾里得距離(Euclidean Distance)
</h2>
歐幾里得距離(Euclidean Distance)挖炬,簡稱歐氏距離,又稱歐幾里得度量(euclidean metric)状婶。
指 m 維空間中兩個點之間的真實距離意敛,或者向量的自然長度(即該點到原點的距離)馅巷。在二維和三維空間中的歐氏距離就是兩點之間的實際距離。
在歐幾里得空間中草姻,點 和
之間的歐幾里得距離為:
當 點為原點時钓猬,即為向量
的自然長度(該點到原點的距離)。
向量 的自然長度:
由 維空間的歐幾里得距離公式可以推出:
二維平面上兩點 與
間的歐幾里得距離:
三維空間兩點 與
間的歐幾里得距離:
<h2 id="2">
- 曼哈頓距離(Manhattan Distance)
</h2>
計程車幾何 (Taxicab geometry) 或曼哈頓距離 (Manhattan distance or Manhattan length) 或方格線距離是由十九世紀的赫爾曼 · 閔可夫斯基所創(chuàng)辭匯撩独,為歐幾里得幾何度量空間的幾何學之用語敞曹,用以標明兩個點上在標準坐標系上的絕對軸距之總和。
[圖片上傳失敗...(image-eff26f-1548930789717)]
如上圖综膀,從右上角的黑點到左下角的黑點的最小距離是澳迫?
是紅色線的歐幾里得距離?
顯然是錯誤的剧劝。在這樣的空間里橄登,歐幾里得距離計算最小距離是不合適的。
需要采用新的距離計算方式 —— 曼哈頓距離
在 N 維空間中讥此,點 和
之間的曼哈頓距離為:
二維平面兩點 與
間的曼哈頓距離:
<h2 id="3">
- 切比雪夫距離(Chebyshev Distance)
</h2>
在 維空間中面褐,點
和
之間的切比雪夫距離為:
二維平面兩點 與
間的切比雪夫距離:
<h2 id="4">
- 閔可夫斯基距離(Minkowski Distance)
</h2>
閔可夫斯基距離(Minkowski Distance),簡稱閔氏距離取胎。
它是一組距離的定義展哭。
設(shè)定兩點:
直接的閔可夫斯基距離為:
那么 的常用取值為
或
。
即為曼哈頓距離:
即為歐幾里得距離:
取無窮時極限情況下可以得到切比雪夫距離:
<h2 id="5">
- 標準化歐氏距離(Standardized Euclidean distance)
</h2>
標準歐氏距離的定義:
標準化歐氏距離是針對簡單歐氏距離的缺點而作的一種改進方案闻蛀。
標準歐氏距離的思路:既然數(shù)據(jù)各維分量的分布不一樣匪傍,好吧!那我先將各個分量都 “標準化” 到均值觉痛、方差相等吧役衡。
均值和方差標準化到多少呢?
假設(shè)樣本集 的均值 (mean) 為
薪棒,標準差(standard deviation)為
手蝎,那么
的 “標準化變量
” 表示為:
而且標準化變量的數(shù)學期望為 ,方差為
俐芯。因此樣本集的標準化過程 (standardization) 用公式描述就是:
標準化后的值 = (標準化前的值 - 分量的均值) / 分量的標準差
經(jīng)過簡單的推導就可以得到兩個 n 維向量 與
間的標準化歐氏距離的公式:
如果將方差的倒數(shù)看成是一個權(quán)重棵介,這個公式可以看成是一種加權(quán)歐氏距離 (Weighted Euclidean distance)。
如果使用長寬比為 的二維矩形作為單元大小吧史,那么使用標準歐式距離公式為: