樣本相似性度量(歐幾里得距離、曼哈頓距離而姐、切比雪夫距離腊凶、閔可夫斯基距離、標準化歐氏距離)

樣本相似性度量(歐幾里得距離拴念、曼哈頓距離钧萍、切比雪夫距離、閔可夫斯基距離政鼠、標準化歐氏距離)

簡書的 Makedown 語法支持比較差风瘦,有些語法支持不好,可以看 CSDN 的 樣本相似性度量(歐幾里得距離公般、曼哈頓距離弛秋、切比雪夫距離、閔可夫斯基距離俐载、標準化歐氏距離)

在分類過程中蟹略,常常需要估算不同樣本直接的 Similarity Measurement (相似性度量)。

此時常用的方法就是計算兩個樣本直接的 Distance(距離)遏佣。

常用方法有:

<h2 id="1">

  1. 歐幾里得距離(Euclidean Distance)

</h2>

歐幾里得距離(Euclidean Distance)挖炬,簡稱歐氏距離,又稱歐幾里得度量(euclidean metric)状婶。

指 m 維空間中兩個點之間的真實距離意敛,或者向量的自然長度(即該點到原點的距離)馅巷。在二維和三維空間中的歐氏距離就是兩點之間的實際距離。

在歐幾里得空間中草姻,點 x=\left(x_{1}, \cdots, x_{n}\right)y=\left(y_{1}, \cdots, y_{n}\right) 之間的歐幾里得距離為:

d(x, y) :=\sqrt{\left(x_{1}-y_{1}\right)^{2}+\left(x_{2}-y_{2}\right)^{2}+\cdots+\left(x_{n}-y_{n}\right)^{2}}=\sqrt{\sum_{i=1}^{n}\left(x_{i}-y_{i}\right)^{2}}

y 點為原點時钓猬,即為向量 \vec{x} 的自然長度(該點到原點的距離)。

向量 \vec{x} 的自然長度:

\|\vec{x}\|_{2}=\sqrt{\left|x_{1}\right|^{2}+\cdots+\left|x_{n}\right|^{2}}

n 維空間的歐幾里得距離公式可以推出:

二維平面上兩點 a\left(x_{1},y_{1}\right)b\left(x_{2},y_{2}\right) 間的歐幾里得距離:

d_{12}=\sqrt{\left(x_{1}-x_{2}\right)^{2}+\left(y_{1}-y_{2}\right)^{2}}

三維空間兩點 a\left(x_{1}, y_{1}, z_{1}\right)b\left(x_{2},y_{2}, z_{2}\right) 間的歐幾里得距離:

d_{12}=\sqrt{\left(x_{1}-x_{2}\right)^{2}+\left(y_{1}-y_{2}\right)^{2}+\left(z_{1}-z_{2}\right)^{2}}

<h2 id="2">

  1. 曼哈頓距離(Manhattan Distance)

</h2>

計程車幾何 (Taxicab geometry) 或曼哈頓距離 (Manhattan distance or Manhattan length) 或方格線距離是由十九世紀的赫爾曼 · 閔可夫斯基所創(chuàng)辭匯撩独,為歐幾里得幾何度量空間的幾何學之用語敞曹,用以標明兩個點上在標準坐標系上的絕對軸距之總和。

[圖片上傳失敗...(image-eff26f-1548930789717)]

如上圖综膀,從右上角的黑點到左下角的黑點的最小距離是澳迫?

是紅色線的歐幾里得距離?

顯然是錯誤的剧劝。在這樣的空間里橄登,歐幾里得距離計算最小距離是不合適的。

需要采用新的距離計算方式 —— 曼哈頓距離

在 N 維空間中讥此,點 x=\left(x_{1}, \cdots, x_{n}\right)y=\left(y_{1}, \cdots, y_{n}\right) 之間的曼哈頓距離為:

d(x, y) :=\left|x_{1}-y_{1}\right|+\left|x_{2}-y_{2}\right|+\cdots+\left|x_{n}-y_{n}\right|=\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|

二維平面兩點 a\left(x_{1},y_{1}\right)b\left(x_{2},y_{2}\right) 間的曼哈頓距離:

d_{12} :=\left|x_{1}-y_{1}\right|+\left|x_{2}-y_{2}\right|

<h2 id="3">

  1. 切比雪夫距離(Chebyshev Distance)

</h2>

國際象棋棋盤上二個位置間的切比雪夫距離是指王要從一個位子移至另一個位子需要走的步數(shù)拢锹。由于王可以往斜前或斜后方向移動一格,因此可以較有效率的到達目的的格子萄喳。上圖是棋盤上所有位置距 f6 位置的切比雪夫距離

n 維空間中面褐,點 x=\left(x_{1}, \cdots, x_{n}\right)y=\left(y_{1}, \cdots, y_{n}\right) 之間的切比雪夫距離為:

d(x, y) :=\max_{i}\left(\left|x_{i}-y_{i}\right|\right)

二維平面兩點 a\left(x_{1},y_{1}\right)b\left(x_{2},y_{2}\right) 間的切比雪夫距離:

d_{12} :=max\left(\left|x_{1}-y_{1}\right|,\left|x_{2}-y_{2}\right|\right)

<h2 id="4">

  1. 閔可夫斯基距離(Minkowski Distance)

</h2>

閔可夫斯基距離(Minkowski Distance),簡稱閔氏距離取胎。

它是一組距離的定義展哭。

設(shè)定兩點:

P=\left(x_{1}, x_{2}, \ldots, x_{n}\right) \text { and } Q=\left(y_{1}, y_{2}, \ldots, y_{n}\right) \in \mathbb{R}^{n}

直接的閔可夫斯基距離為:

\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{p}\right)^{1 / p}

那么 p 的常用取值為 12

p=1 即為曼哈頓距離:

\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{1}\right)^{\frac{1}{1}}=\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|

p=2 即為歐幾里得距離:

\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{2}\right)^{\frac{1}{2}}=\sqrt{\sum_{i=1}^{n}\left(x_{i}-y_{i}\right)^{2}}

p\rightarrow \infty 取無窮時極限情況下可以得到切比雪夫距離:

\lim _{p \rightarrow \infty}\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{p}\right)^{\frac{1}{p}}=\max _{i=1}^{n}\left|x_{i}-y_{i}\right.

<h2 id="5">

  1. 標準化歐氏距離(Standardized Euclidean distance)

</h2>

標準歐氏距離的定義:

標準化歐氏距離是針對簡單歐氏距離的缺點而作的一種改進方案闻蛀。

標準歐氏距離的思路:既然數(shù)據(jù)各維分量的分布不一樣匪傍,好吧!那我先將各個分量都 “標準化” 到均值觉痛、方差相等吧役衡。
均值和方差標準化到多少呢?
假設(shè)樣本集 X 的均值 (mean) 為 m薪棒,標準差(standard deviation)為 s手蝎,那么 X 的 “標準化變量X^{*}” 表示為:

而且標準化變量的數(shù)學期望為 0,方差為 1俐芯。因此樣本集的標準化過程 (standardization) 用公式描述就是:

X^{*}=\frac{X-m}{s}

標準化后的值 = (標準化前的值 - 分量的均值) / 分量的標準差

經(jīng)過簡單的推導就可以得到兩個 n 維向量 a\left(x_{11}, x_{12}, \cdots, x_{1n}\right)b\left(x_{21}, x_{22}, \cdots, x_{2n}\right) 間的標準化歐氏距離的公式:

如果將方差的倒數(shù)看成是一個權(quán)重棵介,這個公式可以看成是一種加權(quán)歐氏距離 (Weighted Euclidean distance)。

d_{12}=\sqrt{\sum_{k=1}^{n}\left(\frac{x_{1 k}-x_{2 k}}{s_{k}}\right)^{2}}

如果使用長寬比為 2:1 的二維矩形作為單元大小吧史,那么使用標準歐式距離公式為:

d=\sqrt{ \left(\frac{x_{2}-x_{1}}{2}\right)^{2} + \left(\frac{x_{2}-x_{1}}{1}\right)^{2} }

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末邮辽,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌吨述,老刑警劉巖岩睁,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異揣云,居然都是意外死亡捕儒,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進店門邓夕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來刘莹,“玉大人,你說我怎么就攤上這事翎迁。” “怎么了净薛?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵汪榔,是天一觀的道長。 經(jīng)常有香客問我肃拜,道長痴腌,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任燃领,我火速辦了婚禮士聪,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘猛蔽。我一直安慰自己剥悟,他們只是感情好,可當我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布曼库。 她就那樣靜靜地躺著区岗,像睡著了一般。 火紅的嫁衣襯著肌膚如雪毁枯。 梳的紋絲不亂的頭發(fā)上慈缔,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天,我揣著相機與錄音种玛,去河邊找鬼藐鹤。 笑死,一個胖子當著我的面吹牛赂韵,可吹牛的內(nèi)容都是我干的娱节。 我是一名探鬼主播,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼祭示,長吁一口氣:“原來是場噩夢啊……” “哼括堤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤悄窃,失蹤者是張志新(化名)和其女友劉穎讥电,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體轧抗,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡恩敌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了横媚。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片纠炮。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖灯蝴,靈堂內(nèi)的尸體忽然破棺而出恢口,到底是詐尸還是另有隱情,我是刑警寧澤穷躁,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布耕肩,位于F島的核電站,受9級特大地震影響问潭,放射性物質(zhì)發(fā)生泄漏猿诸。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一狡忙、第九天 我趴在偏房一處隱蔽的房頂上張望梳虽。 院中可真熱鬧,春花似錦灾茁、人聲如沸窜觉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽竖螃。三九已至,卻和暖如春逗余,著一層夾襖步出監(jiān)牢的瞬間特咆,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工录粱, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留腻格,地道東北人。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓啥繁,卻偏偏與公主長得像菜职,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子旗闽,可洞房花燭夜當晚...
    茶點故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容