閔可夫斯基距離

想象你在地圖上尋找從家到朋友家的最短路線,閔可夫斯基距離就像是一個(gè)萬能的尺子,可以根據(jù)你的喜好量出不同類型的“遠(yuǎn)近”。

歐幾里得距離

就像是直接走直線距離秉颗,就好比你和朋友住在同一平面城市,從你家門到他家門送矩,直接穿過街道走過去的最短距離蚕甥。

曼哈頓距離

則是走街區(qū)的距離,假設(shè)你只能沿著街區(qū)邊緣走栋荸,不能穿房子菇怀,從一個(gè)街區(qū)的這頭走到另一個(gè)街區(qū)的那頭夷家,就像是在城市里走網(wǎng)格狀的道路,不能斜穿敏释。

切比雪夫距離

則是看你們兩個(gè)家中最遠(yuǎn)的那個(gè)房間之間的距離,就像是不管你怎么走摸袁,總要走過最長的那一段路钥顽,比如說你家的臥室離大門最遠(yuǎn),他家也是靠汁,那這段距離就是關(guān)鍵蜂大。

切比雪夫距離這個(gè)概念,可以用一個(gè)更生活化的例子來解釋蝶怔。想象你去超市買東西奶浦,超市里的商品擺放在不同的貨架上,而你需要買的是蘋果踢星、牛奶和面包澳叉,這三個(gè)商品分別位于超市的三個(gè)角落。
切比雪夫距離的思想是這樣的:不論你怎樣走沐悦,先去哪個(gè)貨架成洗,最終決定你這次購物旅程“最耗時(shí)”或“最遠(yuǎn)”的,其實(shí)是這三個(gè)商品中離你最遠(yuǎn)的那一個(gè)位置藏否。比如瓶殃,如果你一開始在超市入口,蘋果在最左邊盡頭副签,牛奶在最右邊盡頭遥椿,面包在最前面深處,那么無論你怎么規(guī)劃路線淆储,從入口到這三個(gè)地方中的任何一個(gè)開始逛冠场,最終決定你整個(gè)行程“最長步行距離”的,其實(shí)是從入口到這三個(gè)商品中最遠(yuǎn)的那個(gè)——可能是蘋果或牛奶所在的盡頭遏考。
換句話說慈鸠,切比雪夫距離就是考慮最壞情況下的距離,即所有可能路徑中的最大單項(xiàng)距離灌具。在這個(gè)場(chǎng)景中青团,它不關(guān)心你實(shí)際走過的總步數(shù),只看你離目標(biāo)物中最遠(yuǎn)的那個(gè)有多遠(yuǎn)咖楣。就像比賽跑步督笆,不管你中間跑得多快,最終成績(jī)由你跑得最慢的那一段決定诱贿。這就是切比雪夫距離簡(jiǎn)單而又直觀的含義娃肿。

而閔可夫斯基距離就是這個(gè)萬能尺子咕缎,你想怎么量就怎么量。如果尺子設(shè)定成2(歐幾里得)料扰,它就是量直線凭豪;設(shè)成1(曼哈頓),它就只量街區(qū)晒杈;設(shè)成無限大嫂伞,它就只關(guān)心最遠(yuǎn)的那一點(diǎn)(切比雪夫)。這樣拯钻,你就可以根據(jù)天氣帖努、心情或?qū)嶋H情況選擇最合適的出行方式了。

機(jī)器學(xué)習(xí)什么時(shí)候會(huì)用到曼哈頓距離呢粪般?

曼哈頓距離在機(jī)器學(xué)習(xí)中主要用于以下幾種場(chǎng)景:

分類與回歸問題:在一些特定的分類和回歸模型中拼余,特別是在那些需要衡量特征間絕對(duì)差異更為重要的情況下,曼哈頓距離可以作為距離度量來替代歐幾里得距離亩歹。例如匙监,在特征空間中,如果各個(gè)維度的取值都是整數(shù)或變化較為離散小作,曼哈頓距離更能體現(xiàn)這種特征差異舅柜。

聚類分析:在K-means、DBSCAN等聚類算法中躲惰,曼哈頓距離可以用來確定數(shù)據(jù)點(diǎn)之間的相似度致份,尤其是在處理離散化或稀疏數(shù)據(jù)時(shí)更為有效。它有助于將數(shù)據(jù)劃分到不同的簇中础拨,尤其是在數(shù)據(jù)呈“塊狀”分布的特征空間中氮块。

特征選擇與降維:在評(píng)估特征對(duì)目標(biāo)變量的重要性時(shí),曼哈頓距離可以用于特征之間差異的量化诡宗,幫助識(shí)別哪些特征對(duì)模型貢獻(xiàn)更大滔蝉。在降維過程中,利用曼哈頓距離進(jìn)行距離計(jì)算塔沃,有助于保留數(shù)據(jù)的局部結(jié)構(gòu)蝠引,特別是對(duì)于處理高維空間中的稀疏特征。

異常檢測(cè):在檢測(cè)數(shù)據(jù)集中異常點(diǎn)時(shí)蛀柴,曼哈頓距離可以用于識(shí)別那些在多個(gè)維度上同時(shí)偏離正常范圍較遠(yuǎn)的點(diǎn)螃概,因?yàn)樗歉骶S度差值絕對(duì)值的總和。

推薦系統(tǒng):在某些推薦算法中鸽疾,尤其是基于內(nèi)容的推薦吊洼,曼哈頓距離可以用來衡量用戶偏好或項(xiàng)目特征之間的相似度,因?yàn)樗軌蛉萑滩煌卣魃溪?dú)立的較大偏差制肮,適合處理離散特征的匹配冒窍。

圖像處理:在圖像分割或特征提取中递沪,尤其是在處理像素級(jí)操作時(shí),曼哈頓距離因其計(jì)算效率和對(duì)離散數(shù)據(jù)的友好性综液,有時(shí)會(huì)被用作度量像素間差異款慨。

綜上所述,曼哈頓距離在處理離散數(shù)據(jù)谬莹、強(qiáng)調(diào)各維度獨(dú)立差異樱调、需要快速計(jì)算或在特定數(shù)據(jù)結(jié)構(gòu)上保持不變性等場(chǎng)景中,是機(jī)器學(xué)習(xí)中一個(gè)非常有用的工具届良。

說的太抽象了,我無法直觀的感受

想象一下圣猎,你正在規(guī)劃在一座方格狀布局的城市(如紐約曼哈頓)中旅行的路線士葫。城市中的道路嚴(yán)格按照東西向和南北向排列,不允許斜著穿越街區(qū)∷突冢現(xiàn)在你要從A點(diǎn)出發(fā)慢显,到達(dá)B點(diǎn)。

歐幾里得距離就像是你直接飛過去欠啤,無視街道荚藻,直線到達(dá)B點(diǎn)的最短距離。
而曼哈頓距離則是你必須沿著街道走的實(shí)際行走距離洁段,只能向北应狱、南、東祠丝、西四個(gè)方向移動(dòng)疾呻,直到到達(dá)目的地。
在機(jī)器學(xué)習(xí)中写半,如果我們的數(shù)據(jù)像是分布在這樣的“城市”中岸蜗,每個(gè)特征(比如收入、年齡叠蝇、教育水平等)就像是一個(gè)街區(qū)璃岳,數(shù)據(jù)點(diǎn)(人或事件)則位于這些街區(qū)的交叉口。當(dāng)我們想要比較兩個(gè)數(shù)據(jù)點(diǎn)的相似度時(shí)悔捶,使用曼哈頓距離意味著我們關(guān)注的是每個(gè)特征上差異的直接累加铃慷,而不是考慮它們組合后的整體差異。

例如蜕该,建立一個(gè)電影推薦系統(tǒng)枚冗,如果用戶對(duì)電影的評(píng)分是基于幾個(gè)維度(比如劇情、視覺效果蛇损、演員表現(xiàn)等)的評(píng)分赁温,曼哈頓距離可以幫助我們找到在各個(gè)維度上與用戶偏好最接近的其他用戶或電影坛怪。即使某個(gè)電影在某一方面評(píng)分差距很大(比如視覺效果),但只要其他方面接近股囊,總體上仍可能被看作是相似的袜匿,因?yàn)槁D距離更重視每一方面的獨(dú)立差異累加。

這樣的場(chǎng)景下稚疹,曼哈頓距離提供了一種更實(shí)際居灯、分項(xiàng)考量的視角,使得機(jī)器學(xué)習(xí)模型能夠理解和區(qū)分?jǐn)?shù)據(jù)點(diǎn)間的差異内狗,并據(jù)此做出決策怪嫌,比如推薦相似度高的電影給用戶。

繼續(xù)簡(jiǎn)化

讓我們嘗試用更簡(jiǎn)單的語言和一個(gè)具體的例子來解釋這個(gè)概念柳沙。

想象你有兩個(gè)朋友岩灭,我們稱他們?yōu)樾∶骱托〖t,我們想看看他們倆在某些方面的相似程度如何赂鲤。我們將考慮的方面有三個(gè)“街區(qū)”噪径,分別是他們的年齡、月收入和受教育年數(shù)数初。

小明的情況是:年齡25歲找爱,月收入8000元,受教育16年泡孩。
小紅的情況是:年齡27歲车摄,月收入7500元,受教育15年仑鸥。
如果我們要用曼哈頓距離來衡量他們?cè)谶@三個(gè)方面上的“距離”或差異练般,我們不會(huì)去計(jì)算他們所有差異的綜合影響(比如年齡和收入的差距乘積加上教育年的差距),而是直接計(jì)算每個(gè)方面上的差距锈候,然后把它們相加起來薄料。

在年齡上,他們相差2歲泵琳。
在月收入上摄职,他們相差500元。
在受教育年數(shù)上获列,他們相差1年谷市。
所以,用曼哈頓距離來衡量的話击孩,我們就是簡(jiǎn)單地把這些差異加起來:2歲 + 500元 + 1年迫悠。這個(gè)總和就是他們?cè)谶@些特征上的“曼哈頓距離”,它告訴我們巩梢,如果把每個(gè)特征看作一個(gè)獨(dú)立的街區(qū)创泄,小明和小紅在這些街區(qū)上的“行走距離”總共是多少艺玲。

總結(jié)來說,曼哈頓距離在機(jī)器學(xué)習(xí)中鞠抑,尤其是在比較兩個(gè)對(duì)象的相似性時(shí)饭聚,更側(cè)重于看每個(gè)特征(街區(qū))上單獨(dú)的差異,然后直接把這些差異累加起來得到總距離搁拙,而不是考慮所有特征差異的某種組合效應(yīng)秒梳。這種方式適用于那些特征之間相對(duì)獨(dú)立,且每個(gè)特征差異同樣重要的情況箕速。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末酪碘,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子盐茎,更是在濱河造成了極大的恐慌兴垦,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件庭呜,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡犀忱,警方通過查閱死者的電腦和手機(jī)募谎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來阴汇,“玉大人数冬,你說我怎么就攤上這事〔笫” “怎么了拐纱?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長哥倔。 經(jīng)常有香客問我秸架,道長,這世上最難降的妖魔是什么咆蒿? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任东抹,我火速辦了婚禮,結(jié)果婚禮上沃测,老公的妹妹穿的比我還像新娘缭黔。我一直安慰自己,他們只是感情好蒂破,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布馏谨。 她就那樣靜靜地躺著,像睡著了一般附迷。 火紅的嫁衣襯著肌膚如雪惧互。 梳的紋絲不亂的頭發(fā)上哎媚,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音壹哺,去河邊找鬼抄伍。 笑死,一個(gè)胖子當(dāng)著我的面吹牛管宵,可吹牛的內(nèi)容都是我干的截珍。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼箩朴,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼岗喉!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起炸庞,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤钱床,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后埠居,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體查牌,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年滥壕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了纸颜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡绎橘,死狀恐怖胁孙,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情称鳞,我是刑警寧澤涮较,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站冈止,受9級(jí)特大地震影響狂票,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜熙暴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一苫亦、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧怨咪,春花似錦屋剑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春巍膘,著一層夾襖步出監(jiān)牢的瞬間厂财,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國打工峡懈, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留璃饱,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓肪康,卻偏偏與公主長得像荚恶,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子磷支,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容