想象你在地圖上尋找從家到朋友家的最短路線,閔可夫斯基距離就像是一個(gè)萬能的尺子,可以根據(jù)你的喜好量出不同類型的“遠(yuǎn)近”。
歐幾里得距離
就像是直接走直線距離秉颗,就好比你和朋友住在同一平面城市,從你家門到他家門送矩,直接穿過街道走過去的最短距離蚕甥。
曼哈頓距離
則是走街區(qū)的距離,假設(shè)你只能沿著街區(qū)邊緣走栋荸,不能穿房子菇怀,從一個(gè)街區(qū)的這頭走到另一個(gè)街區(qū)的那頭夷家,就像是在城市里走網(wǎng)格狀的道路,不能斜穿敏释。
切比雪夫距離
則是看你們兩個(gè)家中最遠(yuǎn)的那個(gè)房間之間的距離,就像是不管你怎么走摸袁,總要走過最長的那一段路钥顽,比如說你家的臥室離大門最遠(yuǎn),他家也是靠汁,那這段距離就是關(guān)鍵蜂大。
切比雪夫距離這個(gè)概念,可以用一個(gè)更生活化的例子來解釋蝶怔。想象你去超市買東西奶浦,超市里的商品擺放在不同的貨架上,而你需要買的是蘋果踢星、牛奶和面包澳叉,這三個(gè)商品分別位于超市的三個(gè)角落。
切比雪夫距離的思想是這樣的:不論你怎樣走沐悦,先去哪個(gè)貨架成洗,最終決定你這次購物旅程“最耗時(shí)”或“最遠(yuǎn)”的,其實(shí)是這三個(gè)商品中離你最遠(yuǎn)的那一個(gè)位置藏否。比如瓶殃,如果你一開始在超市入口,蘋果在最左邊盡頭副签,牛奶在最右邊盡頭遥椿,面包在最前面深處,那么無論你怎么規(guī)劃路線淆储,從入口到這三個(gè)地方中的任何一個(gè)開始逛冠场,最終決定你整個(gè)行程“最長步行距離”的,其實(shí)是從入口到這三個(gè)商品中最遠(yuǎn)的那個(gè)——可能是蘋果或牛奶所在的盡頭遏考。
換句話說慈鸠,切比雪夫距離就是考慮最壞情況下的距離,即所有可能路徑中的最大單項(xiàng)距離灌具。在這個(gè)場(chǎng)景中青团,它不關(guān)心你實(shí)際走過的總步數(shù),只看你離目標(biāo)物中最遠(yuǎn)的那個(gè)有多遠(yuǎn)咖楣。就像比賽跑步督笆,不管你中間跑得多快,最終成績(jī)由你跑得最慢的那一段決定诱贿。這就是切比雪夫距離簡(jiǎn)單而又直觀的含義娃肿。
而閔可夫斯基距離就是這個(gè)萬能尺子咕缎,你想怎么量就怎么量。如果尺子設(shè)定成2(歐幾里得)料扰,它就是量直線凭豪;設(shè)成1(曼哈頓),它就只量街區(qū)晒杈;設(shè)成無限大嫂伞,它就只關(guān)心最遠(yuǎn)的那一點(diǎn)(切比雪夫)。這樣拯钻,你就可以根據(jù)天氣帖努、心情或?qū)嶋H情況選擇最合適的出行方式了。
機(jī)器學(xué)習(xí)什么時(shí)候會(huì)用到曼哈頓距離呢粪般?
曼哈頓距離在機(jī)器學(xué)習(xí)中主要用于以下幾種場(chǎng)景:
分類與回歸問題:在一些特定的分類和回歸模型中拼余,特別是在那些需要衡量特征間絕對(duì)差異更為重要的情況下,曼哈頓距離可以作為距離度量來替代歐幾里得距離亩歹。例如匙监,在特征空間中,如果各個(gè)維度的取值都是整數(shù)或變化較為離散小作,曼哈頓距離更能體現(xiàn)這種特征差異舅柜。
聚類分析:在K-means、DBSCAN等聚類算法中躲惰,曼哈頓距離可以用來確定數(shù)據(jù)點(diǎn)之間的相似度致份,尤其是在處理離散化或稀疏數(shù)據(jù)時(shí)更為有效。它有助于將數(shù)據(jù)劃分到不同的簇中础拨,尤其是在數(shù)據(jù)呈“塊狀”分布的特征空間中氮块。
特征選擇與降維:在評(píng)估特征對(duì)目標(biāo)變量的重要性時(shí),曼哈頓距離可以用于特征之間差異的量化诡宗,幫助識(shí)別哪些特征對(duì)模型貢獻(xiàn)更大滔蝉。在降維過程中,利用曼哈頓距離進(jìn)行距離計(jì)算塔沃,有助于保留數(shù)據(jù)的局部結(jié)構(gòu)蝠引,特別是對(duì)于處理高維空間中的稀疏特征。
異常檢測(cè):在檢測(cè)數(shù)據(jù)集中異常點(diǎn)時(shí)蛀柴,曼哈頓距離可以用于識(shí)別那些在多個(gè)維度上同時(shí)偏離正常范圍較遠(yuǎn)的點(diǎn)螃概,因?yàn)樗歉骶S度差值絕對(duì)值的總和。
推薦系統(tǒng):在某些推薦算法中鸽疾,尤其是基于內(nèi)容的推薦吊洼,曼哈頓距離可以用來衡量用戶偏好或項(xiàng)目特征之間的相似度,因?yàn)樗軌蛉萑滩煌卣魃溪?dú)立的較大偏差制肮,適合處理離散特征的匹配冒窍。
圖像處理:在圖像分割或特征提取中递沪,尤其是在處理像素級(jí)操作時(shí),曼哈頓距離因其計(jì)算效率和對(duì)離散數(shù)據(jù)的友好性综液,有時(shí)會(huì)被用作度量像素間差異款慨。
綜上所述,曼哈頓距離在處理離散數(shù)據(jù)谬莹、強(qiáng)調(diào)各維度獨(dú)立差異樱调、需要快速計(jì)算或在特定數(shù)據(jù)結(jié)構(gòu)上保持不變性等場(chǎng)景中,是機(jī)器學(xué)習(xí)中一個(gè)非常有用的工具届良。
說的太抽象了,我無法直觀的感受
想象一下圣猎,你正在規(guī)劃在一座方格狀布局的城市(如紐約曼哈頓)中旅行的路線士葫。城市中的道路嚴(yán)格按照東西向和南北向排列,不允許斜著穿越街區(qū)∷突冢現(xiàn)在你要從A點(diǎn)出發(fā)慢显,到達(dá)B點(diǎn)。
歐幾里得距離就像是你直接飛過去欠啤,無視街道荚藻,直線到達(dá)B點(diǎn)的最短距離。
而曼哈頓距離則是你必須沿著街道走的實(shí)際行走距離洁段,只能向北应狱、南、東祠丝、西四個(gè)方向移動(dòng)疾呻,直到到達(dá)目的地。
在機(jī)器學(xué)習(xí)中写半,如果我們的數(shù)據(jù)像是分布在這樣的“城市”中岸蜗,每個(gè)特征(比如收入、年齡叠蝇、教育水平等)就像是一個(gè)街區(qū)璃岳,數(shù)據(jù)點(diǎn)(人或事件)則位于這些街區(qū)的交叉口。當(dāng)我們想要比較兩個(gè)數(shù)據(jù)點(diǎn)的相似度時(shí)悔捶,使用曼哈頓距離意味著我們關(guān)注的是每個(gè)特征上差異的直接累加铃慷,而不是考慮它們組合后的整體差異。
例如蜕该,建立一個(gè)電影推薦系統(tǒng)枚冗,如果用戶對(duì)電影的評(píng)分是基于幾個(gè)維度(比如劇情、視覺效果蛇损、演員表現(xiàn)等)的評(píng)分赁温,曼哈頓距離可以幫助我們找到在各個(gè)維度上與用戶偏好最接近的其他用戶或電影坛怪。即使某個(gè)電影在某一方面評(píng)分差距很大(比如視覺效果),但只要其他方面接近股囊,總體上仍可能被看作是相似的袜匿,因?yàn)槁D距離更重視每一方面的獨(dú)立差異累加。
這樣的場(chǎng)景下稚疹,曼哈頓距離提供了一種更實(shí)際居灯、分項(xiàng)考量的視角,使得機(jī)器學(xué)習(xí)模型能夠理解和區(qū)分?jǐn)?shù)據(jù)點(diǎn)間的差異内狗,并據(jù)此做出決策怪嫌,比如推薦相似度高的電影給用戶。
繼續(xù)簡(jiǎn)化
讓我們嘗試用更簡(jiǎn)單的語言和一個(gè)具體的例子來解釋這個(gè)概念柳沙。
想象你有兩個(gè)朋友岩灭,我們稱他們?yōu)樾∶骱托〖t,我們想看看他們倆在某些方面的相似程度如何赂鲤。我們將考慮的方面有三個(gè)“街區(qū)”噪径,分別是他們的年齡、月收入和受教育年數(shù)数初。
小明的情況是:年齡25歲找爱,月收入8000元,受教育16年泡孩。
小紅的情況是:年齡27歲车摄,月收入7500元,受教育15年仑鸥。
如果我們要用曼哈頓距離來衡量他們?cè)谶@三個(gè)方面上的“距離”或差異练般,我們不會(huì)去計(jì)算他們所有差異的綜合影響(比如年齡和收入的差距乘積加上教育年的差距),而是直接計(jì)算每個(gè)方面上的差距锈候,然后把它們相加起來薄料。
在年齡上,他們相差2歲泵琳。
在月收入上摄职,他們相差500元。
在受教育年數(shù)上获列,他們相差1年谷市。
所以,用曼哈頓距離來衡量的話击孩,我們就是簡(jiǎn)單地把這些差異加起來:2歲 + 500元 + 1年迫悠。這個(gè)總和就是他們?cè)谶@些特征上的“曼哈頓距離”,它告訴我們巩梢,如果把每個(gè)特征看作一個(gè)獨(dú)立的街區(qū)创泄,小明和小紅在這些街區(qū)上的“行走距離”總共是多少艺玲。
總結(jié)來說,曼哈頓距離在機(jī)器學(xué)習(xí)中鞠抑,尤其是在比較兩個(gè)對(duì)象的相似性時(shí)饭聚,更側(cè)重于看每個(gè)特征(街區(qū))上單獨(dú)的差異,然后直接把這些差異累加起來得到總距離搁拙,而不是考慮所有特征差異的某種組合效應(yīng)秒梳。這種方式適用于那些特征之間相對(duì)獨(dú)立,且每個(gè)特征差異同樣重要的情況箕速。