產(chǎn)品識算法(四):數(shù)據(jù)挖掘距離計算算法

在數(shù)據(jù)挖掘和分析的過程中,我們經(jīng)常需要知道某兩個或多個分析對象之間的差異性蝇完,從而判別分析對象之間的相似性和所屬類別插爹。在數(shù)據(jù)分析和挖掘領(lǐng)域舒岸,用得最多的就是“分類”和“聚類”算法锄码,如:KNN 和 K-Means局齿。今天將主流的一些距離計算算法做一個歸納罢浇。
為了方便理解讼积,我們暫定分析的對象只有兩個個體 A 和個體 B,并且兩個個體在同一個維度:
A(a1,a2,a3...an)
B(b1,b2,b3...bn)
我們先來了解一下相關(guān)名詞烦衣,距離度量(Distance)是用來衡量空間上兩個個體之間的距離歹河,接下來一些算法公式中會頻繁使用這個概念,我們在公式中用“dist“表示花吟。
歐幾里得距離
這是最常見的距離度量公式秸歧,讀書在數(shù)學(xué)課本中已有接觸,公式如下:


這里需要提醒的是衅澈,我們開篇已經(jīng)注明键菱,是在同一個維度上的兩個對象,如果一個描述的是距離(單位M)今布,一個描述的是重量(單位KG)经备,這樣比較沒有任何意義拭抬,也沒有可比性。
我們將上面的距離公式做個變形

做這樣變形的目的就是是上面一些看上去僵硬不變的線條符號用數(shù)字表示出來侵蒙,因為數(shù)字的是靈活的玖喘,會給人帶來啟發(fā),如上面的公式中就有人獲得靈感蘑志,將公式中的“2”用變量代替,結(jié)果會如何贬派,這個人叫“明可夫斯基”急但,最后的距離公式被后人稱作:
明可夫斯基距離

當t=2時,明可夫斯基距離公式等于歐幾里得距離公式搞乏,使用絕對值因為變量t不能確保兩者之差為非負數(shù)(關(guān)于這個問題上篇文章有提到過)波桩。
當t=1時,明可夫斯基距離等于曼哈頓距離请敦。
曼哈頓距離

曼哈頓距離依賴座標系統(tǒng)镐躲,它還有一個名字叫“城市區(qū)塊距離”感興趣的可以移步這里
上面看到了當t無限縮小后衍生的距離公式,那么當t無限擴大后又是什么樣的結(jié)
果呢侍筛?我們將明可夫斯基距離公式中的“t”放大到無窮大:

這就變成了“切比雪夫距離”萤皂,這些距離都是歐式距離的特殊應(yīng)用。歐式距離不能忽略比較對象的維度匣椰,所以在針對不同維度的比較對象時裆熙,需要對數(shù)據(jù)做標準化處理,這些經(jīng)過處理后的標準數(shù)據(jù)禽笑,再采用歐式距離比較時有個新的名字:馬哈拉諾比斯距離入录。
余弦相似度
這里有個和“距離度量”類似的名詞“相似度度量”,相似度度量(Similarity)在下面的會頻繁用到佳镜,我們用 “Sim” 表示

皮爾森相關(guān)系數(shù)
即相關(guān)分析中的相關(guān)系數(shù) r僚稿,分別對 A 和 B 基于自身總體標準化后計算空間向量的余弦夾角:

歐氏距離與余弦相似度
歐氏距離是最常見的距離度量,而余弦相似度則是最常見的相似度度量蟀伸,很多的距離度量和相似度度量都是基于這兩者的變形和衍生蚀同,所以下面重點比較下兩者在衡量個體差異時實現(xiàn)方式和應(yīng)用環(huán)境上的區(qū)別。
借助三維坐標系來看下歐氏距離和余弦相似度的區(qū)別:

從圖上可以看出距離度量衡量的是空間各點間的絕對距離啊掏,跟各個點所在的位置坐標(即個體特征維度的數(shù)值)直接相關(guān)唤崭;而余弦相似度衡量的是空間向量的夾角,更加的是體現(xiàn)在方向上的差異脖律,而不是位置谢肾。如果保持A點的位置不變,B點朝原方向遠離坐標軸原點小泉,那么這個時候余弦相似度cosθ是保持不變的芦疏,因為夾角不變冕杠,而A、B兩點的距離顯然在發(fā)生改變酸茴,這就是歐氏距離和余弦相似度的不同之處分预。
根據(jù)歐氏距離和余弦相似度各自的計算方式和衡量特征,分別適用于不同的數(shù)據(jù)分析模型:歐氏距離能夠體現(xiàn)個體數(shù)值特征的絕對差異薪捍,所以更多的用于需要從維度的數(shù)值大小中體現(xiàn)差異的分析笼痹,如使用用戶行為指標分析用戶價值的相似度或差異;而余弦相似度更多的是從方向上區(qū)分差異酪穿,而對絕對的數(shù)值不敏感凳干,更多的用于使用用戶對內(nèi)容評分來區(qū)分用戶興趣的相似度和差異,同時修正了用戶間可能存在的度量標準不統(tǒng)一的問題被济。
在實際應(yīng)用中都是距離度量和相似度度量結(jié)合使用救赐,任何一個算法都是在特定場景下發(fā)揮到極致,脫離使用場景只磷,這些偉大的發(fā)明僅僅是個公式经磅。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市钮追,隨后出現(xiàn)的幾起案子预厌,更是在濱河造成了極大的恐慌,老刑警劉巖元媚,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件配乓,死亡現(xiàn)場離奇詭異,居然都是意外死亡惠毁,警方通過查閱死者的電腦和手機犹芹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來鞠绰,“玉大人腰埂,你說我怎么就攤上這事◎谂颍” “怎么了屿笼?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長翁巍。 經(jīng)常有香客問我驴一,道長,這世上最難降的妖魔是什么灶壶? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任肝断,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘胸懈。我一直安慰自己担扑,他們只是感情好,可當我...
    茶點故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布趣钱。 她就那樣靜靜地躺著涌献,像睡著了一般。 火紅的嫁衣襯著肌膚如雪首有。 梳的紋絲不亂的頭發(fā)上燕垃,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天,我揣著相機與錄音井联,去河邊找鬼卜壕。 笑死,一個胖子當著我的面吹牛低矮,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播被冒,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼军掂,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了昨悼?” 一聲冷哼從身側(cè)響起蝗锥,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎率触,沒想到半個月后终议,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡葱蝗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年穴张,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片两曼。...
    茶點故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡皂甘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出悼凑,到底是詐尸還是另有隱情偿枕,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布户辫,位于F島的核電站渐夸,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏渔欢。R本人自食惡果不足惜墓塌,卻給世界環(huán)境...
    茶點故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧桃纯,春花似錦酷誓、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至伞梯,卻和暖如春玫氢,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背谜诫。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工漾峡, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人喻旷。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓生逸,卻偏偏與公主長得像,于是被迫代替她去往敵國和親且预。 傳聞我的和親對象是個殘疾皇子槽袄,可洞房花燭夜當晚...
    茶點故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內(nèi)容