一、歐氏距離(Euclidean Distance)
? ?? ? 歐氏距離是最易于理解的一種距離計算方法封豪,源自歐氏空間中兩點間的距離公式抖剿。
(1)二維平面上兩點a(x1,y1)與b(x2,y2)間的歐氏距離:
(2)三維空間兩點a(x1,y1,z1)與b(x2,y2,z2)間的歐氏距離:
(3)兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的歐氏距離:
(4)也可以用表示成向量運算的形式:
二朽寞、曼哈頓距離(Manhattan Distance)
? ?? ? 從名字就可以猜出這種距離的計算方法了。想象你在曼哈頓要從一個十字路口開車到另外一個十字路口斩郎,駕駛距離是兩點間的直線距離嗎脑融?顯然不是,除非你能穿越大樓缩宜。實際駕駛距離就是這個“曼哈頓距離”肘迎。而這也是曼哈頓距離名稱的來源, 曼哈頓距離也稱為城市街區(qū)距離(City Block distance)锻煌。
(1)二維平面兩點a(x1,y1)與b(x2,y2)間的曼哈頓距離
(2)兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的曼哈頓距離
三妓布、切比雪夫距離?( Chebyshev Distance )
國際象棋玩過么?國王走一步能夠移動到相鄰的8個方格中的任意一個宋梧。那么國王從格子(x1,y1)走到格子(x2,y2)最少需要多少步匣沼?自己走走試試。你會發(fā)現(xiàn)最少步數(shù)總是max( | x2-x1 | , | y2-y1 | ) 步 捂龄。有一種類似的一種距離度量方法叫切比雪夫距離释涛。
(1)二維平面兩點a(x1,y1)與b(x2,y2)間的切比雪夫距離
(2)兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的切比雪夫距離
這個公式的另一種等價形式是
看不出兩個公式是等價的?提示一下:試試用放縮法和夾逼法則來證明倦沧。
四唇撬、閔可夫斯基距離(Minkowski Distance)
閔氏距離不是一種距離,而是一組距離的定義展融。
(1) 閔氏距離的定義
兩個n維變量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的閔可夫斯基距離定義為:
也可寫成
其中p是一個變參數(shù)窖认。
當p=1時,就是曼哈頓距離
當p=2時告希,就是歐氏距離
當p→∞時扑浸,就是切比雪夫距離
根據(jù)變參數(shù)的不同,閔氏距離可以表示一類的距離暂雹。
(2)閔氏距離的缺點
閔氏距離首装,包括曼哈頓距離、歐氏距離和切比雪夫距離都存在明顯的缺點杭跪。
舉個例子:二維樣本(身高,體重)仙逻,其中身高范圍是150~190驰吓,體重范圍是50~60,有三個樣本:a(180,50)系奉,b(190,50)檬贰,c(180,60)。那么a與b之間的閔氏距離(無論是曼哈頓距離缺亮、歐氏距離或切比雪夫距離)等于a與c之間的閔氏距離驱敲,但是身高的10cm真的等價于體重的10kg么逛球?因此用閔氏距離來衡量這些樣本間的相似度很有問題。
簡單說來,閔氏距離的缺點主要有兩個:(1)將各個分量的量綱(scale)颂龙,也就是“單位”當作相同的看待了争便。(2)沒有考慮各個分量的分布(期望苇倡,方差等)可能是不同的捌蚊。
五、標準化歐氏距離?(Standardized Euclidean distance )
(1)標準歐氏距離的定義
標準化歐氏距離是針對簡單歐氏距離的缺點而作的一種改進方案园担。標準歐氏距離的思路:既然數(shù)據(jù)各維分量的分布不一樣届谈,好吧!那我先將各個分量都“標準化”到均值弯汰、方差相等吧艰山。均值和方差標準化到多少呢?這里先復習點統(tǒng)計學知識吧咏闪,假設樣本集X的均值(mean)為m曙搬,標準差(standard deviation)為s,那么X的“標準化變量”表示為:
標準化后的值 =??( 標準化前的值??- 分量的均值 ) /分量的標準差
經(jīng)過簡單的推導就可以得到兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的標準化歐氏距離的公式:
如果將方差的倒數(shù)看成是一個權重汤踏,這個公式可以看成是一種加權歐氏距離(Weighted Euclidean distance)织鲸。
六、馬氏距離(Mahalanobis Distance)
(1)馬氏距離定義
? ?? ? 有M個樣本向量X1~Xm溪胶,協(xié)方差矩陣記為S,均值記為向量μ稳诚,則其中樣本向量X到u的馬氏距離表示為:
? ?? ? 而其中向量Xi與Xj之間的馬氏距離定義為:
? ?? ? 若協(xié)方差矩陣是單位矩陣(各個樣本向量之間獨立同分布),則公式就成了:
? ?? ? 也就是歐氏距離了哗脖。
若協(xié)方差矩陣是對角矩陣,公式變成了標準化歐氏距離扳还。
馬氏優(yōu)缺點:
1)馬氏距離的計算是建立在總體樣本的基礎上的才避,這一點可以從上述協(xié)方差矩陣的解釋中可以得出,也就是說氨距,如果拿同樣的兩個樣本桑逝,放入兩個不同的總體中,最后計算得出的兩個樣本間的馬氏距離通常是不相同的俏让,除非這兩個總體的協(xié)方差矩陣碰巧相同楞遏;
2)在計算馬氏距離過程中茬暇,要求總體樣本數(shù)大于樣本的維數(shù),否則得到的總體樣本協(xié)方差矩陣逆矩陣不存在寡喝,這種情況下糙俗,用歐式距離計算即可。
3)還有一種情況预鬓,滿足了條件總體樣本數(shù)大于樣本的維數(shù)巧骚,但是協(xié)方差矩陣的逆矩陣仍然不存在,比如三個樣本點(3格二,4)劈彪,(5,6)和(7顶猜,8)沧奴,這種情況是因為這三個樣本在其所處的二維空間平面內(nèi)共線。這種情況下驶兜,也采用歐式距離計算扼仲。
4)在實際應用中“總體樣本數(shù)大于樣本的維數(shù)”這個條件是很容易滿足的,而所有樣本點出現(xiàn)3)中所描述的情況是很少出現(xiàn)的抄淑,所以在絕大多數(shù)情況下屠凶,馬氏距離是可以順利計算的,但是馬氏距離的計算是不穩(wěn)定的肆资,不穩(wěn)定的來源是協(xié)方差矩陣矗愧,這也是馬氏距離與歐式距離的最大差異之處。
優(yōu)點:它不受量綱的影響郑原,兩點之間的馬氏距離與原始數(shù)據(jù)的測量單位無關唉韭;由標準化數(shù)據(jù)和中心化數(shù)據(jù)(即原始數(shù)據(jù)與均值之差)計算出的二點之間的馬氏距離相同。馬氏距離還可以排除變量之間的相關性的干擾犯犁。缺點:它的缺點是夸大了變化微小的變量的作用属愤。
七、夾角余弦(Cosine)
也可以叫余弦相似度酸役。 幾何中夾角余弦可用來衡量兩個向量方向的差異住诸,機器學習中借用這一概念來衡量樣本向量之間的差異。
(1)在二維空間中向量A(x1,y1)與向量B(x2,y2)的夾角余弦公式:
(2) 兩個n維樣本點a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夾角余弦
類似的涣澡,對于兩個n維樣本點a(x11,x12,…,x1n)和b(x21,x22,…,x2n)贱呐,可以使用類似于夾角余弦的概念來衡量它們間的相似程度。
即:
余弦取值范圍為[-1,1]入桂。求得兩個向量的夾角奄薇,并得出夾角對應的余弦值,此余弦值就可以用來表征這兩個向量的相似性抗愁。夾角越小馁蒂,趨近于0度呵晚,余弦值越接近于1,它們的方向更加吻合远搪,則越相似劣纲。當兩個向量的方向完全相反夾角余弦取最小值-1。當余弦值為0時谁鳍,兩向量正交癞季,夾角為90度。因此可以看出倘潜,余弦相似度與向量的幅值無關绷柒,只與向量的方向相關。
八涮因、皮爾遜相關系數(shù)(Pearson correlation)
(1)皮爾遜相關系數(shù)的定義
前面提到的余弦相似度只與向量方向有關废睦,但它會受到向量的平移影響,在夾角余弦公式中如果將 x 平移到 x+1, 余弦值就會改變养泡。怎樣才能實現(xiàn)平移不變性嗜湃?這就要用到皮爾遜相關系數(shù)(Pearson correlation),有時候也直接叫相關系數(shù)澜掩。
如果將夾角余弦公式寫成:
表示向量x和向量y之間的夾角余弦购披,則皮爾遜相關系數(shù)則可表示為:
皮爾遜相關系數(shù)具有平移不變性和尺度不變性,計算出了兩個向量(維度)的相關性肩榕。
相關系數(shù)是衡量隨機變量X與Y相關程度的一種方法刚陡,相關系數(shù)的取值范圍是[-1,1]。相關系數(shù)的絕對值越大株汉,則表明X與Y相關度越高筐乳。當X與Y線性相關時,相關系數(shù)取值為1(正線性相關)或-1(負線性相關)乔妈。
九蝙云、漢明距離(Hamming distance)
(1)漢明距離的定義
? ?? ? 兩個等長字符串s1與s2之間的漢明距離定義為將其中一個變?yōu)榱硗庖粋€所需要作的最小替換次數(shù)。例如字符串“1111”與“1001”之間的漢明距離為2路召。
? ?? ? 應用:信息編碼(為了增強容錯性贮懈,應使得編碼間的最小漢明距離盡可能大)。
十优训、杰卡德相似系數(shù)(Jaccard similarity coefficient)
(1) 杰卡德相似系數(shù)
? ?? ? 兩個集合A和B的交集元素在A,B的并集中所占的比例各聘,稱為兩個集合的杰卡德相似系數(shù)揣非,用符號J(A,B)表示。
杰卡德相似系數(shù)是衡量兩個集合的相似度一種指標躲因。
(2) 杰卡德距離
? ?? ? 與杰卡德相似系數(shù)相反的概念是杰卡德距離(Jaccard distance)早敬。杰卡德距離可用如下公式表示:
杰卡德距離用兩個集合中不同元素占所有元素的比例來衡量兩個集合的區(qū)分度忌傻。
(3) 杰卡德相似系數(shù)與杰卡德距離的應用
? ?? ? 可將杰卡德相似系數(shù)用在衡量樣本的相似度上。
樣本A與樣本B是兩個n維向量搞监,而且所有維度的取值都是0或1水孩。例如:A(0111)和B(1011)。我們將樣本看成是一個集合琐驴,1表示集合包含該元素俘种,0表示集合不包含該元素。
十一绝淡、布雷柯蒂斯距離(Bray Curtis Distance)
Bray Curtis距離主要用于生態(tài)學和環(huán)境科學宙刘,計算坐標之間的距離。該距離取值在[0,1]之間牢酵。它也可以用來計算樣本之間的差異悬包。
樣本數(shù)據(jù):
計算:
十二、卡方檢驗
統(tǒng)計學上的χ2統(tǒng)計量馍乙,由于它最初是由英國統(tǒng)計學家Karl Pearson在1900年首次提出的布近,因此也稱之為Pearsonχ2,其計算公式為
(i=1丝格,2撑瞧,3,…铁追,k)
其中季蚂,Ai為i水平的觀察頻數(shù),Ei為i水平的期望頻數(shù)琅束,n為總頻數(shù)扭屁,pi為i水平的期望頻率。i水平的期望頻數(shù)Ei等于總頻數(shù)n×i水平的期望概率pi涩禀。當n比較大時料滥,χ2統(tǒng)計量近似服從k-1(計算Ei時用到的參數(shù)個數(shù))個自由度的卡方分布。
卡方檢驗經(jīng)常用來檢驗某一種觀測分布是不是符合某一類典型的理論分布(如二項分布艾船,正態(tài)分布等)葵腹。觀察頻數(shù)與期望頻數(shù)越接近,兩者之間的差異越小屿岂,χ2值越屑纭;如果兩個分布完全一致爷怀,χ2值為0阻肩;反之,觀察頻數(shù)與期望頻數(shù)差別越大运授,兩者之間的差異越大烤惊,χ2值越大乔煞。換言之,大的χ2值表明觀察頻數(shù)遠離期望頻數(shù)柒室,即表明遠離假設渡贾。小的χ2值表明觀察頻數(shù)接近期望頻數(shù),接近假設雄右。因此空骚,χ2是觀察頻數(shù)與期望頻數(shù)之間距離的一種度量指標,也是假設成立與否的度量指標府怯。如果χ2值“小”防楷,研究者就傾向于不拒絕H0;如果χ2值大复局,就傾向于拒絕H0冲簿。至于χ2在每個具體研究中究竟要大到什么程度才能拒絕H0亿昏,則要借助于卡方分布求出所對應的P值來確定(通常取p=0.05)。
十三角钩、交叉熵
通常吝沫,一個信源發(fā)送出什么符號是不確定的,衡量它的不確定性可以根據(jù)其出現(xiàn)的概率來度量递礼。概率大,出現(xiàn)機會多辫愉,不確定性薪酢;反之就大依疼。
不確定性函數(shù)f必須滿足兩個條件:
?? 1)是概率P的單調(diào)遞降函數(shù);
2)兩個獨立符號所產(chǎn)生的不確定性應等于各自不確定性之和诽嘉,即f(P1,P2)=f(P1)+f(P2),這稱為可加性稀余。
同時滿足這兩個條件的函數(shù)f是對數(shù)函數(shù)睛琳,即
在信源中,考慮的不是某一單個符號發(fā)生的不確定性师骗,而是要考慮這個信源所有可能發(fā)生情況的平均不確定性辟癌。若信源符號有n種取值:U1…Ui…Un,對應概率為:P1…Pi…Pn寡夹,且各種符號的出現(xiàn)彼此獨立厂置。這時,信源的平均不確定性應當為單個符號不確定性-logPi的統(tǒng)計平均值(E)昵济,可稱為信息熵访忿,即
假設現(xiàn)在有一個樣本集中兩個概率分布p,q,其中p為真實分布醉顽,q為非真實分布。假如系草,按照真實分布p來衡量識別一個樣本所需要的編碼長度的期望為:
H(p)=
但是唆涝,如果采用錯誤的分布q來表示來自真實分布p的平均編碼長度,則應該是:
H(p,q)=
?我們稱H(p)為信息熵能耻,稱H(p,q)為交叉熵。
交叉熵在CNN分類中經(jīng)常用到晓猛,用來作為預測值和真實標簽值的距離度量。經(jīng)過卷積操作后栗恩,最后一層出來的特征經(jīng)過softmax函數(shù)后會變成一個概率向量洪燥,我們可以看作為是概率分布q, 而真實標簽我們可以看作是概率分布p, 因此真實分布p和預測分布q的交叉熵就是我們要求的loss損失值,即
十四市咆、相對熵(relative entropy)
又稱為KL散度(Kullback–Leibler divergence再来,簡稱KLD),信息散度(information divergence)癞己,信息增益(information gain)梭伐。
相對熵是交叉熵與信息熵的差值。即
相對熵=交叉熵-信息熵?
KL(p||q)=H(p,q)-H(p)
表示用分布q模擬真實分布p相比用p模擬p绩社,所需的額外信息赂苗。
相對熵(KL散度)有兩個主要的性質拌滋。如下
(1)盡管 KL 散度從直觀上是個度量或距離函數(shù),但它并不是一個真正的度量或者距離赌渣,因為它不具有對稱性昌犹,即
(2)相對熵具有非負性
總結一下:
信息熵公式:
交叉熵公式:
相對熵公式:
三者的關系:
十五鸿竖、js散度(Jensen-Shannon)
因為kl散度不具對稱性缚忧,因此js散度在kl散度的基礎上進行了改進:
現(xiàn)有兩個分布p1和p2,其JS散度公式為: