原文地址:http://happykai.cn/2018/06/07/MIT-PatternRecognition2/ ,簡(jiǎn)書(shū)沒(méi)有系統(tǒng)性的目錄之分撵幽,容易使知識(shí)變成一盤(pán)散沙,因此今后將逐步轉(zhuǎn)移至個(gè)人博客http://happykai.cn礁击,在個(gè)人博客中系統(tǒng)地搭建知識(shí)體系盐杂。
手機(jī)版不支持mathjax,所以公式亂碼客税,如果您使用手機(jī)閱讀况褪,請(qǐng)到個(gè)人博客。
主要是概率論更耻,如果你這部分基礎(chǔ)牢固测垛,可以跳過(guò)秧均,直接看理論部分食侮。
概率質(zhì)量函數(shù)
概率質(zhì)量函數(shù)(Probability Mass Function)是針對(duì)離散值而言的号涯,通常用大寫(xiě)字母P表示。假設(shè)某個(gè)事
件\omega_{1}發(fā)生的概率為P(\omega_{1}),某個(gè)事件\omega_{2}發(fā)生的概率為P(\omega_{2}),兩事件相互獨(dú)立锯七,則P(\omega_{1})+P(\omega_{2})=1链快。
概率密度函數(shù)
概率密度函數(shù)(Probability Desity Function)是針對(duì)連續(xù)值而言的,通常用小寫(xiě)字母p表示眉尸。概率密度函數(shù)的在正無(wú)窮到負(fù)無(wú)窮上到積分為1域蜗,在某一個(gè)區(qū)間中的概率用在該區(qū)間中的積分來(lái)表示。
用數(shù)學(xué)語(yǔ)言描述就是:
(1)p(\overrightarrow {x}) \geq 0, \forall\ \overrightarrow {x}\in R^n
(2)\int p(\overrightarrow {x})\ d\ \overrightarrow x=1
NOTE:
- \overrightarrow x是一個(gè)列向量
任何滿(mǎn)足以上兩個(gè)條件的函數(shù)都叫在n為歐幾里得空間(Euclidean Space)上的概率密度函數(shù)噪猾。
比如:
高斯密度函數(shù)(Gaussian Density Function or Density Function for Gaussian Distribution)
高斯密度函數(shù)的定義為:
p(\overrightarrow x)=\dfrac{1}{(\sqrt{2\pi})^n|\Sigma|^{1/2}}exp\left\{-\dfrac{1}{2}(\overrightarrow x-\overrightarrow \mu)^T\Sigma^{-1}(\overrightarrow x - \overrightarrow \mu)\right\}
NOTE:
可能發(fā)現(xiàn)上面那個(gè)公式和平時(shí)見(jiàn)的公式長(zhǎng)得不太一樣霉祸,其實(shí)它是從線(xiàn)性代數(shù)的角度寫(xiě)的。
公式中的|\Sigma|代表Determinant of sigma, 也就是\Sigma的行列式袱蜡,將nxn的矩陣映射成一個(gè)標(biāo)量(既然提到了行列式并且我也有些遺忘丝蹭,所以一會(huì)兒在文末附錄里整理一下它的概念)。\Sigma是什么呢坪蚁?它叫Variance-Covariance Matrix奔穿, 也叫Dispersion Matrix,是一個(gè)nxn的矩陣敏晤,它的逆\Sigma^{-1}也是一個(gè)nxn的矩陣贱田。(這里協(xié)方差矩陣和矩陣的逆還有矩陣的轉(zhuǎn)置,也要在附錄里溫習(xí))ok茵典,回歸正題湘换,這個(gè)determinant of sigma可能是0也可能是負(fù)數(shù),但是如果是負(fù)數(shù)统阿,1/2次方就會(huì)很難計(jì)算彩倚,因?yàn)樗鼤?huì)得到一個(gè)非常復(fù)雜的數(shù), 而我們的概率密度函數(shù)的第一個(gè)條件就是p(\overrightarrow x)\geq0扶平,所以determinant ofsigma必須大于0帆离, 因?yàn)榧词故堑扔?,1/0也無(wú)法計(jì)算结澄。
exp代表e的某次方哥谷。
\overrightarrow x:一個(gè)n維的向量
\overrightarrow \mu:均值向量,代表分布的均值麻献,也是一個(gè)n維的向量(mean vector同樣在附錄里溫習(xí))
因?yàn)?span id="ddwjp1x" class="math-inline">\overrightarrow x和\overrightarrow \mu都是n維的列向量们妥,所以(\overrightarrow x-\overrightarrow \mu)也是一個(gè)n維的列向量,即nx1的矩陣勉吻,所以(\overrightarrow x-\overrightarrow \mu)^T是一個(gè)n維的行向量监婶, 即1xn的矩陣
所以(\overrightarrow x-\overrightarrow \mu)^T\Sigma^{-1}(\overrightarrow x - \overrightarrow \mu)是一個(gè)標(biāo)量,所以這一項(xiàng)是e的任何大于等于0的次方。
看完這里惑惶,請(qǐng)跳到附錄煮盼,補(bǔ)充Variance-Covariance Matrix和Positive-Definite Matrix 的概念,至于行列式(Determinant)和矩陣的逆以及矩陣的轉(zhuǎn)置带污,看不看都行僵控。
先驗(yàn)概率
先驗(yàn)概率(Prior Probability)是指根據(jù)已有情況提前知道的概率,比如已知有一箱紅黑混合的小球鱼冀,其中紅色小球共有100顆报破,黑色小球共有200顆,則紅色小球的先驗(yàn)概率為P(red) = 1/3, 黑色小球的鮮艷概率為P(black) = 2/3雷绢。
條件概率
假設(shè)將上述紅黑混合的小球們放在兩個(gè)箱子中泛烙,即A箱放20個(gè)紅色小球,100個(gè)黑色小球翘紊,B箱放80個(gè)紅色小球,100個(gè)黑色小球藐唠,則從A中取到紅色小球的概率是多少帆疟?這就是條件概率。
P(red|A) = P(red \& A) / P(A) = (20 / 300) / (120 / 300) = 1/6
那么宇立,紅色里面來(lái)自A的概率是多少呢踪宠?
P(A|red) = P(A \& red) / P(red) = (20 / 300) / (100 / 300) = 1 / 5
附錄
Variance-Covariance Matrix
首先需要知道Variance和Covariance的定義。
Variance
假設(shè)有n個(gè)observations:x_1, x_2, x_3, ..., x_n \in R
它們的平均數(shù)\bar x等于:
\bar x=\dfrac {1}{n}\sum_{i=1}^{n}x_i
它們的方差Variance等于
Variance=\dfrac {1}{n}\sum_{i=1}^{n}(x_i-\bar x)^2
一些書(shū)也會(huì)寫(xiě)為:Variance=\dfrac {1}{n-1}\sum_{i=1}^{n}(x_i-\bar x)^2妈嘹,這實(shí)際上是unbias estimate for Variance of the population,與1/n在value上有些差別柳琢,這是統(tǒng)計(jì)學(xué)中比較復(fù)雜的一個(gè)概念。(老師沒(méi)有做詳細(xì)介紹润脸,說(shuō)可以課后去查柬脸,而我也不打算深入此概念,所以和老師一樣毙驯,variance就follow第一種寫(xiě)法倒堕。)
Covariance
為了闡釋協(xié)方差Covariance,我們需要兩個(gè)變量(x, y)爆价,假設(shè)x是身高垦巴,單位是cm,y是體重铭段,單位是kg骤宣。
假設(shè)有n個(gè)observations:
(x_1,y_1),(x_2, y_2), ..., (x_n, y_n)
你要做的是plot these points,這里我給出三個(gè)這樣的plots序愚,灰色區(qū)域是一些列點(diǎn):
圖(1)中憔披,x增長(zhǎng),y隨x也增長(zhǎng)展运,所以我們用一些大于0的數(shù)(quantity)來(lái)代表這個(gè)關(guān)系活逆;
圖(2)中精刷,x增長(zhǎng),y隨x減小蔗候,我們用一些小于0的數(shù)(quantity)來(lái)代表這個(gè)關(guān)系怒允;
圖(3)中,x增長(zhǎng)锈遥,y在某一個(gè)范圍內(nèi)波動(dòng)纫事,所以我們用一些非常接近0的數(shù)(quantity)來(lái)代表這個(gè)關(guān)系。
那么這個(gè)數(shù)(quantity)到底是什么呢所灸?
對(duì)于所有的x和y丽惶,我們找到它們的均值,然后將其作為新坐標(biāo)軸的原點(diǎn):
那么所有點(diǎn)的x爬立,y值都會(huì)變化钾唬,把這些新的值乘起來(lái)求均值,會(huì)得到什么呢侠驯?
比如圖(1)抡秆,新坐標(biāo)系第一象限的x,y都大于0吟策,乘積也會(huì)大于0儒士,第三象限x,y都小于0檩坚,乘積也會(huì)大于0着撩,第二和第四象限乘積會(huì)小于0,但是一三象限的點(diǎn)數(shù)量明顯大于二四象限的點(diǎn)匾委,所以我們計(jì)算
\dfrac{1}{n}\sum_{i=1}^n(x_i - \bar x)(y_i - \bar y)
會(huì)得到一個(gè)大于0的值拖叙。
同理圖(2)會(huì)得到一個(gè)小于0的值,圖(3)會(huì)得到一個(gè)約等于0的值剩檀。
這就是x和y的協(xié)方差Covariance
Cov(x,y)=\dfrac{1}{n}\sum_{i=1}^n(x_i - \bar x)(y_i - \bar y)
可以看出憋沿,Cov(x,x)就是variance。
Variance-Covariance Matrix
在模式識(shí)別中沪猴,我們把這一系列變量稱(chēng)作features辐啄,如果兩兩組合,會(huì)得到多少對(duì)呢运嗜?n^2對(duì)壶辜。
如果n個(gè)features是
x_1, x_2, x_3, \dots,x_n
則這n個(gè)features的Variance-Covariance matrix為:
\Sigma=\begin{bmatrix} {Cov(x_1,x_1)}&{Cov(x_1, x_2)}&{\cdots}&{Cov(x_1, x_n)}\\ {Cov(x_2,x_1)}&{Cov(x_2,x_2)}&{\cdots}&{Cov(x_2,x_n)}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {Cov(x_n,x_1)}&{Cov(x_n,x_2)}&{\cdots}&{Cov(x_n,x_n)}\\ \end{bmatrix}
這是一個(gè)對(duì)稱(chēng)矩陣symmetric matrix,也是一個(gè)正定矩陣Positive-definite matrix担租,什么是正定矩陣呢砸民,往下看。
Positive-definit matrix
大家應(yīng)該都知道“歐幾里得”距離是什么吧,假設(shè)我們有一個(gè)列向量\overrightarrow x=[x_1, x_2, \dots,x_n]和一個(gè)列向量\overrightarrow y=[y_1, y_2, \dots, y_3],則x和y的歐幾里得距離為d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}岭参。
現(xiàn)在假設(shè)x代表第一個(gè)人的feature反惕,y代表第二個(gè)人的feature,每個(gè)列向量只有兩列演侯,分別代表身高和體重姿染。
x的身高和體重分別為160cm和70kg,y的身高和體重分別為158cm和73kg秒际,現(xiàn)在想衡量x和y的距離悬赏,如果用上面的歐式距離,就會(huì)有些問(wèn)題娄徊,為什么這么說(shuō)呢闽颇?
d(\overrightarrow x, \overrightarrow y)=\sqrt{(160-158)^2+(70-73)^2}=\sqrt{13}
如果同樣是這兩個(gè)人,把身高的單位換成mm寄锐,同樣的方式計(jì)算x和有的距離:
d(\overrightarrow x, \overrightarrow y)=\sqrt{(1600-1580)^2+(70-73)^2}=\sqrt{409}
這是我們不期望得到的結(jié)果兵多,相同的兩個(gè)人,衡量他們的距離锐峭,應(yīng)該無(wú)論如何都始終一樣中鼠,而非僅僅換了單位就出現(xiàn)不同的結(jié)果。
所以歐式距離往往是not useful的沿癞。
現(xiàn)在讓我們移除公式的根號(hào):
d^2(\overrightarrow x, \overrightarrow y)=(x_1-y_1, x_2-y_2)\left(\begin{array}{cccc} 1 & 0 \\ 0 & 1\\ \end{array}\right) \left(\begin{array}{cccc} x_1-y_1 \\ x_2-y_2 \\ \end{array}\right)
這種寫(xiě)法與d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^2(x_i-y_i)^2}是等價(jià)的,一個(gè)矩陣與單位矩陣(identity matrix)相乘是不變的矛渴。
現(xiàn)在我們對(duì)中間對(duì)單位矩陣做一些泛化椎扬,把它改成\left(\begin{array}{cccc} w_1 & 0 \\ 0 & w_2\\ \end{array}\right),則相應(yīng)的距離公式變?yōu)?span id="7pqklnd" class="math-inline">d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^2w_i(x_i-y_i)^2}具温,這里的w_i取決于單位蚕涤,這樣就能解決我們的問(wèn)題:當(dāng)單位發(fā)生改變時(shí),相同的兩個(gè)人距離不發(fā)生改變铣猩。這種定義下揖铜,如果w_1和w_2嚴(yán)格大于等于0,那么最后的距離就是大于或者等于0的
你還可以繼續(xù)泛化达皿,把單位矩陣改成\left(\begin{array}{cccc} w_{11} & w_{12} \\ w_{21} & w_{22} \\ \end{array}\right)天吓,在這種定義下,w的值該取多少距離才會(huì)大于0呢峦椰?
滿(mǎn)足這樣的w有很多龄寞,比如隨便舉個(gè)例子:
(x_1-y_1, x_2-y_2)\left(\begin{array}{cccc} 2 & -1 \\ -1 & 2 \\ \end{array}\right)\left(\begin{array}{cccc} x_1-y_1 \\ x_2-y_2\\ \end{array}\right) > 0, \ if(x_1 \neq y_1)\ or\ (x_2 \neq y_2)
這樣我們的Positive-definite matrix就有了定義:
A_{n*n} is said to be POSITIVE DEFINITE if a^TAa > 0, \ \forall a \neq \left(\begin{array}{cccc} 0 \\ 0 \\ 0 \\ . \\ . \\ . \\ 0 \end{array}\right)_{n*1}
如果:
a^TAa \geq 0, \ \forall a. A_{n*n} is said to be POSITIVE SEMI DEFINITE, in some books, this is also written as NON NEGATIVE DEFINITE.
在線(xiàn)性代數(shù)中,很容易找到positive-definite matrix的定義汤功,那么我們?yōu)槭裁葱枰粋€(gè)這樣的矩陣呢物邑?從上面那個(gè)“距離”的角度來(lái)說(shuō),我們需要這樣的矩陣是因?yàn)槲覀円_保距離是大于等于0的,如果x和y是完全一樣的色解,我們希望其距離為0茂嗓,否則我們希望一個(gè)大于0的數(shù)來(lái)表示不同程度,因此我們把距離公式寫(xiě)成a^TAa的矩陣形式科阎。
Variance-Covariance matrix 可以被證明是NON-NEGATIVE DEFINITE的述吸,實(shí)際上通常是POSITIVE-DEFINITE的,在正態(tài)分布(高斯密度函數(shù))下萧恕,我們認(rèn)為Variance-Covariance matrix 是POSITIVE-DEFINITE的刚梭,這就是我們?yōu)槭裁磿?huì)在高斯密度函數(shù)的分母上把它寫(xiě)成|\Sigma|^{1/2}的原因。如果Variance-Covariance matrix是non-negative definite的票唆,就會(huì)有一些properties朴读,比如矩陣的行列式是它的特征值(the determinant of matrix is product of its eigenvalues),所有的特征值都是大于等于0的走趋,如果variance-covariance matrix是positive-definite的衅金,那么所有eigenvalues都是嚴(yán)格大于0的,所以可以把它做分母簿煌。
Determinant
在線(xiàn)性代數(shù)里氮唯,Determinant是一個(gè)可以從方形矩陣中計(jì)算出來(lái)的值。矩陣的Determinant記做det(A)\ or \ detA \ or \ |A|姨伟。在幾何學(xué)里惩琉,它被視作描述矩陣線(xiàn)性變換的scaling factor。
2x2的矩陣行列式計(jì)算方法為:
|A|=\left|\begin{array}{cccc} a & b \\ c & d \\ \end{array}\right|=ad - bc
更高階的計(jì)算方法到參考文獻(xiàn)的鏈接查看吧夺荒,mathjax不好寫(xiě)了瞒渠。
Matrix inverse
在線(xiàn)性代數(shù)中,如果一個(gè)nxn的方陣A存在一個(gè)nxn的方陣B使其滿(mǎn)足
AB=BA=I_n
則稱(chēng)A為可逆矩陣技扼,B是A的逆伍玖。I_n是nxn的Identity Matrix,也被含糊地稱(chēng)為Unit Matrix剿吻,單位矩陣窍箍,對(duì)角線(xiàn)是1,其余是0丽旅。
Transpose of Matrix
在線(xiàn)性代數(shù)里椰棘,矩陣的轉(zhuǎn)置就是行列元素的索引對(duì)調(diào),記做A^T:
[A^T]_{ij}=[A]_{ji}