貝葉斯決策理論(數(shù)學(xué)部分)

原文地址:http://happykai.cn/2018/06/07/MIT-PatternRecognition2/ ,簡(jiǎn)書(shū)沒(méi)有系統(tǒng)性的目錄之分撵幽,容易使知識(shí)變成一盤(pán)散沙,因此今后將逐步轉(zhuǎn)移至個(gè)人博客http://happykai.cn礁击,在個(gè)人博客中系統(tǒng)地搭建知識(shí)體系盐杂。
手機(jī)版不支持mathjax,所以公式亂碼客税,如果您使用手機(jī)閱讀况褪,請(qǐng)到個(gè)人博客。

主要是概率論更耻,如果你這部分基礎(chǔ)牢固测垛,可以跳過(guò)秧均,直接看理論部分食侮。

概率質(zhì)量函數(shù)

概率質(zhì)量函數(shù)(Probability Mass Function)是針對(duì)離散值而言的号涯,通常用大寫(xiě)字母P表示。假設(shè)某個(gè)事

\omega_{1}發(fā)生的概率為P(\omega_{1}),某個(gè)事件\omega_{2}發(fā)生的概率為P(\omega_{2}),兩事件相互獨(dú)立锯七,則P(\omega_{1})+P(\omega_{2})=1链快。

概率密度函數(shù)

概率密度函數(shù)(Probability Desity Function)是針對(duì)連續(xù)值而言的,通常用小寫(xiě)字母p表示眉尸。概率密度函數(shù)的在正無(wú)窮到負(fù)無(wú)窮上到積分為1域蜗,在某一個(gè)區(qū)間中的概率用在該區(qū)間中的積分來(lái)表示。

用數(shù)學(xué)語(yǔ)言描述就是:

(1)p(\overrightarrow {x}) \geq 0, \forall\ \overrightarrow {x}\in R^n
(2)\int p(\overrightarrow {x})\ d\ \overrightarrow x=1

NOTE

  • \overrightarrow x是一個(gè)列向量

任何滿(mǎn)足以上兩個(gè)條件的函數(shù)都叫在n為歐幾里得空間(Euclidean Space)上的概率密度函數(shù)噪猾。

比如:

高斯密度函數(shù)(Gaussian Density Function or Density Function for Gaussian Distribution)

高斯密度函數(shù)的定義為:

p(\overrightarrow x)=\dfrac{1}{(\sqrt{2\pi})^n|\Sigma|^{1/2}}exp\left\{-\dfrac{1}{2}(\overrightarrow x-\overrightarrow \mu)^T\Sigma^{-1}(\overrightarrow x - \overrightarrow \mu)\right\}
NOTE:

  • 可能發(fā)現(xiàn)上面那個(gè)公式和平時(shí)見(jiàn)的公式長(zhǎng)得不太一樣霉祸,其實(shí)它是從線(xiàn)性代數(shù)的角度寫(xiě)的。

  • 公式中的|\Sigma|代表Determinant of sigma, 也就是\Sigma的行列式袱蜡,將nxn的矩陣映射成一個(gè)標(biāo)量(既然提到了行列式并且我也有些遺忘丝蹭,所以一會(huì)兒在文末附錄里整理一下它的概念)。\Sigma是什么呢坪蚁?它叫Variance-Covariance Matrix奔穿, 也叫Dispersion Matrix,是一個(gè)nxn的矩陣敏晤,它的逆\Sigma^{-1}也是一個(gè)nxn的矩陣贱田。(這里協(xié)方差矩陣和矩陣的逆還有矩陣的轉(zhuǎn)置,也要在附錄里溫習(xí))ok茵典,回歸正題湘换,這個(gè)determinant of sigma可能是0也可能是負(fù)數(shù),但是如果是負(fù)數(shù)统阿,1/2次方就會(huì)很難計(jì)算彩倚,因?yàn)樗鼤?huì)得到一個(gè)非常復(fù)雜的數(shù), 而我們的概率密度函數(shù)的第一個(gè)條件就是p(\overrightarrow x)\geq0扶平,所以determinant ofsigma必須大于0帆离, 因?yàn)榧词故堑扔?,1/0也無(wú)法計(jì)算结澄。

  • exp代表e的某次方哥谷。

  • \overrightarrow x:一個(gè)n維的向量

  • \overrightarrow \mu:均值向量,代表分布的均值麻献,也是一個(gè)n維的向量(mean vector同樣在附錄里溫習(xí))

  • 因?yàn)?span id="ddwjp1x" class="math-inline">\overrightarrow x和\overrightarrow \mu都是n維的列向量们妥,所以(\overrightarrow x-\overrightarrow \mu)也是一個(gè)n維的列向量,即nx1的矩陣勉吻,所以(\overrightarrow x-\overrightarrow \mu)^T是一個(gè)n維的行向量监婶, 即1xn的矩陣

  • 所以(\overrightarrow x-\overrightarrow \mu)^T\Sigma^{-1}(\overrightarrow x - \overrightarrow \mu)是一個(gè)標(biāo)量,所以這一項(xiàng)是e的任何大于等于0的次方。

看完這里惑惶,請(qǐng)跳到附錄煮盼,補(bǔ)充Variance-Covariance Matrix和Positive-Definite Matrix 的概念,至于行列式(Determinant)和矩陣的逆以及矩陣的轉(zhuǎn)置带污,看不看都行僵控。

先驗(yàn)概率

先驗(yàn)概率(Prior Probability)是指根據(jù)已有情況提前知道的概率,比如已知有一箱紅黑混合的小球鱼冀,其中紅色小球共有100顆报破,黑色小球共有200顆,則紅色小球的先驗(yàn)概率為P(red) = 1/3, 黑色小球的鮮艷概率為P(black) = 2/3雷绢。

條件概率

假設(shè)將上述紅黑混合的小球們放在兩個(gè)箱子中泛烙,即A箱放20個(gè)紅色小球,100個(gè)黑色小球翘紊,B箱放80個(gè)紅色小球,100個(gè)黑色小球藐唠,則從A中取到紅色小球的概率是多少帆疟?這就是條件概率。

P(red|A) = P(red \& A) / P(A) = (20 / 300) / (120 / 300) = 1/6

那么宇立,紅色里面來(lái)自A的概率是多少呢踪宠?

P(A|red) = P(A \& red) / P(red) = (20 / 300) / (100 / 300) = 1 / 5

附錄

Variance-Covariance Matrix

首先需要知道Variance和Covariance的定義。

Variance

假設(shè)有n個(gè)observations:x_1, x_2, x_3, ..., x_n \in R

它們的平均數(shù)\bar x等于:
\bar x=\dfrac {1}{n}\sum_{i=1}^{n}x_i
它們的方差Variance等于
Variance=\dfrac {1}{n}\sum_{i=1}^{n}(x_i-\bar x)^2

一些書(shū)也會(huì)寫(xiě)為:Variance=\dfrac {1}{n-1}\sum_{i=1}^{n}(x_i-\bar x)^2妈嘹,這實(shí)際上是unbias estimate for Variance of the population,與1/n在value上有些差別柳琢,這是統(tǒng)計(jì)學(xué)中比較復(fù)雜的一個(gè)概念。(老師沒(méi)有做詳細(xì)介紹润脸,說(shuō)可以課后去查柬脸,而我也不打算深入此概念,所以和老師一樣毙驯,variance就follow第一種寫(xiě)法倒堕。)

Covariance

為了闡釋協(xié)方差Covariance,我們需要兩個(gè)變量(x, y)爆价,假設(shè)x是身高垦巴,單位是cm,y是體重铭段,單位是kg骤宣。
假設(shè)有n個(gè)observations:
(x_1,y_1),(x_2, y_2), ..., (x_n, y_n)
你要做的是plot these points,這里我給出三個(gè)這樣的plots序愚,灰色區(qū)域是一些列點(diǎn):

plot the points

圖(1)中憔披,x增長(zhǎng),y隨x也增長(zhǎng)展运,所以我們用一些大于0的數(shù)(quantity)來(lái)代表這個(gè)關(guān)系活逆;
圖(2)中精刷,x增長(zhǎng),y隨x減小蔗候,我們用一些小于0的數(shù)(quantity)來(lái)代表這個(gè)關(guān)系怒允;
圖(3)中,x增長(zhǎng)锈遥,y在某一個(gè)范圍內(nèi)波動(dòng)纫事,所以我們用一些非常接近0的數(shù)(quantity)來(lái)代表這個(gè)關(guān)系。

那么這個(gè)數(shù)(quantity)到底是什么呢所灸?

對(duì)于所有的x和y丽惶,我們找到它們的均值,然后將其作為新坐標(biāo)軸的原點(diǎn):


new axis

那么所有點(diǎn)的x爬立,y值都會(huì)變化钾唬,把這些新的值乘起來(lái)求均值,會(huì)得到什么呢侠驯?

比如圖(1)抡秆,新坐標(biāo)系第一象限的x,y都大于0吟策,乘積也會(huì)大于0儒士,第三象限x,y都小于0檩坚,乘積也會(huì)大于0着撩,第二和第四象限乘積會(huì)小于0,但是一三象限的點(diǎn)數(shù)量明顯大于二四象限的點(diǎn)匾委,所以我們計(jì)算
\dfrac{1}{n}\sum_{i=1}^n(x_i - \bar x)(y_i - \bar y)
會(huì)得到一個(gè)大于0的值拖叙。

同理圖(2)會(huì)得到一個(gè)小于0的值,圖(3)會(huì)得到一個(gè)約等于0的值剩檀。

這就是x和y的協(xié)方差Covariance
Cov(x,y)=\dfrac{1}{n}\sum_{i=1}^n(x_i - \bar x)(y_i - \bar y)
可以看出憋沿,Cov(x,x)就是variance。

Variance-Covariance Matrix

在模式識(shí)別中沪猴,我們把這一系列變量稱(chēng)作features辐啄,如果兩兩組合,會(huì)得到多少對(duì)呢运嗜?n^2對(duì)壶辜。
如果n個(gè)features是
x_1, x_2, x_3, \dots,x_n
則這n個(gè)features的Variance-Covariance matrix為:
\Sigma=\begin{bmatrix} {Cov(x_1,x_1)}&{Cov(x_1, x_2)}&{\cdots}&{Cov(x_1, x_n)}\\ {Cov(x_2,x_1)}&{Cov(x_2,x_2)}&{\cdots}&{Cov(x_2,x_n)}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {Cov(x_n,x_1)}&{Cov(x_n,x_2)}&{\cdots}&{Cov(x_n,x_n)}\\ \end{bmatrix}
這是一個(gè)對(duì)稱(chēng)矩陣symmetric matrix,也是一個(gè)正定矩陣Positive-definite matrix担租,什么是正定矩陣呢砸民,往下看。

Positive-definit matrix

大家應(yīng)該都知道“歐幾里得”距離是什么吧,假設(shè)我們有一個(gè)列向量\overrightarrow x=[x_1, x_2, \dots,x_n]和一個(gè)列向量\overrightarrow y=[y_1, y_2, \dots, y_3],則x和y的歐幾里得距離為d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}岭参。

現(xiàn)在假設(shè)x代表第一個(gè)人的feature反惕,y代表第二個(gè)人的feature,每個(gè)列向量只有兩列演侯,分別代表身高和體重姿染。

x的身高和體重分別為160cm和70kg,y的身高和體重分別為158cm和73kg秒际,現(xiàn)在想衡量x和y的距離悬赏,如果用上面的歐式距離,就會(huì)有些問(wèn)題娄徊,為什么這么說(shuō)呢闽颇?

d(\overrightarrow x, \overrightarrow y)=\sqrt{(160-158)^2+(70-73)^2}=\sqrt{13}

如果同樣是這兩個(gè)人,把身高的單位換成mm寄锐,同樣的方式計(jì)算x和有的距離:
d(\overrightarrow x, \overrightarrow y)=\sqrt{(1600-1580)^2+(70-73)^2}=\sqrt{409}
這是我們不期望得到的結(jié)果兵多,相同的兩個(gè)人,衡量他們的距離锐峭,應(yīng)該無(wú)論如何都始終一樣中鼠,而非僅僅換了單位就出現(xiàn)不同的結(jié)果。

所以歐式距離往往是not useful的沿癞。

現(xiàn)在讓我們移除公式的根號(hào):
d^2(\overrightarrow x, \overrightarrow y)=(x_1-y_1, x_2-y_2)\left(\begin{array}{cccc} 1 & 0 \\ 0 & 1\\ \end{array}\right) \left(\begin{array}{cccc} x_1-y_1 \\ x_2-y_2 \\ \end{array}\right)
這種寫(xiě)法與d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^2(x_i-y_i)^2}是等價(jià)的,一個(gè)矩陣與單位矩陣(identity matrix)相乘是不變的矛渴。

現(xiàn)在我們對(duì)中間對(duì)單位矩陣做一些泛化椎扬,把它改成\left(\begin{array}{cccc} w_1 & 0 \\ 0 & w_2\\ \end{array}\right),則相應(yīng)的距離公式變?yōu)?span id="7pqklnd" class="math-inline">d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^2w_i(x_i-y_i)^2}具温,這里的w_i取決于單位蚕涤,這樣就能解決我們的問(wèn)題:當(dāng)單位發(fā)生改變時(shí),相同的兩個(gè)人距離不發(fā)生改變铣猩。這種定義下揖铜,如果w_1w_2嚴(yán)格大于等于0,那么最后的距離就是大于或者等于0的

你還可以繼續(xù)泛化达皿,把單位矩陣改成\left(\begin{array}{cccc} w_{11} & w_{12} \\ w_{21} & w_{22} \\ \end{array}\right)天吓,在這種定義下,w的值該取多少距離才會(huì)大于0呢峦椰?
滿(mǎn)足這樣的w有很多龄寞,比如隨便舉個(gè)例子:
(x_1-y_1, x_2-y_2)\left(\begin{array}{cccc} 2 & -1 \\ -1 & 2 \\ \end{array}\right)\left(\begin{array}{cccc} x_1-y_1 \\ x_2-y_2\\ \end{array}\right) > 0, \ if(x_1 \neq y_1)\ or\ (x_2 \neq y_2)

這樣我們的Positive-definite matrix就有了定義:

A_{n*n} is said to be POSITIVE DEFINITE if a^TAa > 0, \ \forall a \neq \left(\begin{array}{cccc} 0 \\ 0 \\ 0 \\ . \\ . \\ . \\ 0 \end{array}\right)_{n*1}

如果:

a^TAa \geq 0, \ \forall a. A_{n*n} is said to be POSITIVE SEMI DEFINITE, in some books, this is also written as NON NEGATIVE DEFINITE.

在線(xiàn)性代數(shù)中,很容易找到positive-definite matrix的定義汤功,那么我們?yōu)槭裁葱枰粋€(gè)這樣的矩陣呢物邑?從上面那個(gè)“距離”的角度來(lái)說(shuō),我們需要這樣的矩陣是因?yàn)槲覀円_保距離是大于等于0的,如果x和y是完全一樣的色解,我們希望其距離為0茂嗓,否則我們希望一個(gè)大于0的數(shù)來(lái)表示不同程度,因此我們把距離公式寫(xiě)成a^TAa的矩陣形式科阎。

Variance-Covariance matrix 可以被證明是NON-NEGATIVE DEFINITE的述吸,實(shí)際上通常是POSITIVE-DEFINITE的,在正態(tài)分布(高斯密度函數(shù))下萧恕,我們認(rèn)為Variance-Covariance matrix 是POSITIVE-DEFINITE的刚梭,這就是我們?yōu)槭裁磿?huì)在高斯密度函數(shù)的分母上把它寫(xiě)成|\Sigma|^{1/2}的原因。如果Variance-Covariance matrix是non-negative definite的票唆,就會(huì)有一些properties朴读,比如矩陣的行列式是它的特征值(the determinant of matrix is product of its eigenvalues),所有的特征值都是大于等于0的走趋,如果variance-covariance matrix是positive-definite的衅金,那么所有eigenvalues都是嚴(yán)格大于0的,所以可以把它做分母簿煌。

Determinant

在線(xiàn)性代數(shù)里氮唯,Determinant是一個(gè)可以從方形矩陣中計(jì)算出來(lái)的值。矩陣的Determinant記做det(A)\ or \ detA \ or \ |A|姨伟。在幾何學(xué)里惩琉,它被視作描述矩陣線(xiàn)性變換的scaling factor。

2x2的矩陣行列式計(jì)算方法為:
|A|=\left|\begin{array}{cccc} a & b \\ c & d \\ \end{array}\right|=ad - bc
更高階的計(jì)算方法到參考文獻(xiàn)的鏈接查看吧夺荒,mathjax不好寫(xiě)了瞒渠。

Matrix inverse

在線(xiàn)性代數(shù)中,如果一個(gè)nxn的方陣A存在一個(gè)nxn的方陣B使其滿(mǎn)足
AB=BA=I_n
則稱(chēng)A為可逆矩陣技扼,B是A的逆伍玖。I_n是nxn的Identity Matrix,也被含糊地稱(chēng)為Unit Matrix剿吻,單位矩陣窍箍,對(duì)角線(xiàn)是1,其余是0丽旅。

Transpose of Matrix

在線(xiàn)性代數(shù)里椰棘,矩陣的轉(zhuǎn)置就是行列元素的索引對(duì)調(diào),記做A^T:
[A^T]_{ij}=[A]_{ji}

參考文獻(xiàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末魔招,一起剝皮案震驚了整個(gè)濱河市晰搀,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌办斑,老刑警劉巖外恕,帶你破解...
    沈念sama閱讀 218,451評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件杆逗,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡鳞疲,警方通過(guò)查閱死者的電腦和手機(jī)罪郊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)尚洽,“玉大人悔橄,你說(shuō)我怎么就攤上這事∠俸粒” “怎么了癣疟?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,782評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)潮酒。 經(jīng)常有香客問(wèn)我睛挚,道長(zhǎng),這世上最難降的妖魔是什么急黎? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,709評(píng)論 1 294
  • 正文 為了忘掉前任扎狱,我火速辦了婚禮,結(jié)果婚禮上勃教,老公的妹妹穿的比我還像新娘淤击。我一直安慰自己,他們只是感情好故源,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布污抬。 她就那樣靜靜地躺著,像睡著了一般绳军。 火紅的嫁衣襯著肌膚如雪壕吹。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,578評(píng)論 1 305
  • 那天删铃,我揣著相機(jī)與錄音,去河邊找鬼踏堡。 笑死猎唁,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的顷蟆。 我是一名探鬼主播诫隅,決...
    沈念sama閱讀 40,320評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼帐偎!你這毒婦竟也來(lái)了逐纬?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,241評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤削樊,失蹤者是張志新(化名)和其女友劉穎豁生,沒(méi)想到半個(gè)月后兔毒,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,686評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡甸箱,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評(píng)論 3 336
  • 正文 我和宋清朗相戀三年育叁,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片芍殖。...
    茶點(diǎn)故事閱讀 39,992評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡豪嗽,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出豌骏,到底是詐尸還是另有隱情龟梦,我是刑警寧澤,帶...
    沈念sama閱讀 35,715評(píng)論 5 346
  • 正文 年R本政府宣布窃躲,位于F島的核電站计贰,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏框舔。R本人自食惡果不足惜蹦玫,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望刘绣。 院中可真熱鬧樱溉,春花似錦、人聲如沸纬凤。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,912評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)停士。三九已至挖帘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間恋技,已是汗流浹背拇舀。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,040評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蜻底,地道東北人骄崩。 一個(gè)月前我還...
    沈念sama閱讀 48,173評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像薄辅,于是被迫代替她去往敵國(guó)和親要拂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容