深度學(xué)習(xí)-數(shù)學(xué)基礎(chǔ)

前言

目前主要有兩種<b>度量模型深度</b>的方式惠勒。第一種方式是基于評(píng)估架構(gòu)所需執(zhí)行的順序指令的數(shù)目秕衙。假設(shè)我們將模型表示為給定輸入后迁央,計(jì)算對(duì)應(yīng)輸出的流程圖掷匠,則可以將這張流程圖中的最長(zhǎng)路徑視為模型的深度。另一種是在深度概率模型中使用的方法岖圈,它不是將計(jì)算圖的深度視為模型深度讹语,而是將描述概念彼此如何關(guān)聯(lián)的圖的深度視為模型深度。在這種情況下蜂科,計(jì)算每個(gè)概念表示的計(jì)算流程圖的深度可能比概念本身的圖更深顽决。這是因?yàn)橄到y(tǒng)對(duì)較簡(jiǎn)單概念的理解在給出更復(fù)雜概念的信息后可以進(jìn)一步精細(xì)化

目前大多數(shù)神經(jīng)網(wǎng)絡(luò)是基于一個(gè)稱(chēng)為<b>整流線性單元(rectified linear unit)</b>的神經(jīng)單元模型。在 20 世紀(jì) 80 年代崇摄,神經(jīng)網(wǎng)絡(luò)研究的第二次浪潮在很大程度上是伴隨一個(gè)被稱(chēng)為<b>聯(lián)結(jié)主義(connectionism)</b>或<b>并行分布處理 ( parallel distributed processing)</b> 潮流而出現(xiàn)的擎值。聯(lián)結(jié)主義的中心思想是,當(dāng)網(wǎng)絡(luò)將大量簡(jiǎn)單的計(jì)算單元連接在一起時(shí)可以實(shí)現(xiàn)智能行為

聯(lián)結(jié)主義中的幾個(gè)關(guān)鍵概念在今天的深度學(xué)習(xí)中仍然是非常重要的
其中一個(gè)概念是<b>分布式表示</b>(distributed representation)逐抑。其思想是:系統(tǒng)的每一個(gè)輸入都應(yīng)該由多個(gè)特征表示,并且每一個(gè)特征都應(yīng)該參與到多個(gè)可能輸入的表示屹蚊。即:可以將某一個(gè)具體的輸入對(duì)象的各個(gè)組成元素抽象為多個(gè)特征厕氨,然后這多個(gè)特征就能夠很好的描述該物體的特點(diǎn)或性質(zhì)
聯(lián)結(jié)主義潮流的另一個(gè)重要成就是<b>反向傳播</b>在訓(xùn)練具有內(nèi)部表示的深度神經(jīng)網(wǎng)絡(luò)中的成功使用以及反向傳播算法的普及

線性代數(shù)基礎(chǔ)

<b>轉(zhuǎn)置</b>
(A^T)_{i,j} = A_{j,i}
<b>乘積</b>
C = AB => C_{i.j} = \sum_k A_{i,k}B_{k,j}

矩陣乘積擁有的<b>性質(zhì)</b>
<b>分配律</b>
A(B + C) = AB + AC
<b>結(jié)合律</b>
A(BC) = (AB)C

<font color=red>矩陣乘積不滿足交換律</font>

兩個(gè)相同維數(shù)的向量 x 和 y 的 <b>點(diǎn)積</b>(dot product)可看作是矩陣乘積 x^{T}y

兩個(gè)向量的點(diǎn)積滿足交換律

x^{T}y=y^{T}x

矩陣乘積的轉(zhuǎn)置
(AB)^{T} = B^{T}A^{T}

由兩個(gè)向量點(diǎn)積的結(jié)果是標(biāo)量进每,標(biāo)量轉(zhuǎn)置是自身,可以得到
x^{T}y = (x^{T}y)^{T} = y^{T}x

<b>單位矩陣</b>(identity matrix): 任意向量和單位矩陣相乘命斧,都不會(huì)改變田晚。將保持 n 維向量不變的單位矩陣記作 I_{n}。形式上国葬,I_{n} \in R^{n×n}

單位矩陣的結(jié)構(gòu)很簡(jiǎn)單:所有沿主對(duì)角線的元素都是 1贤徒,而所有其他位置的元素都是0

矩陣 A 的 <b>矩陣逆</b>(matrix inversion)記作 A^{?1},定義為
A^{-1}A = I_{n}

等式 Ax = b汇四,求解可得 x = A^{-1}b
如果 A^{-1} 存在接奈,那么該方程對(duì)于每一個(gè)向量 b 恰好存在一個(gè)解。但是通孽,對(duì)于方程組而言序宦,對(duì)于向量 b 的某些值,有可能不存在解背苦,或者存在無(wú)限多個(gè)解互捌。存在多于一個(gè)解但是少于無(wú)限多個(gè)解的情況是不可能發(fā)生的。因?yàn)槿绻?x,y 都是解行剂,那么 z = ax + (1-a)y 也是一個(gè)解

一組向量的 <b>生成子空間</b>(span)是原始向量線性組合后所能抵達(dá)的點(diǎn)的集合秕噪。確定 Ax = b 是否有解相當(dāng)于確定向量 b 是否在 A 列向量的生成子空間中。這個(gè)特殊的生成子空間被稱(chēng)為 A 的 <b>列空間</b>(column space)或者 A 的 <b>值域</b>(range)

nA 列空間維度厚宰,mb 的維度腌巾,使方程對(duì)每一點(diǎn)都有解的必要條件是 n \ge m 。這不是一個(gè)充分條件固阁,因?yàn)橛行┝邢蛄靠赡苁侨哂嗟娜蓝恪_@種冗余被稱(chēng)為 <b>線性相關(guān)</b>(linear dependence)。如果一組向量中的任意一個(gè)向量都不能表示成其他向量的線性組合备燃,那么這組向量稱(chēng)為 <b>線性無(wú)關(guān)</b>(linearly independent)碉克。所以,如果一個(gè)矩陣的列空間涵蓋整個(gè) R^{m} 并齐,那么該矩陣必須包含至少一組 m 個(gè)線性無(wú)關(guān)的向量漏麦,其中 b \in R^{m} 。這是對(duì)于任意 b 的取值都有解的充分必要條件

不存在一個(gè) m 維向量的集合具有多于 m 個(gè)彼此線性不相關(guān)的列向量况褪,但是一個(gè)有多于 m 個(gè)列向量的矩陣有可能擁有不止一個(gè)大小為 m 的線性無(wú)關(guān)向量集

要想使矩陣可逆撕贞,需要保證式子 Ax = b 對(duì)于每一個(gè) b 值至多由一個(gè)解。為此测垛,需要確保該矩陣至多有 m 個(gè)列向量捏膨。否則,該方程會(huì)有不止一個(gè)解

要想使用 x = A^{-1}b 求得 x ,必須保證一個(gè) A 是一個(gè)<b>方陣</b>(square)号涯,即 m = n目胡,并且所有列向量都是線性無(wú)關(guān)的。一個(gè)列向量線性相關(guān)的方陣被稱(chēng)為 <b>奇異的</b>(singular)链快。如果矩陣 A 不是一個(gè)方陣或者是一個(gè)奇異的方陣誉己,該方程仍然可能有解。但是不能使用矩陣逆去求解

對(duì)于方陣而言域蜗,它的左逆和右逆是相等的

在機(jī)器學(xué)習(xí)中巨双,經(jīng)常使用被稱(chēng)為 <b>范數(shù)</b>(norm)的函數(shù)衡量向量大小。形式上霉祸,L^{p} 范數(shù)定義如下
||x||_{p} = (\sum_i |x_i|^{p})^{\frac{1}{p}}
其中 p \in R, p \ge 1

范數(shù)是將向量映射到非負(fù)值的函數(shù)筑累。直觀上來(lái)說(shuō),向量 x 的范數(shù)衡量從原點(diǎn)到點(diǎn) x 的距離脉执。范數(shù)是滿足下列性質(zhì)的任意函數(shù)

  • f(x) = 0 ? x = 0
  • f(x + y) \le f(x) + f(y) ( 三角不等式(triangle inequality))
  • \forall \alpha \in R, f(\alpha x) = |\alpha|f(x)

L^{2} 范數(shù)被稱(chēng)為 <b>歐幾里得范數(shù)</b>(Euclidean norm)陌僵。它表示從原點(diǎn)出發(fā)到向量 x 確定的點(diǎn)的歐幾里得距離兔乞。平方 L^{2} 范數(shù)也經(jīng)常用來(lái)衡量向量的大小床绪,可以簡(jiǎn)單地通過(guò)點(diǎn)積 x^{?}x 計(jì)算

平方 L^{2} 范數(shù)在數(shù)學(xué)和計(jì)算上都比 L^{2} 范數(shù)本身更方便饼疙。但是在很多情況下,平方 L^{2} 范數(shù)也可能不受歡迎巫橄,因?yàn)樗谠c(diǎn)附近增長(zhǎng)得十分緩慢淘邻。在某些機(jī)器學(xué)習(xí)應(yīng)用中,區(qū)分恰好是零的元素和非零但值很小的元素是很重要的湘换。在這些情況下宾舅,我們轉(zhuǎn)而使用在各個(gè)位置斜率相同,同時(shí)保持簡(jiǎn)單的數(shù)學(xué)形式的函數(shù):L^{1} 范數(shù)

當(dāng)機(jī)器學(xué)習(xí)問(wèn)題中零和非零元素之間的差異非常重要時(shí)彩倚,通常會(huì)使用 L^{1} 范數(shù)筹我。每當(dāng) x 中某個(gè)元素從 0 增加 \epsilon ,對(duì)應(yīng)的 L^{1} 范數(shù)也會(huì)增加 \epsilon

另外一個(gè)經(jīng)常在機(jī)器學(xué)習(xí)中出現(xiàn)的范數(shù)是 L^{\infty} 范數(shù)帆离,也被稱(chēng)為 <b>最大范數(shù)</b>(max norm)蔬蕊。這個(gè)范數(shù)表示向量中具有最大幅值的元素的絕對(duì)值
||x||_{\infty} = max_i|x_{i}|

有時(shí)候我們可能也希望衡量矩陣的大小。在深度學(xué)習(xí)中哥谷,最常見(jiàn)的做法是使用 <b>Frobenius 范數(shù)</b>(Frobenius norm)
||A||_F = \sqrt{\sum_{i,j}A^2_{i.j}}

兩個(gè)向量的 <b>點(diǎn)積</b>(dot product)可以用范數(shù)來(lái)表示岸夯,如
x^Ty = ∥x∥_2 ∥y∥_2 \cos \theta

其中,\theta 為向量 x, y 之間的夾角

<b>對(duì)角矩陣</b>(diagonal matrix)只在主對(duì)角線上含有非零元素们妥,其他位置都是零猜扮。用 diag(v) 表示一個(gè)對(duì)角元素由向量 v 中元素給定的對(duì)角方陣。對(duì)角方陣的逆矩陣存在监婶,當(dāng)且僅當(dāng)對(duì)角元素都是非零值旅赢,在這種情況下,diag(v)^{?1} = diag([\frac{1}{v1}, . . . , \frac{1}{vn}]^T)

不是所有的對(duì)角矩陣都是方陣。長(zhǎng)方形的矩陣也有可能是對(duì)角矩陣鲜漩。非方陣的對(duì)角矩陣沒(méi)有逆矩陣源譬,但我們?nèi)匀豢梢愿咝У赜?jì)算它們的乘法集惋。對(duì)于一個(gè)長(zhǎng)方形對(duì)角矩陣 D 而言孕似,乘法 Dx 會(huì)涉及到 x 中每個(gè)元素的縮放,如果 D 是瘦長(zhǎng)型矩陣刮刑,那么在縮放后的末尾添加一些零喉祭;如果 D 是胖寬型矩陣,那么在縮放后去掉最后一些元素

<b>對(duì)稱(chēng)</b>(symmetric)矩陣是轉(zhuǎn)置和自己相等的矩陣雷绢,即 A = A^T

<b>單位向量</b>(unit vector)是具有 <b>單位范數(shù)</b>(unit norm)的向量泛烙,如||x||_2 = 1

如果 x^Ty = 0,那么向量 x 和向量 y 互相 <b>正交</b>(orthogonal)翘紊。如果兩個(gè)向量都有非零范數(shù)蔽氨,那么這兩個(gè)向量之間的夾角是 90 度。在 R^n 中帆疟,至多有 n 個(gè)范數(shù)非零向量互相正交鹉究。如果這些向量不僅互相正交,并且范數(shù)都為 1踪宠,那么我們稱(chēng)它們是 <b>標(biāo)準(zhǔn)正交</b>(orthonormal)

<b>正交矩陣</b>(orthogonal matrix)是指行向量和列向量是分別標(biāo)準(zhǔn)正交的方陣:A^TA = AA^T = I自赔,這意味著 A^{-1} = A^T

<b>特征分解</b>(eigendecomposition)是使用最廣的矩陣分解之一,即將矩陣分解成一組特征向量和特征值柳琢。方陣 A 的 <b>特征向量</b>(eigenvector)是指與 A 相乘后相當(dāng)于對(duì)該向量進(jìn)行縮放(Av = λv)的非零向量 v绍妨。標(biāo)量 λ 被稱(chēng)為這個(gè)特征向量對(duì)應(yīng)的 <b>特征值</b>(eigenvalue)

如果 vA 的特征向量,那么任何縮放后的向量 sv (s \in R柬脸,s \ne 0) 也是 A 的特征向量他去。此外,svv 有相同的特征值

假設(shè)矩陣 An 個(gè)線性無(wú)關(guān)的特征向量 {v(1), . . . , v(n)}倒堕,對(duì)應(yīng)著特征值{λ1, . . . , λn}灾测。我們將特征向量連接成一個(gè)矩陣,使得每一列是一個(gè)特征向量:V = [v^{(1)}, . . . , v^{(n)}]涩馆。 類(lèi)似地行施,我們也可以將特征值連接成一個(gè)向量 λ = [λ_1, . . . , λ_n]^T。因此 A 的 <b>特征分解</b>(eigendecomposition)可以記作
A = Vdiag(λ)V^{-1}

每個(gè)實(shí)對(duì)稱(chēng)矩陣都可以分解成實(shí)特征向量和實(shí)特征值
A = Q Λ Q^{T}
其中魂那, QA 的特征向量組成的正交矩陣蛾号,Λ 是對(duì)角矩陣。特征值 Λ_{i,i} 對(duì)應(yīng)的特征向量是矩陣 Q 的第i列涯雅,記作 Q_{:,i}

因?yàn)?Q 是正交矩陣鲜结,我們可以將 A 看作沿方向 v^{(i)} 延展 λ_i 倍的空間

任意一個(gè)實(shí)對(duì)稱(chēng)矩陣 A 都有特征分解,但是特征分解可能并不唯一。如果兩個(gè)或多個(gè)特征向量擁有相同的特征值精刷,那么在由這些特征向量產(chǎn)生的生成子空間中拗胜,任意一組正交向量都是該特征值對(duì)應(yīng)的特征向量

矩陣是奇異的當(dāng)且僅當(dāng)含有零特征值

所有特征值都是正數(shù)的矩陣被稱(chēng)為 <b>正定(positive definite)</b>;所有特征值都是非負(fù)數(shù)的矩陣被稱(chēng)為 <b>半正定(positive semidefinite)</b>怒允。同樣地埂软,所有特征值都是負(fù)數(shù)的矩陣被稱(chēng)為 <b>負(fù)定(negative definite)</b>;所有特征值都是非正數(shù)的矩陣被稱(chēng)為 <b>半負(fù)定(negative semidefinite)</b>

另一種分解矩陣的方法纫事,被稱(chēng)為 <b>奇異值分解(singular value decomposition, SVD)</b>勘畔,將矩陣分解為 <b>奇異向量(singular vector)</b> 和 <b>奇異值(singular value)</b>。每個(gè)實(shí)數(shù)矩陣都有一個(gè)奇異值分解丽惶,但不一定都有特征分解

奇異值分解將矩陣 A 分解成三個(gè)矩陣的乘積
A = UDV^{T}
假設(shè) A 是一個(gè) m × n 的矩陣炫七,那么 U 是一個(gè) m × m 的矩陣,D 是一個(gè) m × n 的矩陣钾唬,V 是一個(gè) n × n 矩陣万哪。矩陣 UV 都定義為正交矩陣,而矩陣 D 定義為對(duì)角矩陣抡秆,但不一定是方陣

對(duì)角矩陣 D 對(duì)角線上的元素被稱(chēng)為矩陣 A 的 <b>奇異值(singular value)</b>奕巍。矩陣 U 的列向量被稱(chēng)為 <b>左奇異向量(left singular vector)</b>,矩陣 V 的列向量被稱(chēng) <b>右奇異向量(right singular vector)</b>

A 的 <b>左奇異向量(left singular vector)</b>是 AA^? 的特征向量琅轧。A 的 <b>右奇異向量(right singular vector)</b>是 A^{?}A 的特征向量伍绳。A 的非零奇異值是 A^{?}A 特征值的平方根,同時(shí)也是AA^? 特征值的平方根

<b>跡運(yùn)算</b>返回的是矩陣對(duì)角元素的和
Tr(A) = \sum_i A_{i,i}
跡運(yùn)算提供了另一種描述矩陣Frobenius范數(shù)的方式
||A||_F = \sqrt{Tr(AA^{T})}

跡運(yùn)算在轉(zhuǎn)置運(yùn)算下是不變的
Tr(A) = Tr(A^T)

多個(gè)矩陣相乘得到的方陣的跡乍桂,和將這些矩陣中的最后一個(gè)挪到最前面之后相乘的跡是相同的
Tr(ABC) = Tr(CAB) = Tr(BCA)

標(biāo)量在跡運(yùn)算后仍然是它自己:a = Tr(a)

<b>行列式</b>冲杀,記作 <b>det(A)</b>,是一個(gè)將方陣 A 映射到實(shí)數(shù)的函數(shù)睹酌。行列式等于矩陣特征值的乘積权谁。行列式的絕對(duì)值可以用來(lái)衡量矩陣參與矩陣乘法后空間擴(kuò)大或者縮小了多少。如果行列式是 0憋沿,那么空間至少沿著某一維完全收縮了旺芽,使其失去了所有的體積。如果行列式是 1辐啄,那么這個(gè)轉(zhuǎn)換保持空間體積不變

<b>主成分分析(principal components analysis, PCA)</b>是一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)算法采章,可以通過(guò)基礎(chǔ)的線性代數(shù)知識(shí)推導(dǎo)

在人工智能領(lǐng)域,<b>概率論</b>主要有兩種用途壶辜。首先悯舟,概率法則告訴我們 AI 系統(tǒng)如何推理,據(jù)此我們?cè)O(shè)計(jì)一些算法來(lái)計(jì)算或者估算由概率論導(dǎo)出的表達(dá)式砸民。其次抵怎,我們可以用概率和統(tǒng)計(jì)從理論上分析我們提出的 AI 系統(tǒng)的行為

幾乎所有的活動(dòng)都需要一些在不確定性存在的情況下進(jìn)行推理的能力奋救。不確定性有三種可能的來(lái)源

  1. 被建模系統(tǒng)內(nèi)在的隨機(jī)性
  2. 不完全觀測(cè)。即使是確定的系統(tǒng)反惕,當(dāng)我們不能觀測(cè)到所有驅(qū)動(dòng)系統(tǒng)行為的變量時(shí)尝艘,該系統(tǒng)也會(huì)呈現(xiàn)隨機(jī)性
  3. 不完全建模。當(dāng)我們使用一些必須舍棄某些觀測(cè)信息的模型時(shí)姿染,舍棄的信息會(huì)導(dǎo)致模型的預(yù)測(cè)出現(xiàn)不確定性

直接與事件發(fā)生的頻率相聯(lián)系背亥,被稱(chēng)為 <b>頻率派概率(frequentist probability)</b>;涉及到確定性水平盔粹,被稱(chēng)為 <b>貝葉斯概率(Bayesian probability)</b>隘梨,如:在醫(yī)生診斷病人的例子中,我們用概率來(lái)表示一種 <b>信任度(degree of belief)</b>舷嗡,其中 1 表示非常肯定病人患有流感嵌莉,而 0 表示非辰眩肯定病人沒(méi)有流感

<b>概率分布(probability distribution)</b>用來(lái)描述隨機(jī)變量或一簇隨機(jī)變量在每一個(gè)可能取到的狀態(tài)的可能性大小。描述概率分布的方式取決于隨機(jī)變量是離散的還是連續(xù)的

離散型變量的概率分布可以用 <b>概率質(zhì)量函數(shù)(probability mass function, PMF)</b>來(lái)描述锐峭。概率質(zhì)量函數(shù)將隨機(jī)變量能夠取得的每個(gè)狀態(tài)映射到隨機(jī)變量取得該狀態(tài)的概率

概率質(zhì)量函數(shù)可以同時(shí)作用于多個(gè)隨機(jī)變量中鼠。這種多個(gè)變量的概率分布被稱(chēng)為 <b>聯(lián)合概率分布(joint probability distribution)</b>。P(x = x, y = y) 表示 x = x 和 y = y 同時(shí)發(fā)生的概率沿癞。我們也可以簡(jiǎn)寫(xiě)為 P(x, y)

當(dāng)研究的對(duì)象是連續(xù)型隨機(jī)變量時(shí)援雇,用 <b>概率密度函數(shù)(probability density function, PDF)</b>而不是概率質(zhì)量函數(shù)來(lái)描述它的概率分布

概率密度函數(shù) p(x) 并沒(méi)有直接對(duì)特定的狀態(tài)給出概率,相對(duì)的椎扬,它給出了落在面積為 δx 的無(wú)限小的區(qū)域內(nèi)的概率為 p(x)δx

有時(shí)候惫搏,我們知道了一組變量的聯(lián)合概率分布,但想要了解其中一個(gè)子集的概率分布蚕涤。這種定義在子集上的概率分布被稱(chēng)為 <b>邊緣概率分布(marginal probability distribution)</b>筐赔,如:已知P(x, y),求P(x)

某個(gè)事件在給定其他事件發(fā)生時(shí)出現(xiàn)的概率叫做<b>條件概率</b>揖铜,將給定 x = x茴丰,y = y 發(fā)生的條件概率記為 P(y = y | x = x)

任何多維隨機(jī)變量的聯(lián)合概率分布,都可以分解成只有一個(gè)變量的條件概率相乘的形式
P(x^{(1)},...,x^{(n)}) = P(x^{(1)})\pi^n_{i=2} P(x(i) | x^{(1)},...x^{(i-1)})
這個(gè)規(guī)則被稱(chēng)為概率的 <b>鏈?zhǔn)椒▌t(chain rule)</b>或者 <b>乘法法則(product rule)</b>天吓。舉例
P(a, b, c) = P(a | b,c)P(b, c)
P(b, c) = P(b | c)P(c)
P(a, b, c) = P(a | b,c)P(b | c)P(c)

兩個(gè)隨機(jī)變量 x 和 y贿肩,如果它們的概率分布可以表示成兩個(gè)因子的乘積形式,并且一個(gè)因子只包含 x 另一個(gè)因子只包含 y龄寞,我們就稱(chēng)這兩個(gè)隨機(jī)變量是 <b>相互獨(dú)立的(independent)</b>
\forall x \in X, y \in Y, p(x = x_0, y = y_0) = P(x = x_0)p(y = y_0)

如果關(guān)于 x 和 y 的條件概率分布對(duì)于 z 的每一個(gè)值都可以寫(xiě)成乘積的形式汰规,那么這兩個(gè)隨機(jī)變量 x 和 y 在給定隨機(jī)變量 z 時(shí)是 條件獨(dú)立的(conditionally independent)
\forall x \in X, y \in Y, z \in Z, p(x = x_0, y = y_0 | z = z_0) = p(x = x_0 | z = z_0)p(y = y_0 | z = z_0)

函數(shù) f(x) 關(guān)于某分布 P(x) 的 <b>期望(expectation)</b>或者 <b>期望值(expectedvalue)</b>是指,當(dāng) x 由 P 產(chǎn)生萄焦,f 作用于 x 時(shí)控轿,f(x) 的平均值

<b>方差(variance)</b>衡量的是當(dāng)我們對(duì) x 依據(jù)它的概率分布進(jìn)行采樣時(shí)冤竹,隨機(jī)變量 x 的函數(shù)值會(huì)呈現(xiàn)多大的差異
Var(f(x)) = E[(f(x) - E[f(x)])^2]
當(dāng)方差很小時(shí),f(x) 的值形成的簇比較接近它們的期望值茬射。方差的平方根被稱(chēng)為 <b>標(biāo)準(zhǔn)差(standard deviation)</b>

<b>協(xié)方差(covariance)</b>在某種意義上給出了兩個(gè)變量線性相關(guān)性的強(qiáng)度以及這些變量的尺度
Cov(f(x), g(y)) = E[(f(x) ? E[f(x)])(g(y) ? E[g(y)])].

協(xié)方差的絕對(duì)值如果很大則意味著變量值變化很大并且它們同時(shí)距離各自的均值很遠(yuǎn)鹦蠕。如果協(xié)方差是正的,那么兩個(gè)變量都傾向于同時(shí)取得相對(duì)較大的值在抛。如果協(xié)方差是負(fù)的钟病,那么其中一個(gè)變量?jī)A向于取得相對(duì)較大的值的同時(shí),另一個(gè)變量?jī)A向于取得相對(duì)較小的值刚梭,反之亦然肠阱。其他的衡量指標(biāo)如 <b>相關(guān)系數(shù)(correlation)</b>將每個(gè)變量的貢獻(xiàn)歸一化,為了只衡量變量的相關(guān)性而不受各個(gè)變量尺度大小的影響

兩個(gè)變量如果相互獨(dú)立那么它們的協(xié)方差為零朴读,如果兩個(gè)變量的協(xié)方差不為零那么它們一定是相關(guān)的屹徘。兩個(gè)變量如果協(xié)方差為零,它們之間一定沒(méi)有線性關(guān)系衅金。獨(dú)立性比零協(xié)方差的要求更強(qiáng)噪伊,因?yàn)楠?dú)立性還排除了非線性的關(guān)系。兩個(gè)變量相互依賴(lài)但具有零協(xié)方差是可能的

隨機(jī)向量 x ∈ R^n 的 <b>協(xié)方差矩陣(covariance matrix)</b>是一個(gè) n × n 的矩陣氮唯,并且滿足
Cov(x)_{i,j} = Cov(x_i, x_j)
協(xié)方差矩陣的對(duì)角元是方差
Cov(x_i, x_i) = Var(x_i)

最常用的分布就是 <b>正態(tài)分布(normal distribution)</b>鉴吹,也稱(chēng)為 <b>高斯分布(Gaussian distribution)</b>
N(x; \mu, \sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp(-\frac{1}{2\sigma^2}(x - \mu)^2)

gaussianDistribution.png

正態(tài)分布的中心峰的 x 坐標(biāo)由 \mu 給出,峰的寬度受 \sigma 控制

在具有相同方差的所有可能的概率分布中惩琉,正態(tài)分布在實(shí)數(shù)上具有最大的不確定性豆励。可以認(rèn)為正態(tài)分布是對(duì)模型加入的先驗(yàn)知識(shí)量最少的分布

正態(tài)分布可以推廣到 R^n 空間瞒渠,這種情況下被稱(chēng)為 <b>多維正態(tài)分布(multivariate normal distribution)</b>良蒸。它的參數(shù)是一個(gè)正定對(duì)稱(chēng)矩陣 \sum
N(x; \mu, \sum) = \sqrt{\frac{1}{(2\pi)^ndet(\sum)}}exp(-\frac{1}{2}(x-\mu)^T\sum^{-1}(x - \mu))
此時(shí),參數(shù) \mu 仍然表示分布的均值在孝,只不過(guò)現(xiàn)在是向量值诚啃。參數(shù) \sum 給出了分布的協(xié)方差矩陣
當(dāng)對(duì)很多不同參數(shù)下的概率密度函數(shù)多次求值時(shí),協(xié)方差矩陣并不是一個(gè)很高效的參數(shù)化分布的方式私沮,因?yàn)閷?duì)概率密度函數(shù)求值時(shí)需要對(duì) \sum 求逆始赎。我們可以使用一個(gè) <b>精度矩陣(precision matrix)</b> \beta 進(jìn)行替代
N(x; \mu, \beta) = \sqrt{\frac{det(\beta)}{(2\pi)^n}}exp(-\frac{1}{2}(x-\mu)^T\beta(x - \mu))

通過(guò) <b>Dirac delta 函數(shù)(Dirac delta function)\delta(x)</b> 定義概率密度函數(shù)來(lái)將望概率分布中的所有質(zhì)量都集中在一個(gè)點(diǎn)上
p(x) = \sigma(x - \mu)
Dirac delta 函數(shù)被定義成在除了 x=\mu 以外的所有點(diǎn)的值都為 0,但是積分為 1仔燕。在 x=\mu 處具有無(wú)限窄也無(wú)限高的峰值的概率質(zhì)量

Dirac 分布經(jīng)常作為 <b>經(jīng)驗(yàn)分布(empirical distribution)</b>的一個(gè)組成部分出現(xiàn)
\hat{p}(x) = \frac{1}{m}\sum_{i=1}^{m} \sigma(x - x^{(i)})
經(jīng)驗(yàn)分布將概率密度 \frac{1}{m} 賦給 m 個(gè)點(diǎn) x^{(1)}, . . . , x^{(m)} 中的每一個(gè)造垛,這些點(diǎn)是給定的數(shù)據(jù)集或者采樣的集合。只有在定義連續(xù)型隨機(jī)變量的經(jīng)驗(yàn)分布時(shí)晰搀,Dirac delta 函數(shù)才是必要的

一些等式
\sigma(x) = \frac{exp(x)}{exp(x) + exp(0)}
\frac{d\sigma(x)}{dx} = \sigma(x)(1-\sigma(x))
1 - \sigma(x) = \sigma(-x)
log\sigma(x) = -\zeta(-x)
\frac{d\zeta(x)}{d(x)} = \sigma(x)
\forall x \in (0,1), \sigma^{-1}(x) = log(\frac{x}{1-x})
\forall x > 0, \zeta^{-1}(x) = log(exp(x) - 1)
\zeta(x) = \int_{-\infty}^x \sigma(y)dy
\zeta(x) - \zeta(-x) = x

<b>貝葉斯規(guī)則(Bayes' rule)</b>
P(x | y) = \frac{P(x)P(y | x)}{P(y)}

如果我們對(duì)于同一個(gè)隨機(jī)變量 x 有兩個(gè)單獨(dú)的概率分布 P(x)Q(x)五辽,我們可以使用 <b>KL 散度(Kullback-Leibler (KL) divergence)</b>來(lái)衡量這兩個(gè)分布的差異
D_{KL}(P||Q) = E_{X \sim P}[log\frac{P(x)}{Q(x)}] = E_{X \sim P}[logP(x) - logQ(x)]
在離散型變量的情況下,KL 散度衡量的是外恕,當(dāng)我們使用一種被設(shè)計(jì)成能夠使得概率分布 Q 產(chǎn)生的消息的長(zhǎng)度最小的編碼杆逗,發(fā)送包含由概率分布 P 產(chǎn)生的符號(hào)的消息時(shí)乡翅,所需要的額外信息量

KL 散度有很多有用的性質(zhì),最重要的是它是非負(fù)的罪郊。KL 散度為 0 當(dāng)且僅當(dāng) PQ 在離散型變量的情況下是相同的分布蠕蚜,或者在連續(xù)型變量的情況下是 ‘‘幾乎處處’’ 相同的。因?yàn)?KL 散度是非負(fù)的并且衡量的是兩個(gè)分布之間的差異悔橄,它經(jīng)常被用作分布之間的某種距離靶累。然而,它并不是真的距離因?yàn)樗皇菍?duì)稱(chēng)的:對(duì)于某些 PQ癣疟,DKL(P||Q) ?= DKL(Q||P)挣柬。這種非對(duì)稱(chēng)性意味著選擇 DKL(P||Q) 還是DKL(Q||P) 影響很大

<b>交叉熵(cross-entropy)</b>
H(P, Q) = H(P) + D_{KL}(P||Q) = -E_{X\sim P}logQ(x)
交叉熵和 KL 散度很像但是缺少左邊一項(xiàng)。針對(duì) Q 最小化交叉熵等價(jià)于最小化 KL 散度睛挚,因?yàn)?Q 并不參與被省略的那一項(xiàng)

一種極具毀滅性的舍入誤差是 <b>下溢(underflow)</b>邪蛔。當(dāng)接近零的數(shù)被四舍五入為零時(shí)發(fā)生下溢。許多函數(shù)在其參數(shù)為零而不是一個(gè)很小的正數(shù)時(shí)才會(huì)表現(xiàn)出質(zhì)的不同竞川。另一個(gè)極具破壞力的數(shù)值錯(cuò)誤形式是 <b>上溢(overflow)</b>店溢。當(dāng)大量級(jí)的數(shù)被近似為\infty-\infty 時(shí)發(fā)生上溢。進(jìn)一步的運(yùn)算通常會(huì)導(dǎo)致這些無(wú)限值變?yōu)榉菙?shù)字委乌。必須對(duì)上溢和下溢進(jìn)行數(shù)值穩(wěn)定的一個(gè)例子是 <b>softmax 函數(shù)(softmax function)</b>。softmax 函數(shù)經(jīng)常用于預(yù)測(cè)與 Multinoulli 分布相關(guān)聯(lián)的概率荣回,定義為
softmax(x)_i = \frac{exp(x_i)}{\sum_{j=1}^n exp(x_j)}
對(duì)于 softmax(x) 的上溢和下溢問(wèn)題遭贸,可以通過(guò)計(jì)算 softmax(z) 同時(shí)解決,其中 z = x - max_i x_i 心软。減去 max_i x_i 導(dǎo)致 exp 的最大參數(shù)為 0壕吹,這排除了上溢的可能性。同樣地删铃,分母中至少有一個(gè)值為 1 的項(xiàng)耳贬,這就排除了因分母下溢而導(dǎo)致被零除的可能性

<b>條件數(shù)</b>表征函數(shù)相對(duì)于輸入的微小變化而變化的快慢程度。輸入被輕微擾動(dòng)而迅速改變的函數(shù)對(duì)于科學(xué)計(jì)算來(lái)說(shuō)可能是有問(wèn)題的猎唁,因?yàn)檩斎胫械纳崛胝`差可能導(dǎo)致輸出的巨大變化

對(duì)于函數(shù) f(x) = A^{-1}x咒劲。當(dāng) A \in R^{n × n}具有特征值分解時(shí),其條件數(shù)為
max_{i,j} |\frac{\lambda_i}{\lambda_j}|
這是最大和最小特征值的模之比1诫隅。當(dāng)該數(shù)很大時(shí)腐魂,矩陣求逆對(duì)輸入的誤差特別敏感

我們把要最小化或最大化的函數(shù)稱(chēng)為 <b>目標(biāo)函數(shù)(objective function)</b>或 <b>準(zhǔn)則(criterion)</b>。當(dāng)我們對(duì)其進(jìn)行最小化時(shí)逐纬,我們也把它稱(chēng)為 <b>代價(jià)函數(shù)(cost function)</b>蛔屹、<b>損失函數(shù)(loss function)</b>或 <b>誤差函數(shù)(error function)</b>

對(duì)于 y = f(x),導(dǎo)數(shù)告訴我們?nèi)绾胃?x 來(lái)略微地改善 y 豁生。例如兔毒,我們知道對(duì)于足夠小的 \epsilon 來(lái)說(shuō)漫贞,f(x ? \epsilon sign(f′(x))) 是比 f(x)小的。因此我們可以將 x 往導(dǎo)數(shù)的反方向移動(dòng)一小步來(lái)減小 f(x)育叁。這種技術(shù)被稱(chēng)為 <b>梯度下降(gradient descent)</b>

當(dāng) f′(x) = 0迅脐,導(dǎo)數(shù)無(wú)法提供往哪個(gè)方向移動(dòng)的信息。 f′(x) = 0 的點(diǎn)稱(chēng)為 <b>臨界點(diǎn)(critical point)</b>或 <b>駐點(diǎn)(stationary point)</b>擂红。一個(gè) <b>局部極小點(diǎn)(local minimum)</b>意味著這個(gè)點(diǎn)的 <b>f(x)</b> 小于所有鄰近點(diǎn)仪际,因此不可能通過(guò)移動(dòng)無(wú)窮小的步長(zhǎng)來(lái)減小 f(x) 。一個(gè) <b>局部極大點(diǎn)(local maximum)</b>意味著這個(gè)點(diǎn)的 f(x) 大于所有鄰近點(diǎn)昵骤,因此不可能通過(guò)移動(dòng)無(wú)窮小的步長(zhǎng)來(lái)增大 f(x)树碱。有些臨界點(diǎn)既不是最小點(diǎn)也不是最大點(diǎn)。這些點(diǎn)被稱(chēng)為 <b>鞍點(diǎn)(saddle point)</b>变秦。使 f(x) 取得絕對(duì)的最小值(相對(duì)所有其他值)的點(diǎn)是 <b>全局最小點(diǎn)(global minimum)</b>成榜。函數(shù)可能只有一個(gè)全局最小點(diǎn)或存在多個(gè)全局最小點(diǎn),還可能存在不是全局最優(yōu)的局部極小點(diǎn)

有時(shí)候蹦玫,在 x 的所有可能值下最大化或最小化一個(gè)函數(shù) f(x) 不是我們所希望的辞友。相反秕磷,我們可能希望在 x 的某些集合 S 中找 f(x) 的最大值或最小值。這被稱(chēng)為 <b>約束優(yōu)化(constrained optimization)</b>。在約束優(yōu)化術(shù)語(yǔ)中咳蔚,集合 S 內(nèi)的點(diǎn) x 被稱(chēng)為 <b>可行(feasible)點(diǎn)</b>

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市寡润,隨后出現(xiàn)的幾起案子祖驱,更是在濱河造成了極大的恐慌,老刑警劉巖挖帘,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件完丽,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡拇舀,警方通過(guò)查閱死者的電腦和手機(jī)逻族,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)骄崩,“玉大人聘鳞,你說(shuō)我怎么就攤上這事〉罄担” “怎么了搁痛?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)宇弛。 經(jīng)常有香客問(wèn)我鸡典,道長(zhǎng),這世上最難降的妖魔是什么枪芒? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任彻况,我火速辦了婚禮谁尸,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘纽甘。我一直安慰自己良蛮,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布悍赢。 她就那樣靜靜地躺著决瞳,像睡著了一般。 火紅的嫁衣襯著肌膚如雪左权。 梳的紋絲不亂的頭發(fā)上皮胡,一...
    開(kāi)封第一講書(shū)人閱讀 51,488評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音赏迟,去河邊找鬼屡贺。 笑死,一個(gè)胖子當(dāng)著我的面吹牛锌杀,可吹牛的內(nèi)容都是我干的甩栈。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼糕再,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼量没!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起突想,我...
    開(kāi)封第一講書(shū)人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤允蜈,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后蒿柳,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡漩蟆,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年垒探,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片怠李。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡圾叼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出捺癞,到底是詐尸還是另有隱情夷蚊,我是刑警寧澤,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布髓介,位于F島的核電站惕鼓,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏唐础。R本人自食惡果不足惜箱歧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一矾飞、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧呀邢,春花似錦洒沦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至蝉衣,卻和暖如春括尸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背买乃。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工姻氨, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人剪验。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓肴焊,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親功戚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子娶眷,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 本文來(lái)自《動(dòng)手學(xué)習(xí)深度學(xué)習(xí)》附錄 本文總結(jié)了本書(shū)中涉及的有關(guān)線性代數(shù)、微分和概率的基礎(chǔ)知識(shí)啸臀。 線性代數(shù) 下面分別概...
    王詩(shī)翔閱讀 2,518評(píng)論 0 10
  • 高等數(shù)學(xué) 1.導(dǎo)數(shù)定義: 導(dǎo)數(shù)和微分的概念 (1) 或者: (2) 2.左右導(dǎo)數(shù)導(dǎo)數(shù)的幾何意義和物理意義 函數(shù)在處...
    噴氣式蝸牛閱讀 494評(píng)論 1 3
  • 不是所有的相遇乘粒,都能被溫柔以待豌注。亦不是所有的牽手,都能笑看東風(fēng)灯萍。 你發(fā)來(lái)信息說(shuō)他去相親了轧铁,家里給他介紹了個(gè)不錯(cuò)的對(duì)...
    意思姑娘閱讀 404評(píng)論 0 1
  • 所以,我又辭職了旦棉。其實(shí)我是糾結(jié)的齿风。 早上,剛下車(chē)便下起了小雨绑洛,穿著略微單薄救斑,睡午覺(jué)的時(shí)候有點(diǎn)冷。 第一次辭職是考公...
    只笑那時(shí)光閱讀 416評(píng)論 1 0