深度學(xué)習(xí)數(shù)學(xué)基礎(chǔ)

本文來(lái)自《動(dòng)手學(xué)習(xí)深度學(xué)習(xí)》附錄


本文總結(jié)了本書中涉及的有關(guān)線性代數(shù)避乏、微分和概率的基礎(chǔ)知識(shí)。

線性代數(shù)

下面分別概括了向量资柔、矩陣焙贷、運(yùn)算、范數(shù)贿堰、特征向量和特征值的概念辙芍。

向量

本書中的向量指的是列向量。一個(gè)n維向量\boldsymbol{x}的表達(dá)式可寫成

\boldsymbol{x} = \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix},

其中x_1, \ldots, x_n是向量的元素羹与。我們將各元素均為實(shí)數(shù)的n維向量\boldsymbol{x}記作\boldsymbol{x} \in \mathbb{R}^{n}\boldsymbol{x} \in \mathbb{R}^{n \times 1}沸手。

矩陣

一個(gè)mn列矩陣的表達(dá)式可寫成

\boldsymbol{X} = \begin{bmatrix} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \dots & x_{mn} \end{bmatrix},

其中x_{ij}是矩陣\boldsymbol{X}中第i行第j列的元素(1 \leq i \leq m, 1 \leq j \leq n)。我們將各元素均為實(shí)數(shù)的mn列矩陣\boldsymbol{X}記作\boldsymbol{X} \in \mathbb{R}^{m \times n}注簿。不難發(fā)現(xiàn)契吉,向量是特殊的矩陣。

運(yùn)算

設(shè)n維向量\boldsymbol{a}中的元素為a_1, \ldots, a_n诡渴,n維向量\boldsymbol捐晶中的元素為b_1, \ldots, b_n菲语。向量\boldsymbol{a}\boldsymbol的點(diǎn)乘(內(nèi)積)是一個(gè)標(biāo)量:

\boldsymbol{a} \cdot \boldsymbol惑灵 = a_1 b_1 + \ldots + a_n b_n.

設(shè)兩個(gè)mn列矩陣

\boldsymbol{A} = \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mn} \end{bmatrix},\quad \boldsymbol{B} = \begin{bmatrix} b_{11} & b_{12} & \dots & b_{1n} \\ b_{21} & b_{22} & \dots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \dots & b_{mn} \end{bmatrix}.

矩陣\boldsymbol{A}的轉(zhuǎn)置是一個(gè)nm列矩陣山上,它的每一行其實(shí)是原矩陣的每一列:
\boldsymbol{A}^\top = \begin{bmatrix} a_{11} & a_{21} & \dots & a_{m1} \\ a_{12} & a_{22} & \dots & a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \dots & a_{mn} \end{bmatrix}.

兩個(gè)相同形狀的矩陣的加法是將兩個(gè)矩陣按元素做加法:

\boldsymbol{A} + \boldsymbol{B} = \begin{bmatrix} a_{11} + b_{11} & a_{12} + b_{12} & \dots & a_{1n} + b_{1n} \\ a_{21} + b_{21} & a_{22} + b_{22} & \dots & a_{2n} + b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} + b_{m1} & a_{m2} + b_{m2} & \dots & a_{mn} + b_{mn} \end{bmatrix}.

我們使用符號(hào)\odot表示兩個(gè)矩陣按元素做乘法的運(yùn)算:

\boldsymbol{A} \odot \boldsymbol{B} = \begin{bmatrix} a_{11} b_{11} & a_{12} b_{12} & \dots & a_{1n} b_{1n} \\ a_{21} b_{21} & a_{22} b_{22} & \dots & a_{2n} b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} b_{m1} & a_{m2} b_{m2} & \dots & a_{mn} b_{mn} \end{bmatrix}.

定義一個(gè)標(biāo)量k。標(biāo)量與矩陣的乘法也是按元素做乘法的運(yùn)算:

k\boldsymbol{A} = \begin{bmatrix} ka_{11} & ka_{12} & \dots & ka_{1n} \\ ka_{21} & ka_{22} & \dots & ka_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ ka_{m1} & ka_{m2} & \dots & ka_{mn} \end{bmatrix}.

其他諸如標(biāo)量與矩陣按元素相加英支、相除等運(yùn)算與上式中的相乘運(yùn)算類似佩憾。矩陣按元素開根號(hào)、取對(duì)數(shù)等運(yùn)算也就是對(duì)矩陣每個(gè)元素開根號(hào)干花、取對(duì)數(shù)等妄帘,并得到和原矩陣形狀相同的矩陣。

矩陣乘法和按元素的乘法不同池凄。設(shè)\boldsymbol{A}mp列的矩陣抡驼,\boldsymbol{B}pn列的矩陣。兩個(gè)矩陣相乘的結(jié)果

\boldsymbol{A} \boldsymbol{B} = \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1p} \\ a_{21} & a_{22} & \dots & a_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ a_{i1} & a_{i2} & \dots & a_{ip} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mp} \end{bmatrix} \begin{bmatrix} b_{11} & b_{12} & \dots & b_{1j} & \dots & b_{1n} \\ b_{21} & b_{22} & \dots & b_{2j} & \dots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots & \ddots & \vdots \\ b_{p1} & b_{p2} & \dots & b_{pj} & \dots & b_{pn} \end{bmatrix}

是一個(gè)mn列的矩陣肿仑,其中第i行第j列(1 \leq i \leq m, 1 \leq j \leq n)的元素為

a_{i1}b_{1j} + a_{i2}b_{2j} + \ldots + a_{ip}b_{pj} = \sum_{k=1}^p a_{ik}b_{kj}.

范數(shù)

設(shè)n維向量\boldsymbol{x}中的元素為x_1, \ldots, x_n致盟。向量\boldsymbol{x}L_p范數(shù)為

\|\boldsymbol{x}\|_p = \left(\sum_{i=1}^n \left|x_i \right|^p \right)^{1/p}.

例如,\boldsymbol{x}L_1范數(shù)是該向量元素絕對(duì)值之和:

\|\boldsymbol{x}\|_1 = \sum_{i=1}^n \left|x_i \right|.

\boldsymbol{x}L_2范數(shù)是該向量元素平方和的平方根:

\|\boldsymbol{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2}.

我們通常用\|\boldsymbol{x}\|指代\|\boldsymbol{x}\|_2尤慰。

設(shè)\boldsymbol{X}是一個(gè)mn列矩陣馏锡。矩陣\boldsymbol{X}的Frobenius范數(shù)為該矩陣元素平方和的平方根:

\|\boldsymbol{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2},

其中x_{ij}為矩陣\boldsymbol{X}在第i行第j列的元素。

特征向量和特征值

對(duì)于一個(gè)nn列的矩陣\boldsymbol{A}伟端,假設(shè)有標(biāo)量\lambda和非零的n維向量\boldsymbol{v}使

\boldsymbol{A} \boldsymbol{v} = \lambda \boldsymbol{v},

那么\boldsymbol{v}是矩陣\boldsymbol{A}的一個(gè)特征向量眷篇,標(biāo)量\lambda\boldsymbol{v}對(duì)應(yīng)的特征值。

微分

我們?cè)谶@里簡(jiǎn)要介紹微分的一些基本概念和演算荔泳。

導(dǎo)數(shù)和微分

假設(shè)函數(shù)f: \mathbb{R} \rightarrow \mathbb{R}的輸入和輸出都是標(biāo)量蕉饼。函數(shù)f的導(dǎo)數(shù)

f'(x) = \lim_{h \rightarrow 0} \frac{f(x+h) - f(x)}{h},

且假定該極限存在。給定y = f(x)玛歌,其中xy分別是函數(shù)f的自變量和因變量昧港。以下有關(guān)導(dǎo)數(shù)和微分的表達(dá)式等價(jià):

f'(x) = y' = \frac{\textzp5d1zhy}{\textdllbpn9x} = \frac{\textvf75nnnf}{\texthrdrhttx} = \frac{\textljrfhpb}{\textjfjnbnlx} f(x) = \text{D}f(x) = \text{D}_x f(x),

其中符號(hào)\text{D}\textpxjz3fp/\textjxzz9bpx也叫微分運(yùn)算符。常見的微分演算有\text{D}C = 0C為常數(shù))支子、\text{D}x^n = nx^{n-1}n為常數(shù))创肥、\text{D}e^x = e^x\text{D}\ln(x) = 1/x等值朋。

如果函數(shù)fg都可導(dǎo)叹侄,設(shè)C為常數(shù),那么

\begin{aligned} \frac{\text3hvx1zj}{\textvtpdptrx} [Cf(x)] &= C \frac{\textvvjlbrr}{\textblndtz9x} f(x),\\ \frac{\textx1jll1p}{\texthpr11ptx} [f(x) + g(x)] &= \frac{\textjttxpp1}{\textbxlbpnnx} f(x) + \frac{\textzjll1jl}{\textjjjnzjlx} g(x),\\ \frac{\textxjzzz1t}{\texttr13lhhx} [f(x)g(x)] &= f(x) \frac{\texthhxnjhh}{\text1j9rf51x} [g(x)] + g(x) \frac{\textpv9zn1t}{\textbx1rdn9x} [f(x)],\\ \frac{\textt11bvpn}{\textfn9dvhtx} \left[\frac{f(x)}{g(x)}\right] &= \frac{g(x) \frac{\textvtrfhtt}{\textjffthhtx} [f(x)] - f(x) \frac{\textlhtv1rf}{\textzjzlxjxx} [g(x)]}{[g(x)]^2}. \end{aligned}

如果y=f(u)u=g(x)都是可導(dǎo)函數(shù)昨登,依據(jù)鏈?zhǔn)椒▌t趾代,

\frac{\textfzl9d19y}{\texthfrr9hhx} = \frac{\text3vp1zj1y}{\text3vh1httu} \frac{\texttpx11xnu}{\textlxthlxhx}.

泰勒展開

函數(shù)f的泰勒展開式是

f(x) = \sum_{n=0}^\infty \frac{f^{(n)}(a)}{n!} (x-a)^n,

其中f^{(n)}為函數(shù)fn階導(dǎo)數(shù)(求n次導(dǎo)數(shù)),n!n的階乘丰辣。假設(shè)\epsilon是一個(gè)足夠小的數(shù)撒强,如果將上式中xa分別替換成x+\epsilonx禽捆,可以得到

f(x + \epsilon) \approx f(x) + f'(x) \epsilon + \mathcal{O}(\epsilon^2).

由于\epsilon足夠小,上式也可以簡(jiǎn)化成

f(x + \epsilon) \approx f(x) + f'(x) \epsilon.

偏導(dǎo)數(shù)

設(shè)u為一個(gè)有n個(gè)自變量的函數(shù)飘哨,u = f(x_1, x_2, \ldots, x_n)胚想,它有關(guān)第i個(gè)變量x_i的偏導(dǎo)數(shù)為

\frac{\partial u}{\partial x_i} = \lim_{h \rightarrow 0} \frac{f(x_1, \ldots, x_{i-1}, x_i+h, x_{i+1}, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}.

以下有關(guān)偏導(dǎo)數(shù)的表達(dá)式等價(jià):

\frac{\partial u}{\partial x_i} = \frac{\partial f}{\partial x_i} = f_{x_i} = f_i = \text{D}_i f = \text{D}_{x_i} f.

為了計(jì)算\partial u/\partial x_i,只需將x_1, \ldots, x_{i-1}, x_{i+1}, \ldots, x_n視為常數(shù)并求u有關(guān)x_i的導(dǎo)數(shù)芽隆。

梯度

假設(shè)函數(shù)f: \mathbb{R}^n \rightarrow \mathbb{R}的輸入是一個(gè)n維向量\boldsymbol{x} = [x_1, x_2, \ldots, x_n]^\top浊服,輸出是標(biāo)量。函數(shù)f(\boldsymbol{x})有關(guān)\boldsymbol{x}的梯度是一個(gè)由n個(gè)偏導(dǎo)數(shù)組成的向量:

\nabla_{\boldsymbol{x}} f(\boldsymbol{x}) = \bigg[\frac{\partial f(\boldsymbol{x})}{\partial x_1}, \frac{\partial f(\boldsymbol{x})}{\partial x_2}, \ldots, \frac{\partial f(\boldsymbol{x})}{\partial x_n}\bigg]^\top.

為表示簡(jiǎn)潔胚吁,我們有時(shí)用\nabla f(\boldsymbol{x})代替\nabla_{\boldsymbol{x}} f(\boldsymbol{x})牙躺。

假設(shè)\boldsymbol{x}是一個(gè)向量,常見的梯度演算包括

\begin{aligned} \nabla_{\boldsymbol{x}} \boldsymbol{A}^\top \boldsymbol{x} &= \boldsymbol{A}, \\ \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{A} &= \boldsymbol{A}, \\ \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} &= (\boldsymbol{A} + \boldsymbol{A}^\top)\boldsymbol{x},\\ \nabla_{\boldsymbol{x}} \|\boldsymbol{x} \|^2 &= \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{x} = 2\boldsymbol{x}. \end{aligned}

類似地囤采,假設(shè)\boldsymbol{X}是一個(gè)矩陣,那么
\nabla_{\boldsymbol{X}} \|\boldsymbol{X} \|_F^2 = 2\boldsymbol{X}.

海森矩陣

假設(shè)函數(shù)f: \mathbb{R}^n \rightarrow \mathbb{R}的輸入是一個(gè)n維向量\boldsymbol{x} = [x_1, x_2, \ldots, x_n]^\top惩淳,輸出是標(biāo)量蕉毯。假定函數(shù)f所有的二階偏導(dǎo)數(shù)都存在,f的海森矩陣\boldsymbol{H}是一個(gè)nn列的矩陣:

\boldsymbol{H} = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \dots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \dots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \dots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix},

其中二階偏導(dǎo)數(shù)

\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial }{\partial x_j} \left(\frac{\partial f}{ \partial x_i}\right).

概率

最后思犁,我們簡(jiǎn)要介紹條件概率代虾、期望和均勻分布。

條件概率

假設(shè)事件A和事件B的概率分別為P(A)P(B)激蹲,兩個(gè)事件同時(shí)發(fā)生的概率記作P(A \cap B)P(A, B)棉磨。給定事件B,事件A的條件概率

P(A \mid B) = \frac{P(A \cap B)}{P(B)}.

也就是說(shuō)学辱,

P(A \cap B) = P(B) P(A \mid B) = P(A) P(B \mid A).

當(dāng)滿足

P(A \cap B) = P(A) P(B)

時(shí)乘瓤,事件A和事件B相互獨(dú)立。

期望

離散的隨機(jī)變量X的期望(或平均值)為

E(X) = \sum_{x} x P(X = x).

均勻分布

假設(shè)隨機(jī)變量X服從[a, b]上的均勻分布策泣,即X \sim U(a, b)衙傀。隨機(jī)變量Xab之間任意一個(gè)數(shù)的概率相等。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末萨咕,一起剝皮案震驚了整個(gè)濱河市统抬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌危队,老刑警劉巖聪建,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異茫陆,居然都是意外死亡金麸,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門簿盅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)钱骂,“玉大人叔锐,你說(shuō)我怎么就攤上這事〖啵” “怎么了愉烙?”我有些...
    開封第一講書人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)解取。 經(jīng)常有香客問(wèn)我步责,道長(zhǎng),這世上最難降的妖魔是什么禀苦? 我笑而不...
    開封第一講書人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任蔓肯,我火速辦了婚禮,結(jié)果婚禮上振乏,老公的妹妹穿的比我還像新娘蔗包。我一直安慰自己,他們只是感情好慧邮,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開白布调限。 她就那樣靜靜地躺著,像睡著了一般误澳。 火紅的嫁衣襯著肌膚如雪耻矮。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,573評(píng)論 1 305
  • 那天忆谓,我揣著相機(jī)與錄音裆装,去河邊找鬼。 笑死倡缠,一個(gè)胖子當(dāng)著我的面吹牛哨免,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播昙沦,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼铁瞒,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了桅滋?” 一聲冷哼從身側(cè)響起慧耍,我...
    開封第一講書人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎丐谋,沒想到半個(gè)月后芍碧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡号俐,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年泌豆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吏饿。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡踪危,死狀恐怖蔬浙,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情贞远,我是刑警寧澤畴博,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站蓝仲,受9級(jí)特大地震影響俱病,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜袱结,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一亮隙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧垢夹,春花似錦溢吻、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至噪漾,卻和暖如春硼砰,著一層夾襖步出監(jiān)牢的瞬間且蓬,已是汗流浹背欣硼。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留恶阴,地道東北人诈胜。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像冯事,于是被迫代替她去往敵國(guó)和親焦匈。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 【轉(zhuǎn)載】線性代數(shù)基礎(chǔ)知識(shí) 原文地址:http://blog.csdn.net/longxinchen_ml/art...
    劉卡卡愛吃烤土豆閱讀 1,230評(píng)論 0 0
  • author: zhangyifengtitle: some background need for ml(還會(huì)更...
    張億鋒閱讀 871評(píng)論 0 0
  • 考試科目:高等數(shù)學(xué)昵仅、線性代數(shù)缓熟、概率論與數(shù)理統(tǒng)計(jì) 考試形式和試卷結(jié)構(gòu) 一、試卷滿分及考試時(shí)間 試卷滿分為150分摔笤,考...
    Saudade_lh閱讀 1,077評(píng)論 0 0
  • 2017年考研數(shù)學(xué)一大綱原文 考試科目:高等數(shù)學(xué)够滑、線性代數(shù)、概率論與數(shù)理統(tǒng)計(jì) 考試形式和試卷結(jié)構(gòu) 一吕世、試卷滿分及考...
    SheBang_閱讀 625評(píng)論 0 7
  • 考試形式和試卷結(jié)構(gòu)一彰触、試卷滿分及考試時(shí)間 試卷滿分為150分,考試時(shí)間為180分鐘 二命辖、答題方式 答題方式為閉卷况毅、...
    幻無(wú)名閱讀 755評(píng)論 0 3