1.微積分
導(dǎo)數(shù):一個(gè)函數(shù)在某一點(diǎn)的導(dǎo)數(shù)描述了這個(gè)函數(shù)在這一點(diǎn)附近的變化率竟趾。
$$
f'(a) = \lim_{h \rightarrow 0} \frac{f(a+h)-f(a)}{h}
$$
梯度:多元函數(shù)的導(dǎo)數(shù)就是梯度伸蚯。
一階導(dǎo)數(shù)和梯度(gradient)
? $f'(x)$ ;
$$
\nabla f(\bf{X}) = \frac{\partial f(\bf{X})}{\partial \bf{X}} = \begin{bmatrix}
\frac{\partial f(\bf{X})}{\partial {x_1}} \
\frac{\partial f(\bf{X})}{\partial {x_2}} \
\vdots\
\frac{\partial f(\bf{X})}{\partial {x_n}} \
\end{bmatrix}
$$
二階導(dǎo)數(shù)與Hessian矩陣:
$f''(x)$;
$$
\bf{H}(x)= \nabla^2f(\bf{X}) = \begin{bmatrix}
\frac{\partial ^2 f(\bf{X})}{\partial {x_1}^2} & \frac{\partial ^2 f(\bf{X})}{\partial {x_1}\partial {x_2}} & \cdots & \frac{\partial ^2 f(\bf{X})}{\partial {x_1}\partial {x_n}} &\
\frac{\partial ^2 f(\bf{X})}{\partial {x_2}\partial {x_1}} & \frac{\partial ^2 f(\bf{X})}{\partial {x_2}^2} & \cdots & \frac{\partial ^2 f(\bf{X})}{\partial {x_2}\partial {x_n}} &\
\vdots & \vdots & \ddots & \vdots \
\frac{\partial ^2 f(\bf{X})}{\partial {x_n}\partial {x_1}} & \frac{\partial ^2 f(\bf{X})}{\partial {x_n}\partial {x_2}} & \cdots & \frac{\partial ^2 f(\bf{X})}{\partial {x_n}^2} &\
\end{bmatrix}
$$
泰勒級數(shù):
輸入為標(biāo)量的泰勒級數(shù):
$$
f(x_k + \delta) \approx f(x_k) +f'(x_k)\delta + \frac{1}{2}f''(x_k)\delta^2 + \cdots +\frac{1}{n!}f{(n)}(x_k)\deltan
$$
輸入為矢量的泰勒級數(shù)(前三項(xiàng)):
$$
f(\bf{x}_k + \bf{\delta}) \approx f(x_k) +\nabla^Tf(\bf{x}_k) \bf{\delta} + \frac{1}{2}\bf{\delta^T}f''(\bf{x}_k)\bf{\delta}
$$
此時(shí) 滿足 $\nabla^T f(\bf{x}_k) =0?$ 的點(diǎn)為平穩(wěn)點(diǎn)饵筑,如果還有:
? $\nabla^2 f(\bf{x}_k) > 0$ 舒憾,即 為正定矩陣巩割,則 $\bf{x}_k$為一嚴(yán)格局部極小值點(diǎn)(反之删性,嚴(yán)格局部極大值點(diǎn))
? 如果 $\nabla^2 f(\bf{x}_k) =0$ 沃疮,即為不定矩陣葫辐,則是一個(gè)鞍點(diǎn)(如 $f(x)=x^3,x=0$時(shí))章喉,此時(shí)需要考慮三階導(dǎo)數(shù)汗贫。
問題:為什么優(yōu)化時(shí)選擇梯度方向,梯度方向?yàn)槭裁词亲兓羁斓姆较颍?/em>
答:由泰勒級數(shù)展開式的前兩項(xiàng) $f(\bf{x}_k + \bf{\delta}) \approx f(x_k) +\nabla^Tf(\bf{x}_k) \bf{\delta} $ 可知秸脱,當(dāng)$\delta$ 是一個(gè)模不變但方向不確定的矢量時(shí)落包,此時(shí) $f(\bf{x}_k + \bf{\delta}) - f(x_k) \approx \nabla^Tf(\bf{x}_k) \bf{\delta} $ , 可知,當(dāng) $\delta = \nabla f(\bf{x}_k)$ 時(shí)摊唇,$\nabla^Tf(\bf{x}_k) \bf{\delta} = ||\nabla^2(\bf{x}_k) || $ ,此時(shí)取得最大的差值咐蝇,也就是說 $\delta$ 取梯度方向是變化最大。 梯度下降法中的迭代方法就是負(fù)梯度方向巷查,因?yàn)樵摲较蛳陆底羁欤?/strong>
2. 概率論
隨機(jī)變量
累積分布函數(shù)
概率密度函數(shù)
高斯分布
獨(dú)立同分布定理
3. 線性代數(shù)
方陣的特征值(Eigenvalues)與特征向量(Eigenvectors)
$$
\bf{Ax}= \lambda \bf{x}
$$
特征值和特征向量的幾何意義與物理意義**:
矩陣是數(shù)學(xué)中非常抽象的一個(gè)概念有序,廣義上我們可以將矩陣看作一個(gè)運(yùn)動(dòng)。即矩陣乘法對應(yīng)了一個(gè)變換岛请,是把任意一個(gè)向量變成另一個(gè)方向或長度都大多不同的新向量旭寿。在這個(gè)變換過程中,原向量主要發(fā)生旋轉(zhuǎn)崇败、伸縮的變化盅称。 如果矩陣對某個(gè)或某些向量只發(fā)生伸縮變換,而不對這些向量產(chǎn)生旋轉(zhuǎn)的效果,那么這些向量就稱作這個(gè)矩陣的特征向量缩膝,伸縮的比例就是特征值混狠。其物理意義就是運(yùn)動(dòng)的圖景:特征向量在一個(gè)矩陣的作用下作伸縮運(yùn)動(dòng),伸縮的幅度由特征值確定逞盆。
特征分解的性質(zhì):
對于 $\bf{Ax_i} = \lambda \bf{x_i}$ 檀蹋,如果所有的特征值都不相同,則對應(yīng)的所有特征向量都線性無關(guān)云芦。此時(shí) $\bf{A}$ 可以被對角化為:
$$
\bf{A=V \Lambda V^{-1}}
$$
其中 $\bf{V=[x_1,x_2,\cdots,x_n]}$ , $\Lambda = Diag (\lambda_1,\lambda_2,\cdots, \lambda_n)$ 俯逾。
并不是所有的方陣都可以被對角化,這里主要考慮對稱矩陣($A= A^T$)的特征分解舅逸。
如果一個(gè)對稱矩陣的特征值都不相同桌肴,則其相應(yīng)的所有特征向量正交。($\bf{UUT=UTU=I}$)
$$
\begin{split} \bf{A =U \Lambda U^T=\begin{bmatrix} u_1,u_2,\cdots,u_n \end{bmatrix} } \begin{bmatrix}\lambda_1 & &\ & \ddots &\ & & \lambda_n\end{bmatrix} \begin{bmatrix} \bf{u_1^T\ u_2^T\ \vdots\u_n^T} \end{bmatrix} = \sum_{i=1}^n \lambda_i \bf{u_iu_i^T}
\end{split}
$$
對稱矩陣的特征值都是實(shí)數(shù)琉历。
二次型**(Quadratic Form):
給定矩陣 $\bf{A} \in R^{m \times n}$ 坠七,函數(shù)
$$
\bf{x^TAx=\sum\sum}x_ix_ja_{ij}
$$
被稱為二次型。
如果對于所有 $\bf{x} \in R^n$ 旗笔,有 $\bf{x^TAx} \geq 0$ 彪置,則為半正定矩陣,此時(shí) $\lambda(\bf{A}) \geq 0$ .
特征分解的應(yīng)用——PCA的本質(zhì)
PCA的本質(zhì)就是協(xié)方差矩陣的對角化蝇恶。
4. 凸優(yōu)化問題
凸集:一個(gè)集合中任意兩點(diǎn)的連線都在該集合中拳魁,則這個(gè)集合是一個(gè)凸集。
一個(gè)函數(shù) $f$ 是凸函數(shù)撮弧,滿足:
它的定義域是凸集潘懊;
對于定義域中的任意兩點(diǎn) $x_1$、 $x_2$贿衍, 對任意 $0 \leq \alpha \leq 1$授舟, 有
$$
f(\alpha x_1 +(1-\alpha)x_2) \leq \alpha f(x_1) + (1-\alpha) f(x_2)
$$
機(jī)器學(xué)習(xí)中的凸優(yōu)化問題是一類特殊的優(yōu)化問題。凸優(yōu)化問題的形式是
$$
\min_{x\in S}f(x)
$$
其中 $f(x)$是凸函數(shù)贸辈,可行域 $S$ 是凸集释树。或等價(jià)為:
$$
\min_xf(x) \ \text{subject to} \quad g_i(x) \leq 0, \text{for} \quad i=1,2,\cdots,k
$$
其中$f(x)$ 和所有的約束函數(shù) $g_i(x)都是凸函數(shù)裙椭。
凸優(yōu)化問題的性質(zhì):它的局部最優(yōu)解一定是全局最優(yōu)解躏哩。