2018-11-08


author: zhangyifeng
title: some background need for ml(還會更新)


Matrix

notation

\boldsymbol \alpha \in \mathbb{R}^{n}

\boldsymbol x \in \mathbb{R}^{n}

A\in \mathbb{R}^{m\times n}

(A)_{ij}=a_{ij}

A^{T}: transpose of A

tr(A)=\sum_{i=1}^{n}a_{ii}

det(A)=\sum_{\sigma\in S_{n}}par(\sigma)a_{1\sigma_{1}}a_{2\sigma_{2}}\dots_{1\sigma_{n}},
where S_{n} is all set of n-order permutation. par(\sigma) can be
-1 or +1.
also,
det(A)=\sum_{i=1}^{n}a_{ki}A_{ki} (k=1,2,\dots,n)=\sum_{j=1}^{n}a_{jl}A_{jl} (l=1,2,\dots,n)

Frobenius norm of A:
\|A\|_{F}=(tr(A^{T}A))^{1/2}=(\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{n}a_{ij}^{2})^{1/2}
it can be regarded as L_{2} norm when metrix was extended to vectors

函數(shù)空間的集合表示:如果X,Y是集合壳影,則令Y^{X}表示所有從XY的函數(shù)的集合疲迂。這里,Y^{X}是有限笛卡爾積(Cartesian power)Y^{n}的推廣擦盾。例如冲甘,Y^{n}可定義為所有從\{1,\dots,n\}Y的函數(shù)集合Y^{\{1,\dots,n\}}席纽,更多內(nèi)容可參看:http://faculty.bard.edu/belk/math351/FunctionSpaces.pdf

Basic calculate

tr(AB)=tr(BA)

tr(ABC)=tr(BCA)=tr(CAB)

誤差

測量誤差主要分為系統(tǒng)誤差和偶然誤差

系統(tǒng)誤差成規(guī)律性分布瘸彤,有明顯的傾向性悼瓮,如儀器本身的誤差伟件,人的誤差硼啤,不服從正態(tài)分布。

偶然誤差(又稱隨機(jī)誤差)成正態(tài)分布斧账,可能是觀測的誤差谴返。

common distribution

gamma distribution

gamma function {#gamma-function .unnumbered}

\Gamma(a)=\int_{0}^{\infty}x^{a-1}\exp^{-x}dx, where a>0

Matrix Differentiation

Matrix Differentiation-from functional analysis points

假設(shè)XY為賦范向量空間,F: X\rightarrow Y是一個(gè)映射咧织,那么Fx_0 \in X可導(dǎo)的意思是說存在一個(gè)有界線性算子L \in \mathcal{L}(X, Y)嗓袱,使得對于任意的\epsilon > 0都存在\delta > 0,對于滿足x \in X \backslash \{x_0\}, \|x - x_0\| < \deltax都有\frac{\|F(x) - F(x_0) - L(x - x_0)\|}{\|x - x_0\|} < \epsilon.我們稱L(\|x - x_0\|)Fx_0點(diǎn)的微分习绢。

以上定義有一個(gè)等價(jià)的表述渠抹,往往計(jì)算起來更方便:對于距離x_0足夠近的點(diǎn)x,即
\lim_{x \rightarrow x_0}\frac{o(\|x-x_0\|)}{\|x-x_0\|} = 0闪萄,
F(x) = F(x_0) + L(x - x_0) + o(\|x - x_0\|).
(注:此處L(x-x_0)應(yīng)該理解為線性算子Lx - x_0這個(gè)點(diǎn)的值梧却,而不是L乘以x-x_0。不過在有限維空間所有線性算子都可以用矩陣表述败去,Lx - x_0,這個(gè)值便正好可以表述為矩陣與向量的乘積(Riesz表示定理))

例子1:假設(shè)F(X) = X^TX是一個(gè)\mathbb{R}^{m\times n} \rightarrow \mathbb{ S}^n的映射放航,其中\mathbb{S }^nn維對稱陣的空間。
\begin{aligned} ? &F(X+\Delta X) - F(X) \\ ? =& (X+\Delta X)^T(X+\Delta X) - X^TX \\ ? =& X^T\Delta X + \Delta X^TX + o(\|\Delta X\|) \\ ? % =& 2X^T\Delta X + o(\|\Delta X\|) ? \end{aligned}
所以我們有L(\Delta X) = 2X^T\Delta X圆裕,這個(gè)就是FX點(diǎn)的微分广鳍。

例子2:最小二乘問題f(x) = \frac{1}{2}\|Ax-b\|_2^2,f是一個(gè)\mathbb R^n \rightarrow \mathbb R的映射吓妆。

\begin{aligned} ? &f(x+\Delta x) - f(x) \\ ? =& \frac{1}{2}\|A(x+\Delta x) - b\|^2 - \frac{1}{2}\|Ax - b\|^2\\ ? =& \frac{1}{2}\|Ax - b + A\Delta x\|^2 - \frac{1}{2}\|Ax - b\|^2\\ ? =& (Ax - b)^TA\Delta x + o(\|\Delta x\|) ? \end{aligned}

所以我們有L(\Delta x) = (Ax - b)^TA\Delta x搜锰,這個(gè)就是fx點(diǎn)的微分。在這種情況下耿战,L這個(gè)有界線性算子(梯度)可以用矩陣來表述(Riesz表示定理):
L(\Delta x) = \langle \nabla f(x), \Delta x \rangle = (Ax-b)^TA\Delta x
所以梯度\nabla f(x) = A^T(Ax - b)

總結(jié):在有限維的情況下焊傅,我們可以先求F的微分L(\Delta x)剂陡,利用Riesz表示定理,得L(\Delta x) = \langle f^{'}(x) , \Delta x \rangle狐胎,可求得對應(yīng)的gradient
vector或者jacobi矩陣f^{'}(x)鸭栖,也就是導(dǎo)數(shù),顯然握巢,
這里可以看出晕鹊,導(dǎo)數(shù)和微分差一個(gè)轉(zhuǎn)置。

標(biāo)量f對矩陣X的導(dǎo)數(shù)

核心思想 {#核心思想 .unnumbered}

函數(shù)的微分 = 函數(shù)的導(dǎo)數(shù) 和 自變量的微分 的內(nèi)積
= \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right)

矩陣微分運(yùn)算法則

加減法:d(X\pm Y) = dX \pm dY

矩陣乘法:d(XY) = (dX)Y + X dY

轉(zhuǎn)置:d(X^T) = (dX)^T

跡:d\text{tr}(X) = \text{tr}(dX)

逆:dX^{-1} = -X^{-1}dX X^{-1}。此式可在XX^{-1}=I兩側(cè)求微分來證明

行列式:d|X| = \text{tr}(X^{\#}dX)
溅话,其中X^{\#}表示X的伴隨矩陣晓锻,在X可逆時(shí)又可以寫作d|X|= |X|\text{tr}(X^{-1}dX)。此式可用Laplace展開來證明飞几,詳見張賢達(dá)《矩陣分析與應(yīng)用》第279頁

逐元素乘法:d(X\odot Y) = dX\odot Y + X\odot dY砚哆,\odot表示尺寸相同的矩陣X,Y逐元素相乘

逐元素函數(shù):d\sigma(X) = \sigma'(X)\odot dX
\sigma(X) = \left[\sigma(X_{ij})\right]是逐元素標(biāo)量函數(shù)運(yùn)算屑墨,
\sigma'(X)=[\sigma'(X_{ij})]是逐元素求導(dǎo)數(shù)躁锁。

舉個(gè)例子, X = ? \left[\begin{matrix} ? x_{11} & x_{12} \\ ? x_{21} & x_{22} ? \end{matrix}\right], ? d \sin(X) = ? \left[\begin{matrix}\cos x_{11} dx_{11} & \cos x_{12} d x_{12}\\ ? \cos x_{21} d x_{21}& \cos x_{22} dx_{22} ? \end{matrix}\right] = ? \cos(X)\odot dX卵史。

跡技巧(trace trick)

標(biāo)量套上跡:a = \text{tr}(a)

轉(zhuǎn)置:{tr}(A^T) = {tr}(A)

線性:\text{tr}(A\pm B) = \text{tr}(A)\pm \text{tr}(B)

矩陣乘法交換:\text{tr}(AB) = \text{tr}(BA)战转,其中AB^T尺寸相同。兩側(cè)都等于\sum_{i,j}A_{ij}B_{ji}

矩陣乘法/逐元素乘法交換:\text{tr}(A^T(B\odot C)) = \text{tr}((A\odot B)^TC)以躯,其中A,
B, C尺寸相同槐秧。兩側(cè)都等于\sum_{i,j}A_{ij}B_{ij}C_{ij}

復(fù)合法則

假設(shè)已求得\frac{\partial f}{\partial Y},而YX的函數(shù)寸潦,如何求\frac{\partial f}{\partial X}呢色鸳?在微積分中有標(biāo)量求導(dǎo)的鏈?zhǔn)椒▌t\frac{\partial f}{\partial x} = \frac{\partial f}{\partial y} \frac{\partial y}{\partial x},但這里我們不能沿用鏈?zhǔn)椒▌t见转,因?yàn)榫仃噷仃嚨膶?dǎo)數(shù)\frac{\partial Y}{\partial X}截至目前仍是未定義的命雀。于是我們繼續(xù)追本溯源,鏈?zhǔn)椒▌t是從何而來斩箫?源頭仍然是微分吏砂。我們直接從微分入手建立復(fù)合法則:先寫出df = \text{tr}\left(\frac{\partial f}{\partial Y}^T dY\right),再將dYdX表示出來代入(這個(gè)是矩陣對矩陣的導(dǎo)數(shù)乘客,在下一節(jié)我們會了解到)狐血,并使用跡技巧將其他項(xiàng)交換至dX左側(cè),即可得到\frac{\partial f}{\partial X}易核。

標(biāo)量對矩陣的一般求導(dǎo)步驟

1.對標(biāo)量函數(shù)f兩端作微分匈织,利用微分運(yùn)算法則化簡

2.對兩端作跡運(yùn)算,利用跡運(yùn)算法則化簡牡直,將dx移到最右端

3.利用微分和矩陣的聯(lián)系df = \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right),求\frac{\partial f}{\partial X}

一些例子

例1:f = \boldsymbol{a}^T X\boldsymbol缀匕,求\frac{\partial f}{\partial X}碰逸。其中\boldsymbol{a}m×1列向量乡小,Xm\times n矩陣,\boldsymbol饵史n×1列向量满钟,f是標(biāo)量胜榔。

解:
1.作微分:這里的\boldsymbol{a}, \boldsymbol是常量湃番,d\boldsymbol{a} = \boldsymbol{0},
d\boldsymbol夭织 = \boldsymbol{0},得:df = \boldsymbol{a}^T dX\boldsymbol牵辣

2.作跡運(yùn)算:df = \text{tr}(\boldsymbol{a}^TdX\boldsymbol摔癣) = \text{tr}(\boldsymbol\boldsymbol{a}^TdX)纬向,注意這里我們根據(jù)\text{tr}(AB) = \text{tr}(BA)交換了\boldsymbol{a}^TdX與\boldsymbol择浊

3.對照導(dǎo)數(shù)與微分的聯(lián)系df = \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right),得到\frac{\partial f}{\partial X} = (\boldsymbol逾条\boldsymbol{a}^T)^T= \boldsymbol{a}\boldsymbol琢岩^T
例2:f = \boldsymbol{a}^T \exp(X\boldsymbol师脂)担孔,求\frac{\partial f}{\partial X}。其中\boldsymbol{a}m×1列向量吃警,Xm\times n矩陣糕篇,\boldsymboln×1列向量酌心,exp表示逐元素求指數(shù)拌消,f是標(biāo)量。

解:
1.作微分:df = \boldsymbol{a}^T(\exp(X\boldsymbol安券)\odot (dX\boldsymbol墩崩))

2.作跡運(yùn)算:df = \text{tr}( \boldsymbol{a}^T(\exp(X\boldsymbol)\odot (dX\boldsymbol侯勉))) =\text{tr}((\boldsymbol{a}\odot \exp(X\boldsymbol鹦筹))^TdX \boldsymbol) = \text{tr}(\boldsymbol址貌(\boldsymbol{a}\odot \exp(X\boldsymbol铐拐))^TdX)

3.對照導(dǎo)數(shù)與微分的聯(lián)系df = \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right),得到\frac{\partial f}{\partial X} = (\boldsymbol练对(\boldsymbol{a}\odot \exp(X\boldsymbol遍蟋))^T)^T= (\boldsymbol{a}\odot \exp(X\boldsymbol))\boldsymbol锹淌^T
例3【線性回歸】:l = \|X\boldsymbol{w}- \boldsymbol{y}\|^2赠制,
\boldsymbol{w}的最小二乘估計(jì)赂摆,即求\frac{\partial l}{\partial \boldsymbol{w}}的零點(diǎn)挟憔。其中\boldsymbol{y}m×1列向量,Xm\times n矩陣烟号,\boldsymbol{w}n×1列向量绊谭,l是標(biāo)量。

解:嚴(yán)格來說這是標(biāo)量對向量的導(dǎo)數(shù)汪拥,不過可以把向量看做矩陣的特例(此時(shí)可以省略第二步:作跡運(yùn)算)达传。

先將向量模平方改寫成向量與自身的內(nèi)積:l = (X\boldsymbol{w}- \boldsymbol{y})^T(X\boldsymbol{w}- \boldsymbol{y})

1.求微分:dl = (Xd\boldsymbol{w})^T(X\boldsymbol{w}-\boldsymbol{y})+(X\boldsymbol{w}-\boldsymbol{y})^T(Xd\boldsymbol{w}) = 2(X\boldsymbol{w}-\boldsymbol{y})^TXd\boldsymbol{w}

2.對照導(dǎo)數(shù)與微分的聯(lián)系dl = \frac{\partial l}{\partial \boldsymbol{w}}^Td\boldsymbol{w}迫筑,得到\frac{\partial l}{\partial \boldsymbol{w}}= (2(X\boldsymbol{w}-\boldsymbol{y})^TX)^T = 2X^T(X\boldsymbol{w}-\boldsymbol{y})宪赶。\frac{\partial l}{\partial \boldsymbol{w}}的零點(diǎn)即\boldsymbol{w}的最小二乘估計(jì)為\boldsymbol{w} = (X^TX)^{-1}X^T\boldsymbol{y}
例4【方差的最大似然估計(jì)】:樣本\boldsymbol{x}_1,\dots, \boldsymbol{x}_n\sim N(\boldsymbol{\mu}, \Sigma)脯燃,求方差\Sigma的最大似然估計(jì)搂妻。寫成數(shù)學(xué)式是:l = \log|\Sigma|+\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}}),求\frac{\partial l }{\partial \Sigma}的零點(diǎn)辕棚。其中\boldsymbol{x}_im\times 1列向量,\overline{\boldsymbol{x}}=\frac{1}{n}\sum_{i=1}^n \boldsymbol{x}_i是樣本均值,\Sigmam\times m對稱正定矩陣,l是標(biāo)量。

解:
1.作微分:第一項(xiàng)是d\log|\Sigma| = |\Sigma|^{-1}d|\Sigma| = \text{tr}(\Sigma^{-1}d\Sigma)够掠,第二項(xiàng)是\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^Td\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}}) = -\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}d\Sigma\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})竖哩。

2.作跡運(yùn)算:\text{tr}\left(\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}d\Sigma\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})\right) = \frac{1}{n} \sum_{i=1}^n \text{tr}((\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1} d\Sigma \Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}}))= \frac{1}{n}\sum_{i=1}^n\text{tr}\left(\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}d\Sigma\right)
=\text{tr}(\Sigma^{-1}S\Sigma^{-1}d\Sigma)
,定義S = \frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T為樣本方差矩陣辽幌。得到dl = \text{tr}\left(\left(\Sigma^{-1}-\Sigma^{-1}S\Sigma^{-1}\right)d\Sigma\right)

3.對照導(dǎo)數(shù)與微分的聯(lián)系加酵,有\frac{\partial l }{\partial \Sigma}=(\Sigma^{-1}-\Sigma^{-1}S\Sigma^{-1})^T码撰,其零點(diǎn)即\Sigma的最大似然估計(jì)為\Sigma = S柴梆。

矩陣F對矩陣X的導(dǎo)數(shù) {#矩陣f對矩陣x的導(dǎo)數(shù) .unnumbered}

一般而言雹有,標(biāo)量就是1\times1的矩陣,如果我們能推導(dǎo)出矩陣對矩陣的導(dǎo)數(shù)溜宽,標(biāo)量對矩陣的導(dǎo)數(shù)不是自然的么质帅,不應(yīng)該可以統(tǒng)一進(jìn)來么,那為啥還要大費(fèi)周章地先寫標(biāo)量對矩陣的導(dǎo)數(shù)煤惩。原因是這兩者不完全相同剪侮,并不能很簡單地統(tǒng)一起來。

應(yīng)該怎么定義矩陣對矩陣的導(dǎo)數(shù)。回答這個(gè)問題不是隨意的驻仅,為了滿足兩個(gè)要求谅畅,我們對矩陣對矩陣的定義有嚴(yán)格的要求噪服。我們的兩個(gè)要求是:

1.矩陣F\in \mathbb{R}^{p \times q}對矩陣X\in \mathbb{R}^{m \times n}的導(dǎo)數(shù)應(yīng)包含所有mnpq個(gè)偏導(dǎo)數(shù)\frac{\partial F_{kl}}{\partial X_{ij}},從而不損失信息。

2.在標(biāo)量對矩陣求導(dǎo)的地方,我們發(fā)現(xiàn)導(dǎo)數(shù)與微分有簡明的聯(lián)系王财。這里我們?nèi)韵M麄冎g存在某種聯(lián)系闪金。

為此囱嫩,我們先定義向量\boldsymbol{f}(p×1)對向量\boldsymbol{x}(m×1)的導(dǎo)數(shù)
\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}} ? = ? \begin{bmatrix} ? \frac{\partial f_1}{\partial x_1} & \frac{\partial f_2}{\partial x_1} & \cdots & \frac{\partial f_p}{\partial x_1}\\ ? \frac{\partial f_1}{\partial x_2} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_p}{\partial x_2}\\ ? \vdots & \vdots & \ddots & \vdots\\ ? \frac{\partial f_1}{\partial x_m} & \frac{\partial f_2}{\partial x_m} & \cdots & \frac{\partial f_p}{\partial x_m}\\ ? \end{bmatrix}(m×p)
此時(shí)郑口,可以證明,d\boldsymbol{f} = \sum\limits_{i,j}\frac{\partial f_{i}}{\partial x_{j}} dx_{j} = ? \frac{\partial \boldsymbol{f} }{\partial \boldsymbol{x} }^T d\boldsymbol{x},這個(gè)定義滿足我們的兩個(gè)要求套利,所以我們現(xiàn)在作好了了向量對向量的導(dǎo)數(shù)。

再定義矩陣的(按列優(yōu)先)向量化:
{vec}(X) = [X_{11}, \ldots, X_{m1}, X_{12}, \ldots, X_{m2}, \ldots, X_{1n}, \ldots, X_{mn}]^T(mn×1)
并定義矩陣F對矩陣X的導(dǎo)數(shù)\frac{\partial F}{\partial X}=
\frac{\partial {vec}(F)}{\partial {vec}(X)}(mn×pq)族购。
此時(shí)撑碴,可以證明醉拓,導(dǎo)數(shù)與微分有聯(lián)系{vec}(dF) =
\frac{\partial F}{\partial X}^T {vec}(dX)收苏,這樣,我們作好了滿足要求的矩陣關(guān)于矩陣的導(dǎo)數(shù)排吴。

列向量化運(yùn)算法則

1.線性:{vec}(A+B) = {vec}(A) + {vec}(B)

2.[
矩陣乘法]{}:{vec}(AXB) = (B^T \otimes A) {vec}(X)懦鼠,其中\otimes表示Kronecker積,A(m×n)與B(p×q)的Kronecker積是A\otimes B = [A_{ij}B](mp×nq)。此式證明見張賢達(dá)《矩陣分析與應(yīng)用》第107-108頁。

3.轉(zhuǎn)置:{vec}(A^T) = K_{mn}{vec}(A)厉亏,Am×n矩陣,其中K_{mn}(mn×mn)是換位矩陣(commutation
matrix)(就是一些初等換位矩陣的乘積)招刹。

4.逐元素乘法:{vec}(A\odot X) = {diag}(A){vec}(X)虱颗,其中{diag}(A)(mn×mn)是用A的元素(按列優(yōu)先)排成的對角陣。

一些Kronecker積和交換矩陣相關(guān)的恒等式

1.(A\otimes B)^T = A^T \otimes B^T蔗喂。

2.{vec}(\boldsymbol{ab}^T) = \boldsymbol\otimes\boldsymbol{a}高帖。

3.(A\otimes B)(C\otimes D) = (AC)\otimes (BD)缰儿。可以對F = D^TB^TXAC求導(dǎo)來證明散址,一方面乖阵,直接求導(dǎo)得到\frac{\partial F}{\partial X} = (AC) \otimes (BD);另一方面预麸,引入Y = B^T X A瞪浸,有\frac{\partial F}{\partial Y} = C \otimes D,
\frac{\partial Y}{\partial X} = A \otimes B,用鏈?zhǔn)椒▌t得到\frac{\partial F}{\partial X} = (A\otimes B)(C \otimes D)吏祸。

4.K_{mn} = K_{nm}^T, K_{mn}K_{nm} = I对蒲,所以換位矩陣是正交矩陣。

5.K_{pm}(A\otimes B) K_{nq} = B\otimes A贡翘,Am×n矩陣蹈矮,Bp×q矩陣∶可以對AXB^T做向量化來證明泛鸟,一方面,{vec}(AXB^T) = (B\otimes A){vec}(X)踊东;另一方面北滥,{vec}(AXB^T) = K_{pm}{vec}(BX^TA^T) = K_{pm}(A\otimes B){vec}(X^T) = K_{pm}(A\otimes B) K_{nq}{vec}(X)

復(fù)合法則

假設(shè)已求得\frac{\partial F}{\partial Y}闸翅,而YX的函數(shù)再芋,如何求\frac{\partial F}{\partial X}呢?從導(dǎo)數(shù)與微分的聯(lián)系入手坚冀,{vec}(dF) = \frac{\partial F}{\partial Y}^T{vec}(dY) = \frac{\partial F}{\partial Y}^T\frac{\partial Y}{\partial X}^T{vec}(dX)祝闻,可以推出鏈?zhǔn)椒▌t\frac{\partial F}{\partial X} = \frac{\partial Y}{\partial X}\frac{\partial F}{\partial Y}

矩陣對矩陣的一般求導(dǎo)步驟

1.對矩陣值函數(shù)F兩端作微分,利用微分運(yùn)算法則化簡

2.對兩端作列向量化運(yùn)算,利用列向量化法則化簡联喘,注意看列向量里面是什么形式华蜒,就用什么公式,如列向量里面是兩個(gè)矩陣相乘豁遭,就想辦法湊進(jìn)去一個(gè)單位矩陣叭喜,并使得{vec}x在中間,然后利用vec的矩陣乘法公式

3.利用微分和矩陣的聯(lián)系{vec}(dF) =
\frac{\partial F}{\partial X}^T {vec}(dX),求\frac{\partial f}{\partial X}

一些例子

例1:F = AX蓖谢,Xm×n矩陣捂蕴,求\frac{\partial F}{\partial X}

解: 1.作微分:dF=AdX

2.列向量化闪幽,使用矩陣乘法的技巧啥辨,注意在dX右側(cè)添加單位陣:{vec}(dF) = {vec}(AdX) = (I_n\otimes A){vec}(dX)

3.對照導(dǎo)數(shù)與微分的聯(lián)系得到\frac{\partial F}{\partial X} = I_n\otimes A^T

特例:如果X退化為向量盯腌,即\boldsymbol{f} = A \boldsymbol{x}溉知,則根據(jù)向量的導(dǎo)數(shù)與微分的關(guān)系d\boldsymbol{f} = \frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}}^T d\boldsymbol{x},得到\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}} = A^T

df(\mathbf{X},\mathbf{Y}) = tr(\frac{\partial f}{\partial \mathbf{X}}^T d\mathbf{X}) + tr(\frac{\partial f}{\partial \mathbf{Y}}^T d\mathbf{Y})
例2:f = \log |X| 腕够,X是n×n矩陣级乍,求\nabla^2_X f

解: 1.求微分:d\nabla_X f = -(X^{-1}dXX^{-1})^T

2.列向量化帚湘,{vec}(d\nabla_X f)= -K_{nn}{vec}(X^{-1}dX X^{-1}) = -K_{nn}(X^{-T}\otimes X^{-1}){vec}(dX)玫荣,

3.對照導(dǎo)數(shù)與微分的聯(lián)系,得到\nabla^2_X f = -K_{nn}(X^{-T}\otimes X^{-1})大诸,注意它是對稱矩陣捅厂。
例3:F = A\exp(XB),Al×m矩陣资柔,Xm×n矩陣恒傻,Bn×p矩陣,exp為逐元素函數(shù)建邓,求\frac{\partial F}{\partial X}盈厘。

解: 1.求微分:dF = A(\exp(XB)\odot (dXB))

2.列向量化:{vec}(dF) = (I_p\otimes A){vec}(\exp(XB)\odot (dXB)) = \\(I_p \otimes A) {diag}(\exp(XB)){vec}(dXB) = (I_p\otimes A){diag}(\exp(XB))(B^T\otimes I_m){vec}(dX)

3.對照導(dǎo)數(shù)與微分的聯(lián)系得到\frac{\partial F}{\partial X} = (B\otimes I_m){diag}(\exp(XB))(I_p\otimes A^T)官边。

注解

1.一般而言沸手,這套方法就是為了矩陣對矩陣求導(dǎo)而引入的,由于這里是利用列向量定義的導(dǎo)數(shù)注簿,所以直接應(yīng)用在標(biāo)量對矩陣X\in \mathbb{R}^{m\times n}的導(dǎo)數(shù)上契吉,會得到一個(gè)mn\times1的列向量,這與我們一般定義的標(biāo)量對矩陣的導(dǎo)數(shù)相悖诡渴,所以一般標(biāo)量對矩陣的導(dǎo)數(shù)捐晶,我們還是利用上一節(jié)的方法菲语。當(dāng)然,若將上一節(jié)定義的標(biāo)量f(X)\in \mathbb{R}^{1}對矩陣X\in \mathbb{R}^{m\times n}的導(dǎo)數(shù)用記號\nabla_X f\in \mathbb{R}^{m\times n}來表示惑灵,則這里定義的\frac{\partial f}{\partial X}={vec}(\nabla_X f),在牢記這一條的情況下山上,我們可以用本節(jié)的方法來解決標(biāo)量對矩陣求導(dǎo),只是沒有上一節(jié)的方法方便英支。為了滿足讀者的好奇心佩憾,我們給出標(biāo)量對矩陣求導(dǎo)的一個(gè)例子,并且用兩種方法來解決干花。

2.標(biāo)量對矩陣的二階導(dǎo)數(shù)妄帘,又稱Hessian矩陣,定義為\nabla^2_X f = \frac{\partial^2 f}{\partial X^2} = \frac{\partial \nabla_X f}{\partial X}(mn×mn)是對稱矩陣池凄,這個(gè)二階導(dǎo)數(shù)分兩次進(jìn)行抡驼,第一次是標(biāo)量對矩陣求導(dǎo),第二次是矩陣對矩陣求導(dǎo)肿仑。

3.如何理解K_{mn}(mn×mn),它是一個(gè)換位矩陣致盟,根據(jù){vec}(A^T) = K_{mn}\\{vec}(A),它的作用是使的{vec}(A^T){vec}(A)的若干行對換位置柏副。由[A]_{i,j}=[A]_{j,i}=[{vec}(A^T)]_{(i-1)n+j}=[{vec}(A)]_{(j-1)n+i},
這里A\in \mathbb{R}^{m\times n}, 1 \leq i \leq m, 1 \leq j \leq n,所以K_{mn}就是單位矩陣(mn×mn)交換(i-1)n+j(j-1)n+i行得到的一個(gè)矩陣蚣录。

對兩節(jié)內(nèi)容的總結(jié)

我們發(fā)展了從整體出發(fā)的矩陣求導(dǎo)的技術(shù)割择,導(dǎo)數(shù)與微分的聯(lián)系是計(jì)算的樞紐。

上一節(jié)中萎河,我們了解了荔泳,標(biāo)量對矩陣的導(dǎo)數(shù)與微分的聯(lián)系是df =\\ {tr}((\nabla_Xf)^T dX),先對f求微分虐杯,再使用跡技巧可求得導(dǎo)數(shù)玛歌,特別地,標(biāo)量對向量的導(dǎo)數(shù)與微分的聯(lián)系是df = (\nabla_{\boldsymbol{x}}f)^T d\boldsymbol{x}

下一節(jié)中擎椰,我們了解了支子,矩陣對矩陣的導(dǎo)數(shù)與微分的聯(lián)系是{vec}(dF) = \frac{\partial F}{\partial X}^T {vec}(dX),先對F求微分达舒,再使用列向量化的技巧可求得導(dǎo)數(shù)值朋,特別地,向量對向量的導(dǎo)數(shù)與微分的聯(lián)系是d\boldsymbol{f} = \frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}}^Td\boldsymbol{x}巩搏。

reference

如何理解矩陣對矩陣求導(dǎo)昨登?-知乎-豬豬專業(yè)戶

矩陣求導(dǎo)術(shù)(上)-知乎-長軀鬼俠

矩陣求導(dǎo)術(shù)(下)-知乎-長軀鬼俠

Lagrange duality

application

applied on:\

  • 最大熵模型\
  • SVM(support vector machine)

primal problem

Set f(\boldsymbol x),c_{i}(\boldsymbol x),h_{j}(\boldsymbol x) are continuously differentiable
function over boldsymbol R{n}, consider optimization problem with constraints
\begin{split} ? &\min_{\boldsymbol x\in \boldsymbol R^{n}}\ f(\boldsymbol x) \\ ? s.t.\ c_{i}(\boldsymbol x)&\leq0, \ i=1,2,\cdots,k\\ ? h_{j}(\boldsymbol x)&=0, \ j=1,2,\cdots,l ? \end{split}

generalized Lagrange function

L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)=f(\boldsymbol x)+\sum\limits_{i=1}^{k}a_{i}c_{i}(\boldsymbol x)+\sum\limits_{j=1}^{l}\beta_{j}h_{j}(\boldsymbol x)
where,
\boldsymbol x=(x^{1},x^{2},\dots,x^{n})^{T}\in\boldsymbol R^{n},\alpha_{i},\beta_{j}
are Lagrange multiplier, \alpha_{i}\geq0
After introduced generalized Lagrange function, primal problem is equal
to \begin{split} ? &\min\limits_{\boldsymbol x}\max\limits_{\boldsymbol \alpha, \boldsymbol \beta}L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)\\ ? &s.t.\ \alpha_{i}\geq0, \ i=1,2,\dots,k ? \end{split}

dual problem

\begin{split} ? &\max\limits_{\boldsymbol\alpha,\boldsymbol\beta}\min\limits_{\boldsymbol x}L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)\\ ? &s.t.\ \alpha_{i}\geq0, \ i=1,2,\dots,k ? \end{split}

KKT(Karush-Kuhn-Tucker)condition

\begin{split} ? \nabla_{x}L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)&=0\\ ? \nabla_{\alpha}L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)&=0\\ ? \nabla_{\beta}L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)&=0\\ ? \alpha_{i}c_{i}(\boldsymbol x)=0, \ i=&1,2,\dots,k\\ ? c_{i}(\boldsymbol x)\leq0, \ i=&1,2,\dots,k\\ ? \alpha_{i}\geq0, i=&1,2,\dots,k\\ ? h_{j}(\boldsymbol x)=0, j=&1,2\dots,l ? \end{split}

if f(\boldsymbol x) and c_{i}(\boldsymbol x) are convex function, h_{j}(\boldsymbol x) are
affine function[^1], and inequation constrains c_{i}(\boldsymbol x) strictly
hold, that is, exist \boldsymbol x, s.t. for any i, hold c_{i}(\boldsymbol x)<0,
then, there must be \boldsymbol x^{*},\boldsymbol\alpha^{*},\boldsymbol\beta^{*} are the
optimal solution of primal problem as well as dual problem and satisfy
KKT condition at \boldsymbol x^{*},\boldsymbol\alpha^{*},\boldsymbol\beta^{*}.

Remark: so, when the prerequisites are satisfied, we can use KKT
condition to find the optimal solution
\boldsymbol x^{*},\boldsymbol\alpha^{*},\boldsymbol\beta^{*}?.

f(x) is called affine function, when it holds that
f(x)=\boldsymbol a\cdot \boldsymbol x+b, \boldsymbol a\in \boldsymbol{R}^{n},b\in \boldsymbol R, \boldsymbol x\in R^{n}

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市贯底,隨后出現(xiàn)的幾起案子丰辣,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件笙什,死亡現(xiàn)場離奇詭異飘哨,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)得湘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進(jìn)店門杖玲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人淘正,你說我怎么就攤上這事摆马。” “怎么了鸿吆?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵囤采,是天一觀的道長。 經(jīng)常有香客問我惩淳,道長蕉毯,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任思犁,我火速辦了婚禮代虾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘激蹲。我一直安慰自己棉磨,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布学辱。 她就那樣靜靜地躺著乘瓤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪策泣。 梳的紋絲不亂的頭發(fā)上衙傀,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天,我揣著相機(jī)與錄音萨咕,去河邊找鬼统抬。 笑死,一個(gè)胖子當(dāng)著我的面吹牛危队,可吹牛的內(nèi)容都是我干的蓄喇。 我是一名探鬼主播,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼交掏,長吁一口氣:“原來是場噩夢啊……” “哼妆偏!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起盅弛,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤钱骂,失蹤者是張志新(化名)和其女友劉穎叔锐,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體见秽,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡愉烙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了解取。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片步责。...
    茶點(diǎn)故事閱讀 39,696評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖禀苦,靈堂內(nèi)的尸體忽然破棺而出蔓肯,到底是詐尸還是另有隱情,我是刑警寧澤振乏,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布蔗包,位于F島的核電站,受9級特大地震影響慧邮,放射性物質(zhì)發(fā)生泄漏调限。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一误澳、第九天 我趴在偏房一處隱蔽的房頂上張望耻矮。 院中可真熱鬧,春花似錦忆谓、人聲如沸裆装。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽米母。三九已至勾扭,卻和暖如春毡琉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背妙色。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工桅滋, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人身辨。 一個(gè)月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓丐谋,卻偏偏與公主長得像,于是被迫代替她去往敵國和親煌珊。 傳聞我的和親對象是個(gè)殘疾皇子号俐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容