2018-11-08

author: zhangyifeng
title: some background need for ml(還會更新)

Matrix

notation

$\boldsymbol \alpha \in \mathbb{R}^{n}$

$\boldsymbol x \in \mathbb{R}^{n}$

$A\in \mathbb{R}^{m\times n}$

$(A)_{ij}=a_{ij}$

$A^{T}$ : transpose of $A$

$tr(A)=\sum_{i=1}^{n}a_{ii}$

$det(A)=\sum_{\sigma\in S_{n}}par(\sigma)a_{1\sigma_{1}}a_{2\sigma_{2}}\dots_{1\sigma_{n}}$ ,
where $S_{n}$ is all set of $n-order$ permutation. par( $\sigma$ ) can be
-1 or +1.
also,
$det(A)=\sum_{i=1}^{n}a_{ki}A_{ki} (k=1,2,\dots,n)=\sum_{j=1}^{n}a_{jl}A_{jl} (l=1,2,\dots,n)$

Frobenius norm of $A$ :
$\|A\|_{F}=(tr(A^{T}A))^{1/2}=(\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{n}a_{ij}^{2})^{1/2}$
it can be regarded as $L_{2}$ norm when metrix was extended to vectors

函數(shù)空間的集合表示：如果 $X,Y$ 是集合壳影，則令 $Y^{X}$ 表示所有從 $X$ 到 $Y$ 的函數(shù)的集合疲迂。這里， $Y^{X}$ 是有限笛卡爾積(Cartesian power) $Y^{n}$ 的推廣擦盾。例如冲甘， $Y^{n}$ 可定義為所有從 $\{1,\dots,n\}$ 到 $Y$ 的函數(shù)集合 $Y^{\{1,\dots,n\}}$ 席纽，更多內(nèi)容可參看：http://faculty.bard.edu/belk/math351/FunctionSpaces.pdf

Basic calculate

$tr(AB)=tr(BA)$

$tr(ABC)=tr(BCA)=tr(CAB)$

誤差

測量誤差主要分為系統(tǒng)誤差和偶然誤差

系統(tǒng)誤差成規(guī)律性分布瘸彤，有明顯的傾向性悼瓮，如儀器本身的誤差伟件，人的誤差硼啤，不服從正態(tài)分布。

偶然誤差（又稱隨機(jī)誤差）成正態(tài)分布斧账，可能是觀測的誤差谴返。

common distribution

gamma distribution

gamma function {#gamma-function .unnumbered}

$\Gamma(a)=\int_{0}^{\infty}x^{a-1}\exp^{-x}dx$ , where $a>0$

Matrix Differentiation

Matrix Differentiation-from functional analysis points

假設(shè) $X$ 和 $Y$ 為賦范向量空間， $F: X\rightarrow Y$ 是一個(gè)映射咧织，那么 $F$ 在 $x_0 \in X$ 可導(dǎo)的意思是說存在一個(gè)有界線性算子 $L \in \mathcal{L}(X, Y)$ 嗓袱，使得對于任意的 $\epsilon > 0$ 都存在 $\delta > 0$ ，對于滿足 $x \in X \backslash \{x_0\}, \|x - x_0\| < \delta$ 的 $x$ 都有 $\frac{\|F(x) - F(x_0) - L(x - x_0)\|}{\|x - x_0\|} < \epsilon$ .我們稱 $L(\|x - x_0\|)$ 為 $F$ 在 $x_0$ 點(diǎn)的微分习绢。

以上定義有一個(gè)等價(jià)的表述渠抹，往往計(jì)算起來更方便：對于距離 $x_0$ 足夠近的點(diǎn) $x$ ，即
$\lim_{x \rightarrow x_0}\frac{o(\|x-x_0\|)}{\|x-x_0\|} = 0$ 闪萄，
有 $F(x) = F(x_0) + L(x - x_0) + o(\|x - x_0\|)$ .
(注：此處 $L(x-x_0)$ 應(yīng)該理解為線性算子 $L$ 在 $x - x_0$ 這個(gè)點(diǎn)的值梧却，而不是 $L$ 乘以 $x-x_0$ 。不過在有限維空間所有線性算子都可以用矩陣表述败去， $L$ 在 $x - x_0$ ,這個(gè)值便正好可以表述為矩陣與向量的乘積(Riesz表示定理))

例子1：假設(shè) $F(X) = X^TX$ 是一個(gè) $\mathbb{R}^{m\times n} \rightarrow \mathbb{ S}^n$ 的映射放航，其中 $\mathbb{S }^n$ 為 $n$ 維對稱陣的空間。
$\begin{aligned} ? &F(X+\Delta X) - F(X) \\ ? =& (X+\Delta X)^T(X+\Delta X) - X^TX \\ ? =& X^T\Delta X + \Delta X^TX + o(\|\Delta X\|) \\ ? % =& 2X^T\Delta X + o(\|\Delta X\|) ? \end{aligned}$
所以我們有 $L(\Delta X) = 2X^T\Delta X$ 圆裕，這個(gè)就是 $F$ 在 $X$ 點(diǎn)的微分广鳍。

例子2：最小二乘問題 $f(x) = \frac{1}{2}\|Ax-b\|_2^2，f$ 是一個(gè) $\mathbb R^n \rightarrow \mathbb R$ 的映射吓妆。

$\begin{aligned} ? &f(x+\Delta x) - f(x) \\ ? =& \frac{1}{2}\|A(x+\Delta x) - b\|^2 - \frac{1}{2}\|Ax - b\|^2\\ ? =& \frac{1}{2}\|Ax - b + A\Delta x\|^2 - \frac{1}{2}\|Ax - b\|^2\\ ? =& (Ax - b)^TA\Delta x + o(\|\Delta x\|) ? \end{aligned}$

所以我們有 $L(\Delta x) = (Ax - b)^TA\Delta x$ 搜锰，這個(gè)就是 $f$ 在 $x$ 點(diǎn)的微分。在這種情況下耿战， $L$ 這個(gè)有界線性算子(梯度)可以用矩陣來表述(Riesz表示定理)：
$L(\Delta x) = \langle \nabla f(x), \Delta x \rangle = (Ax-b)^TA\Delta x$ ，
所以梯度 $\nabla f(x) = A^T(Ax - b)$

總結(jié)：在有限維的情況下焊傅，我們可以先求 $F$ 的微分 $L(\Delta x)$ 剂陡，利用Riesz表示定理，得 $L(\Delta x) = \langle f^{'}(x) , \Delta x \rangle$ 狐胎，可求得對應(yīng)的gradient
vector或者jacobi矩陣 $f^{'}(x)$ 鸭栖，也就是導(dǎo)數(shù)，顯然握巢，
這里可以看出晕鹊，導(dǎo)數(shù)和微分差一個(gè)轉(zhuǎn)置。

標(biāo)量 $f$ 對矩陣 $X$ 的導(dǎo)數(shù)

核心思想 {#核心思想 .unnumbered}

函數(shù)的微分 = 函數(shù)的導(dǎo)數(shù) 和自變量的微分的內(nèi)積
$= \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right)$

矩陣微分運(yùn)算法則

加減法： $d(X\pm Y) = dX \pm dY$

矩陣乘法： $d(XY) = (dX)Y + X dY$

轉(zhuǎn)置： $d(X^T) = (dX)^T$

跡： $d\text{tr}(X) = \text{tr}(dX)$

逆： $dX^{-1} = -X^{-1}dX X^{-1}$ 。此式可在 $XX^{-1}=I$ 兩側(cè)求微分來證明

行列式： $d|X| = \text{tr}(X^{\#}dX)$
溅话，其中 $X^{\#}$ 表示X的伴隨矩陣晓锻，在X可逆時(shí)又可以寫作 $d|X|= |X|\text{tr}(X^{-1}dX)$ 。此式可用Laplace展開來證明飞几，詳見張賢達(dá)《矩陣分析與應(yīng)用》第279頁

逐元素乘法： $d(X\odot Y) = dX\odot Y + X\odot dY砚哆，\odot$ 表示尺寸相同的矩陣X,Y逐元素相乘

逐元素函數(shù)： $d\sigma(X) = \sigma'(X)\odot dX$
， $\sigma(X) = \left[\sigma(X_{ij})\right]$ 是逐元素標(biāo)量函數(shù)運(yùn)算屑墨，
$\sigma'(X)=[\sigma'(X_{ij})]$ 是逐元素求導(dǎo)數(shù)躁锁。

舉個(gè)例子， $X = ? \left[\begin{matrix} ? x_{11} & x_{12} \\ ? x_{21} & x_{22} ? \end{matrix}\right], ? d \sin(X) = ? \left[\begin{matrix}\cos x_{11} dx_{11} & \cos x_{12} d x_{12}\\ ? \cos x_{21} d x_{21}& \cos x_{22} dx_{22} ? \end{matrix}\right] = ? \cos(X)\odot dX$ 卵史。

跡技巧(trace trick)

標(biāo)量套上跡： $a = \text{tr}(a)$

轉(zhuǎn)置： ${tr}(A^T) = {tr}(A)$

線性： $\text{tr}(A\pm B) = \text{tr}(A)\pm \text{tr}(B)$

矩陣乘法交換： $\text{tr}(AB) = \text{tr}(BA)$ 战转，其中 $A$ 與 $B^T$ 尺寸相同。兩側(cè)都等于 $\sum_{i,j}A_{ij}B_{ji}$

矩陣乘法/逐元素乘法交換： $\text{tr}(A^T(B\odot C)) = \text{tr}((A\odot B)^TC)$ 以躯，其中 $A$ ,
$B$ , $C$ 尺寸相同槐秧。兩側(cè)都等于 $\sum_{i,j}A_{ij}B_{ij}C_{ij}$

復(fù)合法則

假設(shè)已求得 $\frac{\partial f}{\partial Y}$ ，而 $Y$ 是 $X$ 的函數(shù)寸潦，如何求 $\frac{\partial f}{\partial X}$ 呢色鸳？在微積分中有標(biāo)量求導(dǎo)的鏈?zhǔn)椒▌t $\frac{\partial f}{\partial x} = \frac{\partial f}{\partial y} \frac{\partial y}{\partial x}$ ，但這里我們不能沿用鏈?zhǔn)椒▌t见转，因?yàn)榫仃噷仃嚨膶?dǎo)數(shù) $\frac{\partial Y}{\partial X}$ 截至目前仍是未定義的命雀。于是我們繼續(xù)追本溯源，鏈?zhǔn)椒▌t是從何而來斩箫？源頭仍然是微分吏砂。我們直接從微分入手建立復(fù)合法則：先寫出 $df = \text{tr}\left(\frac{\partial f}{\partial Y}^T dY\right)$ ，再將 $dY$ 用 $dX$ 表示出來代入(這個(gè)是矩陣對矩陣的導(dǎo)數(shù)乘客，在下一節(jié)我們會了解到)狐血，并使用跡技巧將其他項(xiàng)交換至dX左側(cè)，即可得到 $\frac{\partial f}{\partial X}$ 易核。

標(biāo)量對矩陣的一般求導(dǎo)步驟

1.對標(biāo)量函數(shù) $f$ 兩端作微分匈织，利用微分運(yùn)算法則化簡

2.對兩端作跡運(yùn)算，利用跡運(yùn)算法則化簡牡直，將 $dx$ 移到最右端

3.利用微分和矩陣的聯(lián)系 $df = \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right)$ ,求 $\frac{\partial f}{\partial X}$

一些例子

例1： $f = \boldsymbol{a}^T X\boldsymbol缀匕$ ，求 $\frac{\partial f}{\partial X}$ 碰逸。其中 $\boldsymbol{a}$ 是 $m×1$ 列向量乡小， $X$ 是 $m\times n$ 矩陣， $\boldsymbol饵史$ 是 $n×1$ 列向量满钟， $f$ 是標(biāo)量胜榔。

解：
1.作微分:這里的 $\boldsymbol{a}, \boldsymbol$ 是常量湃番， $d\boldsymbol{a} = \boldsymbol{0}$ ,
$d\boldsymbol夭织 = \boldsymbol{0}$ ，得： $df = \boldsymbol{a}^T dX\boldsymbol牵辣$

2.作跡運(yùn)算： $df = \text{tr}(\boldsymbol{a}^TdX\boldsymbol摔癣) = \text{tr}(\boldsymbol\boldsymbol{a}^TdX)$ 纬向，注意這里我們根據(jù) $\text{tr}(AB) = \text{tr}(BA)交換了\boldsymbol{a}^TdX與\boldsymbol择浊$

3.對照導(dǎo)數(shù)與微分的聯(lián)系 $df = \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right)$ ，得到 $\frac{\partial f}{\partial X} = (\boldsymbol逾条\boldsymbol{a}^T)^T= \boldsymbol{a}\boldsymbol琢岩^T$ 。
例2： $f = \boldsymbol{a}^T \exp(X\boldsymbol师脂)$ 担孔，求 $\frac{\partial f}{\partial X}$ 。其中 $\boldsymbol{a}$ 是 $m×1$ 列向量吃警， $X$ 是 $m\times n$ 矩陣糕篇， $\boldsymbol$ 是 $n×1$ 列向量酌心， $exp$ 表示逐元素求指數(shù)拌消， $f$ 是標(biāo)量。

解：
1.作微分： $df = \boldsymbol{a}^T(\exp(X\boldsymbol安券)\odot (dX\boldsymbol墩崩))$

2.作跡運(yùn)算： $df = \text{tr}( \boldsymbol{a}^T(\exp(X\boldsymbol)\odot (dX\boldsymbol侯勉))) =\text{tr}((\boldsymbol{a}\odot \exp(X\boldsymbol鹦筹))^TdX \boldsymbol) = \text{tr}(\boldsymbol址貌(\boldsymbol{a}\odot \exp(X\boldsymbol铐拐))^TdX)$

3.對照導(dǎo)數(shù)與微分的聯(lián)系 $df = \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right)$ ，得到 $\frac{\partial f}{\partial X} = (\boldsymbol练对(\boldsymbol{a}\odot \exp(X\boldsymbol遍蟋))^T)^T= (\boldsymbol{a}\odot \exp(X\boldsymbol))\boldsymbol锹淌^T$ 。
例3【線性回歸】： $l = \|X\boldsymbol{w}- \boldsymbol{y}\|^2$ 赠制，
求 $\boldsymbol{w}$ 的最小二乘估計(jì)赂摆，即求 $\frac{\partial l}{\partial \boldsymbol{w}}$ 的零點(diǎn)挟憔。其中 $\boldsymbol{y}$ 是 $m×1$ 列向量， $X$ 是 $m\times n$ 矩陣烟号， $\boldsymbol{w}$ 是 $n×1$ 列向量绊谭， $l$ 是標(biāo)量。

解：嚴(yán)格來說這是標(biāo)量對向量的導(dǎo)數(shù)汪拥，不過可以把向量看做矩陣的特例（此時(shí)可以省略第二步：作跡運(yùn)算）达传。

先將向量模平方改寫成向量與自身的內(nèi)積： $l = (X\boldsymbol{w}- \boldsymbol{y})^T(X\boldsymbol{w}- \boldsymbol{y})$

1.求微分: $dl = (Xd\boldsymbol{w})^T(X\boldsymbol{w}-\boldsymbol{y})+(X\boldsymbol{w}-\boldsymbol{y})^T(Xd\boldsymbol{w}) = 2(X\boldsymbol{w}-\boldsymbol{y})^TXd\boldsymbol{w}$ 。

2.對照導(dǎo)數(shù)與微分的聯(lián)系 $dl = \frac{\partial l}{\partial \boldsymbol{w}}^Td\boldsymbol{w}$ 迫筑，得到 $\frac{\partial l}{\partial \boldsymbol{w}}= (2(X\boldsymbol{w}-\boldsymbol{y})^TX)^T = 2X^T(X\boldsymbol{w}-\boldsymbol{y})$ 宪赶。 $\frac{\partial l}{\partial \boldsymbol{w}}$ 的零點(diǎn)即 $\boldsymbol{w}$ 的最小二乘估計(jì)為 $\boldsymbol{w} = (X^TX)^{-1}X^T\boldsymbol{y}$ 。
例4【方差的最大似然估計(jì)】：樣本 $\boldsymbol{x}_1,\dots, \boldsymbol{x}_n\sim N(\boldsymbol{\mu}, \Sigma)$ 脯燃，求方差 $\Sigma$ 的最大似然估計(jì)搂妻。寫成數(shù)學(xué)式是： $l = \log|\Sigma|+\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})$ ，求 $\frac{\partial l }{\partial \Sigma}$ 的零點(diǎn)辕棚。其中 $\boldsymbol{x}_i$ 是 $m\times 1$ 列向量， $\overline{\boldsymbol{x}}=\frac{1}{n}\sum_{i=1}^n \boldsymbol{x}_i$ 是樣本均值， $\Sigma$ 是 $m\times m$ 對稱正定矩陣， $l$ 是標(biāo)量。

解：
1.作微分:第一項(xiàng)是 $d\log|\Sigma| = |\Sigma|^{-1}d|\Sigma| = \text{tr}(\Sigma^{-1}d\Sigma)$ 够掠，第二項(xiàng)是 $\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^Td\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}}) = -\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}d\Sigma\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})$ 竖哩。

2.作跡運(yùn)算： $\text{tr}\left(\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}d\Sigma\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})\right) = \frac{1}{n} \sum_{i=1}^n \text{tr}((\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1} d\Sigma \Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}}))= \frac{1}{n}\sum_{i=1}^n\text{tr}\left(\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}d\Sigma\right)$
$=\text{tr}(\Sigma^{-1}S\Sigma^{-1}d\Sigma)$
,定義 $S = \frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T$ 為樣本方差矩陣辽幌。得到 $dl = \text{tr}\left(\left(\Sigma^{-1}-\Sigma^{-1}S\Sigma^{-1}\right)d\Sigma\right)$ 。

3.對照導(dǎo)數(shù)與微分的聯(lián)系加酵，有 $\frac{\partial l }{\partial \Sigma}=(\Sigma^{-1}-\Sigma^{-1}S\Sigma^{-1})^T$ 码撰，其零點(diǎn)即 $\Sigma$ 的最大似然估計(jì)為 $\Sigma = S$ 柴梆。

矩陣 $F$ 對矩陣 $X$ 的導(dǎo)數(shù) {#矩陣f對矩陣x的導(dǎo)數(shù) .unnumbered}

一般而言雹有，標(biāo)量就是 $1\times1$ 的矩陣，如果我們能推導(dǎo)出矩陣對矩陣的導(dǎo)數(shù)溜宽，標(biāo)量對矩陣的導(dǎo)數(shù)不是自然的么质帅，不應(yīng)該可以統(tǒng)一進(jìn)來么，那為啥還要大費(fèi)周章地先寫標(biāo)量對矩陣的導(dǎo)數(shù)煤惩。原因是這兩者不完全相同剪侮，并不能很簡單地統(tǒng)一起來。

應(yīng)該怎么定義矩陣對矩陣的導(dǎo)數(shù)。回答這個(gè)問題不是隨意的驻仅，為了滿足兩個(gè)要求谅畅，我們對矩陣對矩陣的定義有嚴(yán)格的要求噪服。我們的兩個(gè)要求是：

1.矩陣 $F\in \mathbb{R}^{p \times q}$ 對矩陣 $X\in \mathbb{R}^{m \times n}$ 的導(dǎo)數(shù)應(yīng)包含所有 $mnpq$ 個(gè)偏導(dǎo)數(shù) $\frac{\partial F_{kl}}{\partial X_{ij}}$ ，從而不損失信息。

2.在標(biāo)量對矩陣求導(dǎo)的地方，我們發(fā)現(xiàn)導(dǎo)數(shù)與微分有簡明的聯(lián)系王财。這里我們?nèi)韵Ｍ麄冎g存在某種聯(lián)系闪金。

為此囱嫩，我們先定義向量 $\boldsymbol{f}(p×1)$ 對向量 $\boldsymbol{x}(m×1)$ 的導(dǎo)數(shù)
$\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}} ? = ? \begin{bmatrix} ? \frac{\partial f_1}{\partial x_1} & \frac{\partial f_2}{\partial x_1} & \cdots & \frac{\partial f_p}{\partial x_1}\\ ? \frac{\partial f_1}{\partial x_2} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_p}{\partial x_2}\\ ? \vdots & \vdots & \ddots & \vdots\\ ? \frac{\partial f_1}{\partial x_m} & \frac{\partial f_2}{\partial x_m} & \cdots & \frac{\partial f_p}{\partial x_m}\\ ? \end{bmatrix}(m×p)$
此時(shí)郑口，可以證明， $d\boldsymbol{f} = \sum\limits_{i,j}\frac{\partial f_{i}}{\partial x_{j}} dx_{j} = ? \frac{\partial \boldsymbol{f} }{\partial \boldsymbol{x} }^T d\boldsymbol{x}$ ,這個(gè)定義滿足我們的兩個(gè)要求套利，所以我們現(xiàn)在作好了了向量對向量的導(dǎo)數(shù)。

再定義矩陣的（按列優(yōu)先）向量化：
${vec}(X) = [X_{11}, \ldots, X_{m1}, X_{12}, \ldots, X_{m2}, \ldots, X_{1n}, \ldots, X_{mn}]^T(mn×1)$
并定義矩陣F對矩陣X的導(dǎo)數(shù) $\frac{\partial F}{\partial X}$ =
$\frac{\partial {vec}(F)}{\partial {vec}(X)}(mn×pq)$ 族购。
此時(shí)撑碴，可以證明醉拓，導(dǎo)數(shù)與微分有聯(lián)系 ${vec}(dF)$ =
$\frac{\partial F}{\partial X}^T {vec}(dX)$ 收苏，這樣，我們作好了滿足要求的矩陣關(guān)于矩陣的導(dǎo)數(shù)排吴。

列向量化運(yùn)算法則

1.線性： ${vec}(A+B) = {vec}(A) + {vec}(B)$ 。

2.[
矩陣乘法]{}： ${vec}(AXB) = (B^T \otimes A) {vec}(X)$ 懦鼠，其中 $\otimes$ 表示Kronecker積， $A(m×n)與B(p×q)$ 的Kronecker積是 $A\otimes B = [A_{ij}B](mp×nq)$ 。此式證明見張賢達(dá)《矩陣分析與應(yīng)用》第107-108頁。

3.轉(zhuǎn)置： ${vec}(A^T) = K_{mn}{vec}(A)$ 厉亏， $A$ 是 $m×n$ 矩陣，其中 $K_{mn}(mn×mn)$ 是換位矩陣(commutation
matrix)(就是一些初等換位矩陣的乘積)招刹。

4.逐元素乘法： ${vec}(A\odot X) = {diag}(A){vec}(X)$ 虱颗，其中 ${diag}(A)(mn×mn)$ 是用 $A$ 的元素（按列優(yōu)先）排成的對角陣。

一些Kronecker積和交換矩陣相關(guān)的恒等式

1. $(A\otimes B)^T = A^T \otimes B^T$ 蔗喂。

2. ${vec}(\boldsymbol{ab}^T) = \boldsymbol\otimes\boldsymbol{a}$ 高帖。

3. $(A\otimes B)(C\otimes D) = (AC)\otimes (BD)$ 缰儿。可以對 $F = D^TB^TXAC$ 求導(dǎo)來證明散址，一方面乖阵，直接求導(dǎo)得到 $\frac{\partial F}{\partial X} = (AC) \otimes (BD)$ ；另一方面预麸，引入 $Y = B^T X A$ 瞪浸，有 $\frac{\partial F}{\partial Y} = C \otimes D$ ,
$\frac{\partial Y}{\partial X} = A \otimes B$ ，用鏈?zhǔn)椒▌t得到 $\frac{\partial F}{\partial X} = (A\otimes B)(C \otimes D)$ 吏祸。

4. $K_{mn} = K_{nm}^T, K_{mn}K_{nm} = I$ 对蒲，所以換位矩陣是正交矩陣。

5. $K_{pm}(A\otimes B) K_{nq} = B\otimes A$ 贡翘， $A$ 是 $m×n$ 矩陣蹈矮， $B$ 是 $p×q$ 矩陣∶可以對 $AXB^T$ 做向量化來證明泛鸟，一方面， ${vec}(AXB^T) = (B\otimes A){vec}(X)$ 踊东；另一方面北滥， ${vec}(AXB^T) = K_{pm}{vec}(BX^TA^T) = K_{pm}(A\otimes B){vec}(X^T) = K_{pm}(A\otimes B) K_{nq}{vec}(X)$ 。

復(fù)合法則

假設(shè)已求得 $\frac{\partial F}{\partial Y}$ 闸翅，而 $Y$ 是 $X$ 的函數(shù)再芋，如何求 $\frac{\partial F}{\partial X}$ 呢？從導(dǎo)數(shù)與微分的聯(lián)系入手坚冀， ${vec}(dF) = \frac{\partial F}{\partial Y}^T{vec}(dY) = \frac{\partial F}{\partial Y}^T\frac{\partial Y}{\partial X}^T{vec}(dX)$ 祝闻，可以推出鏈?zhǔn)椒▌t $\frac{\partial F}{\partial X} = \frac{\partial Y}{\partial X}\frac{\partial F}{\partial Y}$

矩陣對矩陣的一般求導(dǎo)步驟

1.對矩陣值函數(shù) $F$ 兩端作微分，利用微分運(yùn)算法則化簡

2.對兩端作列向量化運(yùn)算，利用列向量化法則化簡联喘，注意看列向量里面是什么形式华蜒，就用什么公式，如列向量里面是兩個(gè)矩陣相乘豁遭，就想辦法湊進(jìn)去一個(gè)單位矩陣叭喜，并使得 ${vec}x$ 在中間，然后利用vec的矩陣乘法公式

3.利用微分和矩陣的聯(lián)系 ${vec}(dF)$ =
$\frac{\partial F}{\partial X}^T {vec}(dX)$ ,求 $\frac{\partial f}{\partial X}$

一些例子

例1： $F = AX$ 蓖谢， $X$ 是 $m×n$ 矩陣捂蕴，求 $\frac{\partial F}{\partial X}$ 。

解： 1.作微分： $dF=AdX$

2.列向量化闪幽，使用矩陣乘法的技巧啥辨，注意在 $dX$ 右側(cè)添加單位陣： ${vec}(dF) = {vec}(AdX) = (I_n\otimes A){vec}(dX)$

3.對照導(dǎo)數(shù)與微分的聯(lián)系得到 $\frac{\partial F}{\partial X} = I_n\otimes A^T$ 。

特例：如果 $X$ 退化為向量盯腌，即 $\boldsymbol{f} = A \boldsymbol{x}$ 溉知，則根據(jù)向量的導(dǎo)數(shù)與微分的關(guān)系d $\boldsymbol{f} = \frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}}^T d\boldsymbol{x}$ ，得到 $\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}} = A^T$

$df(\mathbf{X},\mathbf{Y}) = tr(\frac{\partial f}{\partial \mathbf{X}}^T d\mathbf{X}) + tr(\frac{\partial f}{\partial \mathbf{Y}}^T d\mathbf{Y})$
例2： $f = \log |X|$ 腕够，X是n×n矩陣级乍，求 $\nabla^2_X f$ 。

解： 1.求微分： $d\nabla_X f = -(X^{-1}dXX^{-1})^T$

2.列向量化帚湘， ${vec}(d\nabla_X f)= -K_{nn}{vec}(X^{-1}dX X^{-1}) = -K_{nn}(X^{-T}\otimes X^{-1}){vec}(dX)$ 玫荣，

3.對照導(dǎo)數(shù)與微分的聯(lián)系，得到 $\nabla^2_X f = -K_{nn}(X^{-T}\otimes X^{-1})$ 大诸，注意它是對稱矩陣捅厂。
例3： $F = A\exp(XB)，A$ 是 $l×m$ 矩陣资柔， $X$ 是 $m×n$ 矩陣恒傻， $B$ 是 $n×p$ 矩陣， $exp$ 為逐元素函數(shù)建邓，求 $\frac{\partial F}{\partial X}$ 盈厘。

解： 1.求微分： $dF = A(\exp(XB)\odot (dXB))$

2.列向量化: ${vec}(dF) = (I_p\otimes A){vec}(\exp(XB)\odot (dXB)) = \\(I_p \otimes A) {diag}(\exp(XB)){vec}(dXB) = (I_p\otimes A){diag}(\exp(XB))(B^T\otimes I_m){vec}(dX)$ 。

3.對照導(dǎo)數(shù)與微分的聯(lián)系得到 $\frac{\partial F}{\partial X} = (B\otimes I_m){diag}(\exp(XB))(I_p\otimes A^T)$ 官边。

注解

1.一般而言沸手，這套方法就是為了矩陣對矩陣求導(dǎo)而引入的，由于這里是利用列向量定義的導(dǎo)數(shù)注簿，所以直接應(yīng)用在標(biāo)量對矩陣 $X\in \mathbb{R}^{m\times n}$ 的導(dǎo)數(shù)上契吉，會得到一個(gè) $mn\times1$ 的列向量，這與我們一般定義的標(biāo)量對矩陣的導(dǎo)數(shù)相悖诡渴，所以一般標(biāo)量對矩陣的導(dǎo)數(shù)捐晶，我們還是利用上一節(jié)的方法菲语。當(dāng)然，若將上一節(jié)定義的標(biāo)量 $f(X)\in \mathbb{R}^{1}$ 對矩陣 $X\in \mathbb{R}^{m\times n}$ 的導(dǎo)數(shù)用記號 $\nabla_X f\in \mathbb{R}^{m\times n}$ 來表示惑灵，則這里定義的 $\frac{\partial f}{\partial X}={vec}(\nabla_X f)$ ,在牢記這一條的情況下山上，我們可以用本節(jié)的方法來解決標(biāo)量對矩陣求導(dǎo)，只是沒有上一節(jié)的方法方便英支。為了滿足讀者的好奇心佩憾，我們給出標(biāo)量對矩陣求導(dǎo)的一個(gè)例子，并且用兩種方法來解決干花。

2.標(biāo)量對矩陣的二階導(dǎo)數(shù)妄帘，又稱Hessian矩陣，定義為 $\nabla^2_X f = \frac{\partial^2 f}{\partial X^2} = \frac{\partial \nabla_X f}{\partial X}(mn×mn)$ 是對稱矩陣池凄，這個(gè)二階導(dǎo)數(shù)分兩次進(jìn)行抡驼，第一次是標(biāo)量對矩陣求導(dǎo)，第二次是矩陣對矩陣求導(dǎo)肿仑。

3.如何理解 $K_{mn}(mn×mn)$ ,它是一個(gè)換位矩陣致盟，根據(jù) ${vec}(A^T) = K_{mn}\\{vec}(A)$ ，它的作用是使的 ${vec}(A^T)$ 和 ${vec}(A)$ 的若干行對換位置柏副。由 $[A]_{i,j}=[A]_{j,i}=[{vec}(A^T)]_{(i-1)n+j}=[{vec}(A)]_{(j-1)n+i}$ ,
這里 $A\in \mathbb{R}^{m\times n}, 1 \leq i \leq m, 1 \leq j \leq n$ ，所以 $K_{mn}$ 就是單位矩陣(mn×mn)交換 $(i-1)n+j$ 和 $(j-1)n+i$ 行得到的一個(gè)矩陣蚣录。

對兩節(jié)內(nèi)容的總結(jié)

我們發(fā)展了從整體出發(fā)的矩陣求導(dǎo)的技術(shù)割择，導(dǎo)數(shù)與微分的聯(lián)系是計(jì)算的樞紐。

上一節(jié)中萎河，我們了解了荔泳，標(biāo)量對矩陣的導(dǎo)數(shù)與微分的聯(lián)系是 $df =\\ {tr}((\nabla_Xf)^T dX)$ ，先對 $f$ 求微分虐杯，再使用跡技巧可求得導(dǎo)數(shù)玛歌，特別地，標(biāo)量對向量的導(dǎo)數(shù)與微分的聯(lián)系是 $df = (\nabla_{\boldsymbol{x}}f)^T d\boldsymbol{x}$

下一節(jié)中擎椰，我們了解了支子，矩陣對矩陣的導(dǎo)數(shù)與微分的聯(lián)系是 ${vec}(dF) = \frac{\partial F}{\partial X}^T {vec}(dX)$ ，先對 $F$ 求微分达舒，再使用列向量化的技巧可求得導(dǎo)數(shù)值朋，特別地，向量對向量的導(dǎo)數(shù)與微分的聯(lián)系是 $d\boldsymbol{f} = \frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}}^Td\boldsymbol{x}$ 巩搏。

reference

如何理解矩陣對矩陣求導(dǎo)昨登？-知乎-豬豬專業(yè)戶

矩陣求導(dǎo)術(shù)(上)-知乎-長軀鬼俠

矩陣求導(dǎo)術(shù)(下)-知乎-長軀鬼俠

Lagrange duality

application

applied on:\

最大熵模型\
SVM(support vector machine)

primal problem

Set $f(\boldsymbol x),c_{i}(\boldsymbol x),h_{j}(\boldsymbol x)$ are continuously differentiable
function over $boldsymbol R{n}$ , consider optimization problem with constraints
$\begin{split} ? &\min_{\boldsymbol x\in \boldsymbol R^{n}}\ f(\boldsymbol x) \\ ? s.t.\ c_{i}(\boldsymbol x)&\leq0, \ i=1,2,\cdots,k\\ ? h_{j}(\boldsymbol x)&=0, \ j=1,2,\cdots,l ? \end{split}$

generalized Lagrange function

$L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)=f(\boldsymbol x)+\sum\limits_{i=1}^{k}a_{i}c_{i}(\boldsymbol x)+\sum\limits_{j=1}^{l}\beta_{j}h_{j}(\boldsymbol x)$
where,
$\boldsymbol x=(x^{1},x^{2},\dots,x^{n})^{T}\in\boldsymbol R^{n}$ , $\alpha_{i},\beta_{j}$
are Lagrange multiplier, $\alpha_{i}\geq0$
After introduced generalized Lagrange function, primal problem is equal
to $\begin{split} ? &\min\limits_{\boldsymbol x}\max\limits_{\boldsymbol \alpha, \boldsymbol \beta}L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)\\ ? &s.t.\ \alpha_{i}\geq0, \ i=1,2,\dots,k ? \end{split}$

dual problem

$\begin{split} ? &\max\limits_{\boldsymbol\alpha,\boldsymbol\beta}\min\limits_{\boldsymbol x}L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)\\ ? &s.t.\ \alpha_{i}\geq0, \ i=1,2,\dots,k ? \end{split}$

KKT(Karush-Kuhn-Tucker)condition

$\begin{split} ? \nabla_{x}L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)&=0\\ ? \nabla_{\alpha}L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)&=0\\ ? \nabla_{\beta}L(\boldsymbol x,\boldsymbol\alpha,\boldsymbol\beta)&=0\\ ? \alpha_{i}c_{i}(\boldsymbol x)=0, \ i=&1,2,\dots,k\\ ? c_{i}(\boldsymbol x)\leq0, \ i=&1,2,\dots,k\\ ? \alpha_{i}\geq0, i=&1,2,\dots,k\\ ? h_{j}(\boldsymbol x)=0, j=&1,2\dots,l ? \end{split}$

if $f(\boldsymbol x)$ and $c_{i}(\boldsymbol x)$ are convex function, $h_{j}(\boldsymbol x)$ are
affine function[^1], and inequation constrains $c_{i}(\boldsymbol x)$ strictly
hold, that is, exist $\boldsymbol x$ , s.t. for any $i$ , hold $c_{i}(\boldsymbol x)<0$ ,
then, there must be $\boldsymbol x^{*},\boldsymbol\alpha^{*},\boldsymbol\beta^{*}$ are the
optimal solution of primal problem as well as dual problem and satisfy
KKT condition at $\boldsymbol x^{*},\boldsymbol\alpha^{*},\boldsymbol\beta^{*}$ .

Remark: so, when the prerequisites are satisfied, we can use KKT
condition to find the optimal solution
$\boldsymbol x^{*},\boldsymbol\alpha^{*},\boldsymbol\beta^{*}?$ .

$f(x)$ is called affine function, when it holds that
$f(x)=\boldsymbol a\cdot \boldsymbol x+b, \boldsymbol a\in \boldsymbol{R}^{n},b\in \boldsymbol R, \boldsymbol x\in R^{n}$

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市贯底，隨后出現(xiàn)的幾起案子丰辣，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 216,402評論 6贊 499
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件笙什，死亡現(xiàn)場離奇詭異飘哨，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)得湘，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,377評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門杖玲，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人淘正，你說我怎么就攤上這事摆马。” “怎么了鸿吆？”我有些...
開封第一講書人閱讀 162,483評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵囤采，是天一觀的道長。經(jīng)常有香客問我惩淳，道長蕉毯，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,165評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任思犁，我火速辦了婚禮代虾，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘激蹲。我一直安慰自己棉磨，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,176評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布学辱。她就那樣靜靜地躺著乘瓤，像睡著了一般。火紅的嫁衣襯著肌膚如雪策泣。梳的紋絲不亂的頭發(fā)上衙傀，一...
開封第一講書人閱讀 51,146評論 1贊 297
城市分裂傳說
那天，我揣著相機(jī)與錄音萨咕，去河邊找鬼统抬。笑死，一個(gè)胖子當(dāng)著我的面吹牛危队，可吹牛的內(nèi)容都是我干的蓄喇。我是一名探鬼主播，決...
沈念sama閱讀 40,032評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼交掏，長吁一口氣：“原來是場噩夢啊……” “哼妆偏！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起盅弛，我...
開封第一講書人閱讀 38,896評論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤钱骂，失蹤者是張志新（化名）和其女友劉穎叔锐，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體见秽，經(jīng)...
沈念sama閱讀 45,311評論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡愉烙，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,536評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了解取。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片步责。...
茶點(diǎn)故事閱讀 39,696評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖禀苦，靈堂內(nèi)的尸體忽然破棺而出蔓肯，到底是詐尸還是另有隱情，我是刑警寧澤振乏，帶...
沈念sama閱讀 35,413評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蔗包，位于F島的核電站，受9級特大地震影響慧邮，放射性物質(zhì)發(fā)生泄漏调限。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,008評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一误澳、第九天我趴在偏房一處隱蔽的房頂上張望耻矮。院中可真熱鬧，春花似錦忆谓、人聲如沸裆装。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案陪毡，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽米母。三九已至勾扭，卻和暖如春毡琉，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背妙色。一陣腳步聲響...
開封第一講書人閱讀 32,815評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工桅滋，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人身辨。一個(gè)月前我還...
沈念sama閱讀 47,698評論 2贊 368
代替公主和親
正文我出身青樓丐谋，卻偏偏與公主長得像，于是被迫代替她去往敵國和親煌珊。傳聞我的和親對象是個(gè)殘疾皇子号俐，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,592評論 2贊 353

2018-11-08

Matrix

notation

Basic calculate

誤差

common distribution

gamma distribution

gamma function {#gamma-function .unnumbered}

Matrix Differentiation

Matrix Differentiation-from functional analysis points

標(biāo)量對矩陣的導(dǎo)數(shù)

核心思想 {#核心思想 .unnumbered}

矩陣微分運(yùn)算法則

跡技巧(trace trick)

復(fù)合法則

標(biāo)量對矩陣的一般求導(dǎo)步驟

一些例子

矩陣對矩陣的導(dǎo)數(shù) {#矩陣f對矩陣x的導(dǎo)數(shù) .unnumbered}

列向量化運(yùn)算法則

一些Kronecker積和交換矩陣相關(guān)的恒等式

復(fù)合法則

矩陣對矩陣的一般求導(dǎo)步驟

一些例子

注解

對兩節(jié)內(nèi)容的總結(jié)

reference

Lagrange duality

application

primal problem

generalized Lagrange function

dual problem

KKT(Karush-Kuhn-Tucker)condition

推薦閱讀更多精彩內(nèi)容

標(biāo)量 $f$ 對矩陣 $X$ 的導(dǎo)數(shù)

矩陣 $F$ 對矩陣 $X$ 的導(dǎo)數(shù) {#矩陣f對矩陣x的導(dǎo)數(shù) .unnumbered}