author: zhangyifeng
title: some background need for ml(還會更新)
Matrix
notation
: transpose of
,
where is all set of
permutation. par(
) can be
-1 or +1.
also,
Frobenius norm of :
it can be regarded as norm when metrix was extended to vectors
函數(shù)空間的集合表示:如果是集合壳影,則令
表示所有從
到
的函數(shù)的集合疲迂。這里,
是有限笛卡爾積(Cartesian power)
的推廣擦盾。例如冲甘,
可定義為所有從
到
的函數(shù)集合
席纽,更多內(nèi)容可參看:http://faculty.bard.edu/belk/math351/FunctionSpaces.pdf
Basic calculate
誤差
測量誤差主要分為系統(tǒng)誤差和偶然誤差
系統(tǒng)誤差成規(guī)律性分布瘸彤,有明顯的傾向性悼瓮,如儀器本身的誤差伟件,人的誤差硼啤,不服從正態(tài)分布。
偶然誤差(又稱隨機(jī)誤差)成正態(tài)分布斧账,可能是觀測的誤差谴返。
common distribution
gamma distribution
gamma function {#gamma-function .unnumbered}
, where
Matrix Differentiation
Matrix Differentiation-from functional analysis points
假設(shè)和
為賦范向量空間,
是一個(gè)映射咧织,那么
在
可導(dǎo)的意思是說存在一個(gè)有界線性算子
嗓袱,使得對于任意的
都存在
,對于滿足
的
都有
.我們稱
為
在
點(diǎn)的微分习绢。
以上定義有一個(gè)等價(jià)的表述渠抹,往往計(jì)算起來更方便:對于距離足夠近的點(diǎn)
,即
闪萄,
有.
(注:此處應(yīng)該理解為線性算子
在
這個(gè)點(diǎn)的值梧却,而不是
乘以
。不過在有限維空間所有線性算子都可以用矩陣表述败去,
在
,這個(gè)值便正好可以表述為矩陣與向量的乘積(Riesz表示定理))
例子1:假設(shè)是一個(gè)
的映射放航,其中
為
維對稱陣的空間。
所以我們有圆裕,這個(gè)就是
在
點(diǎn)的微分广鳍。
例子2:最小二乘問題是一個(gè)
的映射吓妆。
所以我們有搜锰,這個(gè)就是
在
點(diǎn)的微分。在這種情況下耿战,
這個(gè)有界線性算子(梯度)可以用矩陣來表述(Riesz表示定理):
,
所以梯度
總結(jié):在有限維的情況下焊傅,我們可以先求的微分
剂陡,利用Riesz表示定理,得
狐胎,可求得對應(yīng)的gradient
vector或者jacobi矩陣鸭栖,也就是導(dǎo)數(shù),顯然握巢,
這里可以看出晕鹊,導(dǎo)數(shù)和微分差一個(gè)轉(zhuǎn)置。
標(biāo)量
對矩陣
的導(dǎo)數(shù)
核心思想 {#核心思想 .unnumbered}
函數(shù)的微分 = 函數(shù)的導(dǎo)數(shù) 和 自變量的微分 的內(nèi)積
矩陣微分運(yùn)算法則
加減法:
矩陣乘法:
轉(zhuǎn)置:
跡:
逆:。此式可在
兩側(cè)求微分來證明
行列式:
溅话,其中表示X的伴隨矩陣晓锻,在X可逆時(shí)又可以寫作
。此式可用Laplace展開來證明飞几,詳見張賢達(dá)《矩陣分析與應(yīng)用》第279頁
逐元素乘法:表示尺寸相同的矩陣X,Y逐元素相乘
逐元素函數(shù):
,是逐元素標(biāo)量函數(shù)運(yùn)算屑墨,
是逐元素求導(dǎo)數(shù)躁锁。
舉個(gè)例子, 卵史。
跡技巧(trace trick)
標(biāo)量套上跡:
轉(zhuǎn)置:
線性:
矩陣乘法交換:战转,其中
與
尺寸相同。兩側(cè)都等于
矩陣乘法/逐元素乘法交換:以躯,其中
,
,
尺寸相同槐秧。兩側(cè)都等于
復(fù)合法則
假設(shè)已求得,而
是
的函數(shù)寸潦,如何求
呢色鸳?在微積分中有標(biāo)量求導(dǎo)的鏈?zhǔn)椒▌t
,但這里我們不能沿用鏈?zhǔn)椒▌t见转,因?yàn)榫仃噷仃嚨膶?dǎo)數(shù)
截至目前仍是未定義的命雀。于是我們繼續(xù)追本溯源,鏈?zhǔn)椒▌t是從何而來斩箫?源頭仍然是微分吏砂。我們直接從微分入手建立復(fù)合法則:先寫出
,再將
用
表示出來代入(這個(gè)是矩陣對矩陣的導(dǎo)數(shù)乘客,在下一節(jié)我們會了解到)狐血,并使用跡技巧將其他項(xiàng)交換至dX左側(cè),即可得到
易核。
標(biāo)量對矩陣的一般求導(dǎo)步驟
1.對標(biāo)量函數(shù)兩端作微分匈织,利用微分運(yùn)算法則化簡
2.對兩端作跡運(yùn)算,利用跡運(yùn)算法則化簡牡直,將移到最右端
3.利用微分和矩陣的聯(lián)系,求
一些例子
例1:,求
碰逸。其中
是
列向量乡小,
是
矩陣,
是
列向量满钟,
是標(biāo)量胜榔。
解:
1.作微分:這里的是常量湃番,
,
,得:
2.作跡運(yùn)算:纬向,注意這里我們根據(jù)
3.對照導(dǎo)數(shù)與微分的聯(lián)系,得到
。
例2:担孔,求
。其中
是
列向量吃警,
是
矩陣糕篇,
是
列向量酌心,
表示逐元素求指數(shù)拌消,
是標(biāo)量。
解:
1.作微分:
2.作跡運(yùn)算:
3.對照導(dǎo)數(shù)與微分的聯(lián)系,得到
。
例3【線性回歸】:赠制,
求的最小二乘估計(jì)赂摆,即求
的零點(diǎn)挟憔。其中
是
列向量,
是
矩陣烟号,
是
列向量绊谭,
是標(biāo)量。
解:嚴(yán)格來說這是標(biāo)量對向量的導(dǎo)數(shù)汪拥,不過可以把向量看做矩陣的特例(此時(shí)可以省略第二步:作跡運(yùn)算)达传。
先將向量模平方改寫成向量與自身的內(nèi)積:
1.求微分:。
2.對照導(dǎo)數(shù)與微分的聯(lián)系迫筑,得到
宪赶。
的零點(diǎn)即
的最小二乘估計(jì)為
。
例4【方差的最大似然估計(jì)】:樣本脯燃,求方差
的最大似然估計(jì)搂妻。寫成數(shù)學(xué)式是:
,求
的零點(diǎn)辕棚。其中
是
列向量,
是樣本均值,
是
對稱正定矩陣,
是標(biāo)量。
解:
1.作微分:第一項(xiàng)是够掠,第二項(xiàng)是
竖哩。
2.作跡運(yùn)算:
,定義為樣本方差矩陣辽幌。得到
。
3.對照導(dǎo)數(shù)與微分的聯(lián)系加酵,有码撰,其零點(diǎn)即
的最大似然估計(jì)為
柴梆。
矩陣
對矩陣
的導(dǎo)數(shù) {#矩陣f對矩陣x的導(dǎo)數(shù) .unnumbered}
一般而言雹有,標(biāo)量就是的矩陣,如果我們能推導(dǎo)出矩陣對矩陣的導(dǎo)數(shù)溜宽,標(biāo)量對矩陣的導(dǎo)數(shù)不是自然的么质帅,不應(yīng)該可以統(tǒng)一進(jìn)來么,那為啥還要大費(fèi)周章地先寫標(biāo)量對矩陣的導(dǎo)數(shù)煤惩。原因是這兩者不完全相同剪侮,并不能很簡單地統(tǒng)一起來。
應(yīng)該怎么定義矩陣對矩陣的導(dǎo)數(shù)。回答這個(gè)問題不是隨意的驻仅,為了滿足兩個(gè)要求谅畅,我們對矩陣對矩陣的定義有嚴(yán)格的要求噪服。我們的兩個(gè)要求是:
1.矩陣對矩陣
的導(dǎo)數(shù)應(yīng)包含所有
個(gè)偏導(dǎo)數(shù)
,從而不損失信息。
2.在標(biāo)量對矩陣求導(dǎo)的地方,我們發(fā)現(xiàn)導(dǎo)數(shù)與微分有簡明的聯(lián)系王财。這里我們?nèi)韵M麄冎g存在某種聯(lián)系闪金。
為此囱嫩,我們先定義向量對向量
的導(dǎo)數(shù)
此時(shí)郑口,可以證明,,這個(gè)定義滿足我們的兩個(gè)要求套利,所以我們現(xiàn)在作好了了向量對向量的導(dǎo)數(shù)。
再定義矩陣的(按列優(yōu)先)向量化:
并定義矩陣F對矩陣X的導(dǎo)數(shù)=
族购。
此時(shí)撑碴,可以證明醉拓,導(dǎo)數(shù)與微分有聯(lián)系 =
收苏,這樣,我們作好了滿足要求的矩陣關(guān)于矩陣的導(dǎo)數(shù)排吴。
列向量化運(yùn)算法則
1.線性:。
2.[
矩陣乘法]{}:懦鼠,其中
表示Kronecker積,
的Kronecker積是
。此式證明見張賢達(dá)《矩陣分析與應(yīng)用》第107-108頁。
3.轉(zhuǎn)置:厉亏,
是
矩陣,其中
是換位矩陣(commutation
matrix)(就是一些初等換位矩陣的乘積)招刹。
4.逐元素乘法:虱颗,其中
是用
的元素(按列優(yōu)先)排成的對角陣。
一些Kronecker積和交換矩陣相關(guān)的恒等式
1.蔗喂。
2.高帖。
3.缰儿。可以對
求導(dǎo)來證明散址,一方面乖阵,直接求導(dǎo)得到
;另一方面预麸,引入
瞪浸,有
,
,用鏈?zhǔn)椒▌t得到
吏祸。
4.对蒲,所以換位矩陣是正交矩陣。
5.贡翘,
是
矩陣蹈矮,
是
矩陣∶可以對
做向量化來證明泛鸟,一方面,
踊东;另一方面北滥,
。
復(fù)合法則
假設(shè)已求得闸翅,而
是
的函數(shù)再芋,如何求
呢?從導(dǎo)數(shù)與微分的聯(lián)系入手坚冀,
祝闻,可以推出鏈?zhǔn)椒▌t
矩陣對矩陣的一般求導(dǎo)步驟
1.對矩陣值函數(shù)兩端作微分,利用微分運(yùn)算法則化簡
2.對兩端作列向量化運(yùn)算,利用列向量化法則化簡联喘,注意看列向量里面是什么形式华蜒,就用什么公式,如列向量里面是兩個(gè)矩陣相乘豁遭,就想辦法湊進(jìn)去一個(gè)單位矩陣叭喜,并使得在中間,然后利用vec的矩陣乘法公式
3.利用微分和矩陣的聯(lián)系 =
,求
一些例子
例1:蓖谢,
是
矩陣捂蕴,求
。
解: 1.作微分:
2.列向量化闪幽,使用矩陣乘法的技巧啥辨,注意在右側(cè)添加單位陣:
3.對照導(dǎo)數(shù)與微分的聯(lián)系得到。
特例:如果退化為向量盯腌,即
溉知,則根據(jù)向量的導(dǎo)數(shù)與微分的關(guān)系d
,得到
例2: 腕够,X是n×n矩陣级乍,求
。
解: 1.求微分:
2.列向量化帚湘,玫荣,
3.對照導(dǎo)數(shù)與微分的聯(lián)系,得到大诸,注意它是對稱矩陣捅厂。
例3:是
矩陣资柔,
是
矩陣恒傻,
是
矩陣,
為逐元素函數(shù)建邓,求
盈厘。
解: 1.求微分:
2.列向量化:。
3.對照導(dǎo)數(shù)與微分的聯(lián)系得到官边。
注解
1.一般而言沸手,這套方法就是為了矩陣對矩陣求導(dǎo)而引入的,由于這里是利用列向量定義的導(dǎo)數(shù)注簿,所以直接應(yīng)用在標(biāo)量對矩陣的導(dǎo)數(shù)上契吉,會得到一個(gè)
的列向量,這與我們一般定義的標(biāo)量對矩陣的導(dǎo)數(shù)相悖诡渴,所以一般標(biāo)量對矩陣的導(dǎo)數(shù)捐晶,我們還是利用上一節(jié)的方法菲语。當(dāng)然,若將上一節(jié)定義的標(biāo)量
對矩陣
的導(dǎo)數(shù)用記號
來表示惑灵,則這里定義的
,在牢記這一條的情況下山上,我們可以用本節(jié)的方法來解決標(biāo)量對矩陣求導(dǎo),只是沒有上一節(jié)的方法方便英支。為了滿足讀者的好奇心佩憾,我們給出標(biāo)量對矩陣求導(dǎo)的一個(gè)例子,并且用兩種方法來解決干花。
2.標(biāo)量對矩陣的二階導(dǎo)數(shù)妄帘,又稱Hessian矩陣,定義為是對稱矩陣池凄,這個(gè)二階導(dǎo)數(shù)分兩次進(jìn)行抡驼,第一次是標(biāo)量對矩陣求導(dǎo),第二次是矩陣對矩陣求導(dǎo)肿仑。
3.如何理解,它是一個(gè)換位矩陣致盟,根據(jù)
,它的作用是使的
和
的若干行對換位置柏副。由
,
這里,所以
就是單位矩陣(mn×mn)交換
和
行得到的一個(gè)矩陣蚣录。
對兩節(jié)內(nèi)容的總結(jié)
我們發(fā)展了從整體出發(fā)的矩陣求導(dǎo)的技術(shù)割择,導(dǎo)數(shù)與微分的聯(lián)系是計(jì)算的樞紐。
上一節(jié)中萎河,我們了解了荔泳,標(biāo)量對矩陣的導(dǎo)數(shù)與微分的聯(lián)系是,先對
求微分虐杯,再使用跡技巧可求得導(dǎo)數(shù)玛歌,特別地,標(biāo)量對向量的導(dǎo)數(shù)與微分的聯(lián)系是
下一節(jié)中擎椰,我們了解了支子,矩陣對矩陣的導(dǎo)數(shù)與微分的聯(lián)系是,先對
求微分达舒,再使用列向量化的技巧可求得導(dǎo)數(shù)值朋,特別地,向量對向量的導(dǎo)數(shù)與微分的聯(lián)系是
巩搏。
reference
如何理解矩陣對矩陣求導(dǎo)昨登?-知乎-豬豬專業(yè)戶
Lagrange duality
application
applied on:\
- 最大熵模型\
- SVM(support vector machine)
primal problem
Set are continuously differentiable
function over , consider optimization problem with constraints
generalized Lagrange function
where,
,
are Lagrange multiplier,
After introduced generalized Lagrange function, primal problem is equal
to
dual problem
KKT(Karush-Kuhn-Tucker)condition
if and
are convex function,
are
affine function[^1], and inequation constrains strictly
hold, that is, exist , s.t. for any
, hold
,
then, there must be are the
optimal solution of primal problem as well as dual problem and satisfy
KKT condition at .
Remark: so, when the prerequisites are satisfied, we can use KKT
condition to find the optimal solution
.
is called affine function, when it holds that