author: zhangyifeng
title: some background need for ml(還會更新)
Matrix
notation
: transpose of
,
where is all set of permutation. par() can be
-1 or +1.
also,
Frobenius norm of :
it can be regarded as norm when metrix was extended to vectors
函數(shù)空間的集合表示:如果是集合壳影,則令表示所有從到的函數(shù)的集合疲迂。這里,是有限笛卡爾積(Cartesian power)的推廣擦盾。例如冲甘,可定義為所有從到的函數(shù)集合席纽,更多內(nèi)容可參看:http://faculty.bard.edu/belk/math351/FunctionSpaces.pdf
Basic calculate
誤差
測量誤差主要分為系統(tǒng)誤差和偶然誤差
系統(tǒng)誤差成規(guī)律性分布瘸彤,有明顯的傾向性悼瓮,如儀器本身的誤差伟件,人的誤差硼啤,不服從正態(tài)分布。
偶然誤差(又稱隨機(jī)誤差)成正態(tài)分布斧账,可能是觀測的誤差谴返。
common distribution
gamma distribution
gamma function {#gamma-function .unnumbered}
, where
Matrix Differentiation
Matrix Differentiation-from functional analysis points
假設(shè)和為賦范向量空間,是一個(gè)映射咧织,那么在可導(dǎo)的意思是說存在一個(gè)有界線性算子嗓袱,使得對于任意的都存在,對于滿足的都有.我們稱為在點(diǎn)的微分习绢。
以上定義有一個(gè)等價(jià)的表述渠抹,往往計(jì)算起來更方便:對于距離足夠近的點(diǎn),即
闪萄,
有.
(注:此處應(yīng)該理解為線性算子在這個(gè)點(diǎn)的值梧却,而不是乘以。不過在有限維空間所有線性算子都可以用矩陣表述败去,在,這個(gè)值便正好可以表述為矩陣與向量的乘積(Riesz表示定理))
例子1:假設(shè)是一個(gè)的映射放航,其中為維對稱陣的空間。
所以我們有圆裕,這個(gè)就是在點(diǎn)的微分广鳍。
例子2:最小二乘問題是一個(gè)的映射吓妆。
所以我們有搜锰,這個(gè)就是在點(diǎn)的微分。在這種情況下耿战,這個(gè)有界線性算子(梯度)可以用矩陣來表述(Riesz表示定理):
,
所以梯度
總結(jié):在有限維的情況下焊傅,我們可以先求的微分剂陡,利用Riesz表示定理,得狐胎,可求得對應(yīng)的gradient
vector或者jacobi矩陣鸭栖,也就是導(dǎo)數(shù),顯然握巢,
這里可以看出晕鹊,導(dǎo)數(shù)和微分差一個(gè)轉(zhuǎn)置。
標(biāo)量對矩陣的導(dǎo)數(shù)
核心思想 {#核心思想 .unnumbered}
函數(shù)的微分 = 函數(shù)的導(dǎo)數(shù) 和 自變量的微分 的內(nèi)積
矩陣微分運(yùn)算法則
加減法:
矩陣乘法:
轉(zhuǎn)置:
跡:
逆:。此式可在兩側(cè)求微分來證明
行列式:
溅话,其中表示X的伴隨矩陣晓锻,在X可逆時(shí)又可以寫作。此式可用Laplace展開來證明飞几,詳見張賢達(dá)《矩陣分析與應(yīng)用》第279頁
逐元素乘法:表示尺寸相同的矩陣X,Y逐元素相乘
逐元素函數(shù):
,是逐元素標(biāo)量函數(shù)運(yùn)算屑墨,
是逐元素求導(dǎo)數(shù)躁锁。
舉個(gè)例子, 卵史。
跡技巧(trace trick)
標(biāo)量套上跡:
轉(zhuǎn)置:
線性:
矩陣乘法交換:战转,其中與尺寸相同。兩側(cè)都等于
矩陣乘法/逐元素乘法交換:以躯,其中,
, 尺寸相同槐秧。兩側(cè)都等于
復(fù)合法則
假設(shè)已求得,而是的函數(shù)寸潦,如何求呢色鸳?在微積分中有標(biāo)量求導(dǎo)的鏈?zhǔn)椒▌t,但這里我們不能沿用鏈?zhǔn)椒▌t见转,因?yàn)榫仃噷仃嚨膶?dǎo)數(shù)截至目前仍是未定義的命雀。于是我們繼續(xù)追本溯源,鏈?zhǔn)椒▌t是從何而來斩箫?源頭仍然是微分吏砂。我們直接從微分入手建立復(fù)合法則:先寫出,再將用表示出來代入(這個(gè)是矩陣對矩陣的導(dǎo)數(shù)乘客,在下一節(jié)我們會了解到)狐血,并使用跡技巧將其他項(xiàng)交換至dX左側(cè),即可得到易核。
標(biāo)量對矩陣的一般求導(dǎo)步驟
1.對標(biāo)量函數(shù)兩端作微分匈织,利用微分運(yùn)算法則化簡
2.對兩端作跡運(yùn)算,利用跡運(yùn)算法則化簡牡直,將移到最右端
3.利用微分和矩陣的聯(lián)系,求
一些例子
例1:,求碰逸。其中是列向量乡小,是矩陣,是列向量满钟,是標(biāo)量胜榔。
解:
1.作微分:這里的是常量湃番,,
,得:
2.作跡運(yùn)算:纬向,注意這里我們根據(jù)
3.對照導(dǎo)數(shù)與微分的聯(lián)系,得到。
例2:担孔,求。其中是列向量吃警,是矩陣糕篇,是列向量酌心,表示逐元素求指數(shù)拌消,是標(biāo)量。
解:
1.作微分:
2.作跡運(yùn)算:
3.對照導(dǎo)數(shù)與微分的聯(lián)系,得到。
例3【線性回歸】:赠制,
求的最小二乘估計(jì)赂摆,即求的零點(diǎn)挟憔。其中是列向量,是矩陣烟号,是列向量绊谭,是標(biāo)量。
解:嚴(yán)格來說這是標(biāo)量對向量的導(dǎo)數(shù)汪拥,不過可以把向量看做矩陣的特例(此時(shí)可以省略第二步:作跡運(yùn)算)达传。
先將向量模平方改寫成向量與自身的內(nèi)積:
1.求微分:。
2.對照導(dǎo)數(shù)與微分的聯(lián)系迫筑,得到宪赶。的零點(diǎn)即的最小二乘估計(jì)為。
例4【方差的最大似然估計(jì)】:樣本脯燃,求方差的最大似然估計(jì)搂妻。寫成數(shù)學(xué)式是:,求的零點(diǎn)辕棚。其中是列向量,是樣本均值,是對稱正定矩陣,是標(biāo)量。
解:
1.作微分:第一項(xiàng)是够掠,第二項(xiàng)是竖哩。
2.作跡運(yùn)算:
,定義為樣本方差矩陣辽幌。得到。
3.對照導(dǎo)數(shù)與微分的聯(lián)系加酵,有码撰,其零點(diǎn)即的最大似然估計(jì)為柴梆。
矩陣對矩陣的導(dǎo)數(shù) {#矩陣f對矩陣x的導(dǎo)數(shù) .unnumbered}
一般而言雹有,標(biāo)量就是的矩陣,如果我們能推導(dǎo)出矩陣對矩陣的導(dǎo)數(shù)溜宽,標(biāo)量對矩陣的導(dǎo)數(shù)不是自然的么质帅,不應(yīng)該可以統(tǒng)一進(jìn)來么,那為啥還要大費(fèi)周章地先寫標(biāo)量對矩陣的導(dǎo)數(shù)煤惩。原因是這兩者不完全相同剪侮,并不能很簡單地統(tǒng)一起來。
應(yīng)該怎么定義矩陣對矩陣的導(dǎo)數(shù)。回答這個(gè)問題不是隨意的驻仅,為了滿足兩個(gè)要求谅畅,我們對矩陣對矩陣的定義有嚴(yán)格的要求噪服。我們的兩個(gè)要求是:
1.矩陣對矩陣的導(dǎo)數(shù)應(yīng)包含所有個(gè)偏導(dǎo)數(shù),從而不損失信息。
2.在標(biāo)量對矩陣求導(dǎo)的地方,我們發(fā)現(xiàn)導(dǎo)數(shù)與微分有簡明的聯(lián)系王财。這里我們?nèi)韵M麄冎g存在某種聯(lián)系闪金。
為此囱嫩,我們先定義向量對向量的導(dǎo)數(shù)
此時(shí)郑口,可以證明,,這個(gè)定義滿足我們的兩個(gè)要求套利,所以我們現(xiàn)在作好了了向量對向量的導(dǎo)數(shù)。
再定義矩陣的(按列優(yōu)先)向量化:
并定義矩陣F對矩陣X的導(dǎo)數(shù)=
族购。
此時(shí)撑碴,可以證明醉拓,導(dǎo)數(shù)與微分有聯(lián)系 =
收苏,這樣,我們作好了滿足要求的矩陣關(guān)于矩陣的導(dǎo)數(shù)排吴。
列向量化運(yùn)算法則
1.線性:。
2.[
矩陣乘法]{}:懦鼠,其中表示Kronecker積,的Kronecker積是。此式證明見張賢達(dá)《矩陣分析與應(yīng)用》第107-108頁。
3.轉(zhuǎn)置:厉亏,是矩陣,其中是換位矩陣(commutation
matrix)(就是一些初等換位矩陣的乘積)招刹。
4.逐元素乘法:虱颗,其中是用的元素(按列優(yōu)先)排成的對角陣。
一些Kronecker積和交換矩陣相關(guān)的恒等式
1.蔗喂。
2.高帖。
3.缰儿。可以對求導(dǎo)來證明散址,一方面乖阵,直接求導(dǎo)得到;另一方面预麸,引入瞪浸,有,
,用鏈?zhǔn)椒▌t得到吏祸。
4.对蒲,所以換位矩陣是正交矩陣。
5.贡翘,是矩陣蹈矮,是矩陣∶可以對做向量化來證明泛鸟,一方面,踊东;另一方面北滥,。
復(fù)合法則
假設(shè)已求得闸翅,而是的函數(shù)再芋,如何求呢?從導(dǎo)數(shù)與微分的聯(lián)系入手坚冀,祝闻,可以推出鏈?zhǔn)椒▌t
矩陣對矩陣的一般求導(dǎo)步驟
1.對矩陣值函數(shù)兩端作微分,利用微分運(yùn)算法則化簡
2.對兩端作列向量化運(yùn)算,利用列向量化法則化簡联喘,注意看列向量里面是什么形式华蜒,就用什么公式,如列向量里面是兩個(gè)矩陣相乘豁遭,就想辦法湊進(jìn)去一個(gè)單位矩陣叭喜,并使得在中間,然后利用vec的矩陣乘法公式
3.利用微分和矩陣的聯(lián)系 =
,求
一些例子
例1:蓖谢,是矩陣捂蕴,求。
解: 1.作微分:
2.列向量化闪幽,使用矩陣乘法的技巧啥辨,注意在右側(cè)添加單位陣:
3.對照導(dǎo)數(shù)與微分的聯(lián)系得到。
特例:如果退化為向量盯腌,即溉知,則根據(jù)向量的導(dǎo)數(shù)與微分的關(guān)系d,得到
例2: 腕够,X是n×n矩陣级乍,求。
解: 1.求微分:
2.列向量化帚湘,玫荣,
3.對照導(dǎo)數(shù)與微分的聯(lián)系,得到大诸,注意它是對稱矩陣捅厂。
例3:是矩陣资柔,是矩陣恒傻,是矩陣,為逐元素函數(shù)建邓,求盈厘。
解: 1.求微分:
2.列向量化:。
3.對照導(dǎo)數(shù)與微分的聯(lián)系得到官边。
注解
1.一般而言沸手,這套方法就是為了矩陣對矩陣求導(dǎo)而引入的,由于這里是利用列向量定義的導(dǎo)數(shù)注簿,所以直接應(yīng)用在標(biāo)量對矩陣的導(dǎo)數(shù)上契吉,會得到一個(gè)的列向量,這與我們一般定義的標(biāo)量對矩陣的導(dǎo)數(shù)相悖诡渴,所以一般標(biāo)量對矩陣的導(dǎo)數(shù)捐晶,我們還是利用上一節(jié)的方法菲语。當(dāng)然,若將上一節(jié)定義的標(biāo)量對矩陣的導(dǎo)數(shù)用記號來表示惑灵,則這里定義的,在牢記這一條的情況下山上,我們可以用本節(jié)的方法來解決標(biāo)量對矩陣求導(dǎo),只是沒有上一節(jié)的方法方便英支。為了滿足讀者的好奇心佩憾,我們給出標(biāo)量對矩陣求導(dǎo)的一個(gè)例子,并且用兩種方法來解決干花。
2.標(biāo)量對矩陣的二階導(dǎo)數(shù)妄帘,又稱Hessian矩陣,定義為是對稱矩陣池凄,這個(gè)二階導(dǎo)數(shù)分兩次進(jìn)行抡驼,第一次是標(biāo)量對矩陣求導(dǎo),第二次是矩陣對矩陣求導(dǎo)肿仑。
3.如何理解,它是一個(gè)換位矩陣致盟,根據(jù),它的作用是使的和的若干行對換位置柏副。由,
這里,所以就是單位矩陣(mn×mn)交換和行得到的一個(gè)矩陣蚣录。
對兩節(jié)內(nèi)容的總結(jié)
我們發(fā)展了從整體出發(fā)的矩陣求導(dǎo)的技術(shù)割择,導(dǎo)數(shù)與微分的聯(lián)系是計(jì)算的樞紐。
上一節(jié)中萎河,我們了解了荔泳,標(biāo)量對矩陣的導(dǎo)數(shù)與微分的聯(lián)系是,先對求微分虐杯,再使用跡技巧可求得導(dǎo)數(shù)玛歌,特別地,標(biāo)量對向量的導(dǎo)數(shù)與微分的聯(lián)系是
下一節(jié)中擎椰,我們了解了支子,矩陣對矩陣的導(dǎo)數(shù)與微分的聯(lián)系是,先對求微分达舒,再使用列向量化的技巧可求得導(dǎo)數(shù)值朋,特別地,向量對向量的導(dǎo)數(shù)與微分的聯(lián)系是巩搏。
reference
如何理解矩陣對矩陣求導(dǎo)昨登?-知乎-豬豬專業(yè)戶
Lagrange duality
application
applied on:\
- 最大熵模型\
- SVM(support vector machine)
primal problem
Set are continuously differentiable
function over , consider optimization problem with constraints
generalized Lagrange function
where,
,
are Lagrange multiplier,
After introduced generalized Lagrange function, primal problem is equal
to
dual problem
KKT(Karush-Kuhn-Tucker)condition
if and are convex function, are
affine function[^1], and inequation constrains strictly
hold, that is, exist , s.t. for any , hold ,
then, there must be are the
optimal solution of primal problem as well as dual problem and satisfy
KKT condition at .
Remark: so, when the prerequisites are satisfied, we can use KKT
condition to find the optimal solution
.
is called affine function, when it holds that