矩陣求導(dǎo)好像讀書的時(shí)候都沒學(xué)過,因?yàn)橹v矩陣的課程上不講求導(dǎo)春塌,講求導(dǎo)的課又不提矩陣缓熟。
如果從事機(jī)器學(xué)習(xí)方面的工作,那就一定會(huì)遇到矩陣求導(dǎo)的東西摔笤。
維基百科上:http://en.wikipedia.org/wiki/Matrix_calculus
根據(jù)Y與X的不同類型(標(biāo)量==實(shí)數(shù),向量垦写,矩陣)吕世,給出了具體的求導(dǎo)公式,以及一堆相關(guān)的公式梯投,查起來都費(fèi)勁命辖。
其實(shí)在實(shí)際的機(jī)器學(xué)習(xí)工作中况毅,最常用到的就是標(biāo)量函數(shù)y對(duì)向量X的求導(dǎo),定義如下(其實(shí)就是y對(duì)向量X的每一個(gè)元素求導(dǎo)):
標(biāo)量函數(shù)對(duì)矩陣X求導(dǎo)也類似:
因?yàn)闄C(jī)器學(xué)習(xí)(這里指的是有監(jiān)督的機(jī)器學(xué)習(xí))的一般套路是給定輸入X尔艇,選擇一個(gè)模型f(X)作為決策函數(shù)尔许,由f(X)預(yù)測(cè)出Y'。而得到f(X)的參數(shù)θ(往往是向量)终娃,需要定義一個(gè)loss函數(shù)(一般都是實(shí)值函數(shù))味廊,描述當(dāng)前f預(yù)測(cè)值Y'與實(shí)際的Y值的接近程度。模型學(xué)習(xí)的過程就是求使得 loss函數(shù) L(f(X),Y)最小的參數(shù)θ棠耕。這是一個(gè)最優(yōu)化問題余佛,實(shí)際應(yīng)用中都是用和梯度相關(guān)的最優(yōu)化方法,如梯度下降窍荧,共軛梯度辉巡,擬牛頓法等等。
其實(shí)只要掌握上面這個(gè)公式蕊退,就能搞定很多問題了郊楣。
為了方便推導(dǎo),下面列出一些機(jī)器學(xué)習(xí)中常用的求導(dǎo)公式瓤荔,其中andrew ng那一套用矩陣跡的方法還是挺不錯(cuò)的净蚤,矩陣的跡也是標(biāo)量的,而一個(gè)標(biāo)量的跡等于其本身茉贡,實(shí)際工作中可以將loss函數(shù)轉(zhuǎn)化成跡塞栅,然后在求導(dǎo),可能會(huì)簡(jiǎn)化推導(dǎo)的步驟腔丧。(實(shí)數(shù)==標(biāo)量)
作者:7125messi
鏈接:http://www.reibang.com/p/34e5aebf3b13
來源:簡(jiǎn)書
簡(jiǎn)書著作權(quán)歸作者所有放椰,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處。