導(dǎo)數(shù)
- 一個(gè)函數(shù)在某一點(diǎn)的導(dǎo)數(shù)描述了這個(gè)函數(shù)在這一點(diǎn)附近的變化率,也可以認(rèn)為是函數(shù)在某一點(diǎn)的導(dǎo)數(shù)就是該函數(shù)所代表的曲線在這一點(diǎn)的切線斜率胧后。導(dǎo)數(shù)值越大芋浮,表示函數(shù)在該點(diǎn)處的變化越大。
- 當(dāng)函數(shù)y=f(x)在自變量x=x0上產(chǎn)生一個(gè)增量Δx時(shí)壳快,函數(shù)輸出值的增量Δy和自變量增量Δx之間的比值在Δx趨近與0的時(shí)候存在極限值a纸巷,那么a即為函數(shù)在x0處的導(dǎo)數(shù)值。
- 導(dǎo)數(shù)就是曲線的斜率眶痰,是曲線變化快慢的一個(gè)反應(yīng)瘤旨。
-
二階導(dǎo)數(shù)是斜率變化的反應(yīng),表現(xiàn)曲線是凹凸性竖伯。
image.png
image.png
常見的導(dǎo)數(shù)
偏導(dǎo)數(shù)
在一個(gè)多變量的函數(shù)中存哲,偏導(dǎo)數(shù)就是關(guān)于其中一個(gè)變量的導(dǎo)數(shù)而保持其它變量恒定不變。假定二元函數(shù)z=f(x,y)七婴,點(diǎn)(x0,y0)是其定義域內(nèi)的一個(gè)點(diǎn)祟偷,將y固定在y0上,而x在x0上增量Δx打厘,相應(yīng)的函數(shù)z有增量Δz=f(x0+Δx, y0) - f(x0,y0)修肠;Δz和Δx的比值當(dāng)Δx的值趨近于0的時(shí)候,如果極限存在户盯,那么此極限值稱為函數(shù)z=f(x,y)在處對(duì)x的偏導(dǎo)數(shù)(partial derivative)嵌施,記作:f'x(x0,y0)
梯度
梯度是一個(gè)向量饲化,表示某一函數(shù)在該點(diǎn)處的方向?qū)?shù)沿著該方向取的最大值,即函數(shù)在該點(diǎn)處沿著該方向變化最快吗伤,變化率最大(即該梯度向量的模)吃靠;當(dāng)函數(shù)為一維函數(shù)的時(shí)候,梯度其實(shí)就是導(dǎo)數(shù)
泰勒公式
- Taylor(泰勒)公式是用一個(gè)函數(shù)在某點(diǎn)的信息描述其附近取值的公式足淆。如果函數(shù)足夠平滑巢块,在已知函數(shù)在某一點(diǎn)的各階導(dǎo)數(shù)值的情況下,Taylor公式可以利用這些導(dǎo)數(shù)值來做系數(shù)構(gòu)建一個(gè)多項(xiàng)式近似函數(shù)在這一點(diǎn)的鄰域中的值缸浦。
-
若函數(shù)f(x)在包含x0的某個(gè)閉區(qū)間[a,b]上具有n階函數(shù)夕冲,且在開區(qū)間(a,b)上具有n+1階函數(shù),則對(duì)閉區(qū)間[a,b]上任意一點(diǎn)x裂逐,有Taylor公式如下:<f(n)(x)表示f(x)的n階導(dǎo)數(shù)歹鱼,Rn(x)是Taylor公式的余項(xiàng),是(x-x0)n的高階無窮小(備注:Taylor公式是一種多項(xiàng)式近似擬合的方式卜高。用一個(gè)多項(xiàng)式的值去逼近某個(gè)函數(shù)弥姻。)
image.png
概率
概率是以假設(shè)為基礎(chǔ)的,即假定隨機(jī)現(xiàn)象所發(fā)生的事件是有限的掺涛、互不相容的庭敦,而且每個(gè)基本事件發(fā)生的可能性相等。一般來講薪缆,如果在全部可能出現(xiàn)的基本事件范圍內(nèi)構(gòu)成事件A的基本事件有a個(gè)秧廉,不構(gòu)成事件A的有b個(gè),那么事件A出現(xiàn)的概率為:P(A)=a/(a+b)
概率體現(xiàn)的是隨機(jī)事件A發(fā)生可能的大小度量(數(shù)值)
聯(lián)合概率論
表示兩個(gè)事件共同發(fā)生的概率拣帽,事件A和事件B的共同概率記作:P(AB)疼电、P(A,B)或者P(A∩B),讀作“事件A和事件B同時(shí)發(fā)生的概率”
條件概率
事件A在另外一個(gè)事件B已經(jīng)發(fā)生的條件下的發(fā)生概率叫做條件概率减拭,表示為P(A|B)蔽豺,讀作“在B條件下A發(fā)生的概率“,一般情況下P(A|B)≠P(A)拧粪,而且條件概率具有三個(gè)特性:非負(fù)性修陡、可列性、可加性可霎。
將條件概率公式由兩個(gè)事件推廣到任意有窮多個(gè)事件時(shí)魄鸦,可以得到如下公式,假設(shè)A1癣朗,A2号杏,....,An為n個(gè)任意事件(n≥2),而且P(A1A2...An)>0盾致,則:
全概率公式
樣本空間?有一組事件A1、A2...An, 如果事件組滿足下列兩個(gè)條件荣暮,那么事件組稱為樣本空間的一個(gè)劃分:
設(shè)事件{Aj}是樣本空間?的一個(gè)劃分庭惜,且P(Ai)>0,那么對(duì)于任意事件B穗酥,全概率公式為:
貝葉斯公式
設(shè)A1护赊、A2...An是樣本空間?的一個(gè)劃分,如果對(duì)任意事件B而言砾跃,有P(B)>0,那么:
概率公式
期望
-
期望(mean):也就是均值,是概率加權(quán)下的“平均值”屑咳,是每次可能結(jié)果的概率乘以其結(jié)果的總和跛梗,反映的實(shí)隨機(jī)變量平均取值大小。常用符號(hào)μ表示 :
image.png
方差
方差(variance)是衡量隨機(jī)變量或一組數(shù)據(jù)時(shí)離散程度的度量翘骂,是用來度量隨機(jī)變量和其數(shù)學(xué)期望之間的偏離程度壁熄。
標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差(Standard Deviation)是離均值平方的算術(shù)平均數(shù)的平方根,用符號(hào)σ表示碳竟,其實(shí)標(biāo)準(zhǔn)差就是方差的算術(shù)平方根草丧。標(biāo)準(zhǔn)差和方差都是測(cè)量離散趨勢(shì)的最重要、最常見的指標(biāo)莹桅。標(biāo)準(zhǔn)差和方差的不同點(diǎn)在于昌执,標(biāo)準(zhǔn)差和變量的計(jì)算單位是相同的,比方差清楚诈泼,因此在很多分析的時(shí)候使用的是標(biāo)準(zhǔn)差懂拾。
協(xié)方差
協(xié)方差常用于衡量?jī)蓚€(gè)變量的總體誤差;當(dāng)兩個(gè)變量相同的情況下厂汗,協(xié)方差其實(shí)就是方差委粉。 如果X和Y是統(tǒng)計(jì)獨(dú)立的,那么二者之間的協(xié)方差為零娶桦。但是如果協(xié)方差為零贾节,那么X和Y是不相關(guān)的。
假設(shè)C為一個(gè)常數(shù)衷畦,X和Y實(shí)兩個(gè)隨機(jī)變量栗涂,那么協(xié)方差有性質(zhì)如下所示:
協(xié)方差是兩個(gè)隨機(jī)變量具有相同方向變化趨勢(shì)的度量:
? 若Cov(X,Y) > 0, 則X和Y的變化趨勢(shì)相同;
? 若Cov(X,Y) < 0, 則X和Y的變化趨勢(shì)相反祈争;
? 若Cov(X,Y) = 0斤程,則X和Y不相關(guān),也就是變化沒有什么相關(guān)性
協(xié)方差矩陣
對(duì)于n個(gè)隨機(jī)向量(X1,X2,X3....Xn), 任意兩個(gè)元素Xi和Xj都可以得到一個(gè)協(xié)方差,從而形成一個(gè)n*n的矩陣忿墅,該矩陣就叫做協(xié)方差矩陣扁藕,協(xié)方差矩陣為對(duì)稱矩陣。
大數(shù)定理
大數(shù)定律的意義:隨著樣本容量n的增加疚脐,樣本平均數(shù)將接近于總體平均數(shù)(期望μ)亿柑,所以在統(tǒng)計(jì)推斷中,一般都會(huì)使用樣本平均數(shù)估計(jì)總體平均數(shù)的值棍弄。也就是我們會(huì)使用一部分樣本的平均值來代替整體樣本的期望/均值望薄,出現(xiàn)偏差的可能是存在的,但是當(dāng)n足夠大的時(shí)候呼畸,偏差的可能性是非常小的痕支,當(dāng)n無限大的時(shí)候,這種可能性的概率基本為0蛮原。大數(shù)定律的主要作用就是為使用頻率來估計(jì)概率提供了理論支持卧须;為使用部分?jǐn)?shù)據(jù)來近似的模擬構(gòu)建全部數(shù)據(jù)的特征提供了理論支持。
中心極限定理
中心極限定理(Central Limit Theorem)瞬痘;假設(shè){Xn}為獨(dú)立同分布的隨機(jī)變量序列故慈,并具有相同的期望μ和方差為σ2,則{Yn}服從中心極限定理框全,且Yn為隨機(jī)序列{Xn}的規(guī)范和
中心極限定理就是一般在同分布的情況下察绷,抽樣樣本值的規(guī)范和在總體
數(shù)量趨于無窮時(shí)的極限分布近似于正態(tài)分布。
最大似然估計(jì)
最大似然法(Maximum Likelihood Estimation, MLE)也稱為最大概似估計(jì)津辩、極大似然估計(jì)拆撼,是一種具有理論性的參數(shù)估計(jì)方法〈兀基本思想是:當(dāng)從模型總體隨機(jī)抽取n組樣本觀測(cè)值后闸度,最合理的參數(shù)估計(jì)量應(yīng)該使得從模型中抽取該n組樣本觀測(cè)值的概率最大;一般步驟如下:
- 寫出似然函數(shù)
- 對(duì)似然函數(shù)取對(duì)數(shù)蚜印,并整理
- 求導(dǎo)數(shù)
- 解似然方程
設(shè)總體分布為f(x,θ), {Xn}為該總體采樣得到的樣本莺禁。因?yàn)殡S機(jī)序列{Xn}獨(dú)立同分布,則它們的聯(lián)合密度函數(shù)為:
這里θ被看做固定但是未知的參數(shù)窄赋,反過來哟冬,因?yàn)闃颖疽呀?jīng)存在,可以看做{Xn}是固定的忆绰,L(x,θ)是關(guān)于θ的函數(shù)浩峡,即似然函數(shù);
求參數(shù)θ的值错敢,使得似然函數(shù)取最大值翰灾,這種方法叫做最大似然估計(jì)法。
矩陣
數(shù)域F中mn個(gè)數(shù)排成m行n列,并括以圓括弧(或方括弧)的數(shù)表示成為數(shù)域F上的矩陣纸淮,通常用大寫字母記作A或者Amn平斩,有時(shí)也記作A=(aij)m*n(i=1,2…,m;j=1,2,…n),其中aij表示矩陣A的第i行的第j列元素萎馅,當(dāng)F為實(shí)數(shù)域R時(shí)双戳,A叫做實(shí)矩陣,當(dāng)F為復(fù)數(shù)域C時(shí)糜芳,A叫做復(fù)矩陣。
矩陣轉(zhuǎn)置
矩陣的轉(zhuǎn)置:把矩陣A的行和列互相交換所產(chǎn)生的矩陣稱為A的轉(zhuǎn)置矩陣魄衅,這一過程叫做矩陣的轉(zhuǎn)置峭竣。 使用AT表示A的轉(zhuǎn)置
轉(zhuǎn)置的運(yùn)算性質(zhì):
SVD分解
奇異值分解(Singular Value Decomposition)是一種重要的矩陣分解方法,可以看做是對(duì)稱方陣在任意矩陣上的推廣晃虫。
? 假設(shè)A為一個(gè)m*n階實(shí)矩陣皆撩,則存在一個(gè)分解使得:
? 通常將奇異值由大到小排列,這樣Σ便能由A唯一確定了哲银。