前面介紹的隨機(jī)變量的分布律、分布函數(shù)和概率密度函數(shù)都能完整地描述隨機(jī)變量豹芯。但在某些實(shí)際問題中亿卤,更關(guān)心一些描述隨機(jī)變量的常數(shù)。本章介紹這些常數(shù)热凹。對(duì)于單個(gè)隨機(jī)變量(一維隨機(jī)變量或多維隨機(jī)變量中的某個(gè))泵喘,有k階原點(diǎn)矩和k階中心矩。其中重點(diǎn)介紹的有1階原點(diǎn)矩(期望)和2階中心矩(方差)般妙。對(duì)于二維隨機(jī)變量X和Y纪铺,有k+l階混合矩和k+l階混合中心矩。其中重點(diǎn)介紹了2階混合中心矩中的協(xié)方差碟渺。二維隨機(jī)變量有4種2階混合中心矩鲜锚,組成了協(xié)方差矩陣,這是一個(gè)對(duì)稱的矩陣止状。由此推廣到n維隨機(jī)變量的情況烹棉,n維隨機(jī)變量的2階混合中心矩共有個(gè),組成的協(xié)方差矩陣怯疤,可以解決n維隨機(jī)變量分布函數(shù)過于復(fù)雜不方便處理的問題。另外催束,由二維隨機(jī)變量協(xié)方差適當(dāng)變形得到的相關(guān)系數(shù)集峦,引出了(線性)相關(guān)與獨(dú)立的區(qū)別與聯(lián)系的問題。本章還介紹了切比雪夫不等式,為下一章進(jìn)行了鋪墊塔淤。需要注意的是摘昌,本章介紹的隨機(jī)變量的數(shù)字特征,是根據(jù)變量的分布得出的常數(shù)高蜂,常用來描述隨機(jī)變量的某些特征或是在分布函數(shù)過于復(fù)雜的時(shí)候作簡化的替代聪黎,因此對(duì)于隨機(jī)變量的描述,這些數(shù)字遠(yuǎn)沒有分布精確备恤。
數(shù)學(xué)期望
數(shù)學(xué)期望是隨機(jī)變量的1階原點(diǎn)矩稿饰,簡稱期望,又稱均值露泊。它完全由隨機(jī)變量的分布確定喉镰,若X服從某一分布,也稱E(X)是這一分布的數(shù)學(xué)期望惭笑。
對(duì)于離散型隨機(jī)變量侣姆,分布律為,若級(jí)數(shù)
絕對(duì)收斂沉噩,則稱該級(jí)數(shù)的和為隨機(jī)變量X的期望捺宗。
對(duì)于連續(xù)性隨機(jī)變量,概率密度函數(shù)為川蒙,若積分
絕對(duì)收斂蚜厉,則稱該積分的值為隨機(jī)變量X的期望。
存在隨機(jī)變量不存在的情況派歌,一般來說若級(jí)數(shù)或積分不絕對(duì)收斂弯囊,該隨機(jī)變量不存在期望。
設(shè)Y是隨機(jī)變量X的函數(shù):
如果X是分布律為的離散型隨機(jī)變量胶果,若
絕對(duì)收斂匾嘱,則該級(jí)數(shù)和為Y的期望。
如果X是概率密度函數(shù)為的連續(xù)型隨機(jī)變量早抠,若
絕對(duì)收斂霎烙,則該積分值為Y的期望。
數(shù)學(xué)期望具有以下性質(zhì):
設(shè)為常數(shù)蕊连,則
.
設(shè)為一個(gè)隨機(jī)變量悬垃,
是常數(shù),則
.
設(shè)是兩個(gè)隨機(jī)變量尝蠕,則
,可以推廣到任意有限個(gè)隨機(jī)變量之和情況载庭。( 沒有相互獨(dú)立的要求)
設(shè)是兩個(gè)相互獨(dú)立的隨機(jī)變量廊佩,則
,可以推廣到任意有限個(gè)相互獨(dú)立的隨機(jī)變量之積情況靖榕。
方差
方差用來度量隨機(jī)變量與其期望的偏離程度标锄,設(shè)X是一個(gè)隨機(jī)變量,若存在茁计,則稱該項(xiàng)為隨機(jī)變量
的方差料皇,記為
或
。在應(yīng)用上還引入了
星压,記為
践剂,稱為標(biāo)準(zhǔn)差或均方差。
當(dāng)且僅當(dāng)
租幕。
方差具有以下性質(zhì):
設(shè)是常數(shù)舷手,則
。
設(shè)為隨機(jī)變量劲绪,
為常數(shù)男窟,則
,
贾富。
設(shè)為兩個(gè)隨機(jī)變量,則
颤枪,若
相互獨(dú)立疙描,則
常見分布的期望與方差
(0-1)分布,,
:
參數(shù)為的二項(xiàng)分布:
參數(shù)為的泊松分布:
參數(shù)為的均勻分布:
參數(shù)為的指數(shù)分布(
):
參數(shù)為的正態(tài)分布:
幾何分布票灰,設(shè)成功的概率為p:
負(fù)二項(xiàng)分布女阀,設(shè)成功的概率為p,要求成功的次數(shù)為r:
標(biāo)準(zhǔn)化變量
對(duì)任意隨機(jī)變量X屑迂,若存在期望和方差
浸策,作
,稱
為
的標(biāo)準(zhǔn)化變量惹盼。
。對(duì)變量進(jìn)行標(biāo)準(zhǔn)化在機(jī)器學(xué)習(xí)數(shù)據(jù)預(yù)處理有應(yīng)用手报,使問題容易處理夫晌。
切比雪夫不等式
設(shè)隨機(jī)變量具有數(shù)學(xué)期望
雕薪,方差
昧诱,則對(duì)于任意正數(shù)
晓淀,有不等式
成立。該不等式就是切比雪夫不等式盏档。
切比雪夫不等式的意義是凶掰,隨機(jī)變量的分布未知,只知道期望和方差時(shí)蜈亩,能夠估計(jì)的概率懦窘。這種估計(jì)非常粗略,如果知道分布的話可以計(jì)算出概率的準(zhǔn)確值稚配。
線性相關(guān)與相互獨(dú)立
介紹方差性質(zhì)的時(shí)候畅涂,有一條:,若隨即變量
相互獨(dú)立午衰,則
。
現(xiàn)在引入一個(gè)新的概念冒萄,協(xié)方差臊岸。協(xié)方差是用來解釋兩個(gè)隨機(jī)變量在變化時(shí)是同向變化還是異向變化,同向變化協(xié)方差為正尊流,異向變化協(xié)方差為負(fù)帅戒,數(shù)值越大說明變化相似度越高。
關(guān)于協(xié)方差的性質(zhì):
協(xié)方差是無量綱的崖技,為了剔除量綱的影響逻住,引入了相關(guān)系數(shù)。相關(guān)系數(shù)是在協(xié)方差的基礎(chǔ)上除以兩個(gè)隨機(jī)變量的標(biāo)準(zhǔn)差迎献,這樣就把協(xié)方差的數(shù)值標(biāo)準(zhǔn)化到
區(qū)間內(nèi)瞎访,使人們能夠更多地關(guān)注兩個(gè)隨機(jī)變量變化相似程度,而不是變化幅度大小忿晕。當(dāng)相關(guān)系數(shù)等于
装诡,說明兩個(gè)隨機(jī)變量變化程度完全一致 ,你變大一倍我也變大(變小践盼,若
)一倍鸦采,是完全的線性關(guān)系。若相關(guān)系數(shù)等于0咕幻,則說明兩個(gè)變量沒有線性關(guān)系渔伯,可能存在其它關(guān)系,例如W型或圓圈型肄程。因此相關(guān)系數(shù)是反映兩個(gè)隨機(jī)變量的線性關(guān)系程度锣吼。
生活中的情況选浑,兩個(gè)隨機(jī)變量大多數(shù)不遵從嚴(yán)格的數(shù)學(xué)關(guān)系,比較的時(shí)候大多數(shù)是近似地看一下線性關(guān)系玄叠。例如可能遵從二次關(guān)系(兩個(gè)隨機(jī)變量取>0)古徒、對(duì)數(shù)關(guān)系的兩個(gè)隨機(jī)變量,呈現(xiàn)同向變化的趨勢(shì)读恃,因此具有較強(qiáng)的線性關(guān)系隧膘。如果要具體看遵從什么關(guān)系,還是要從分布函數(shù)入手寺惫。
相關(guān)系數(shù)是從線性關(guān)系入手疹吃,粗略地對(duì)隨機(jī)變量進(jìn)行判斷;相對(duì)獨(dú)立是從分布入手西雀,詳細(xì)地比對(duì)萨驶。因此相對(duì)獨(dú)立強(qiáng)度比相關(guān)系數(shù)高,從相對(duì)獨(dú)立可以推出線性無關(guān)艇肴,但不能反推腔呜。
協(xié)方差、相關(guān)系數(shù)的意義詳細(xì)推導(dǎo)見下文:如何通俗易懂地解釋「協(xié)方差」與「相關(guān)系數(shù)」的概念豆挽?
矩和協(xié)方差矩陣
矩是隨機(jī)變量的數(shù)字特征育谬。設(shè)為隨機(jī)變量帮哈,若以下期望存在膛檀,則:
稱為
的k階原點(diǎn)矩,簡稱k階矩娘侍。
稱為
的k階中心矩咖刃。
稱為
和
的k+l階混合矩。
稱為
和
的k+l階混合中心矩憾筏。
由此可見嚎杨,期望是1階矩,方差是2階中心矩氧腰,協(xié)方差是2階混合中心矩枫浙。
2維隨機(jī)變量存在4個(gè)2階混合中心矩,n維隨機(jī)變量存在個(gè)2階混合中心矩古拴,可以組成一個(gè)對(duì)稱的n階矩陣箩帚,稱為協(xié)方差矩陣。n維隨機(jī)變量分布函數(shù)很復(fù)雜或不知道的情況下黄痪,協(xié)方差矩陣可以處理相關(guān)問題紧帕。
N維正態(tài)隨機(jī)變量
n維正態(tài)分布是現(xiàn)實(shí)中經(jīng)常遇到的模型。n維正態(tài)隨機(jī)變量具有下面的性質(zhì):
對(duì)于正態(tài)分布來說桅打,線性不相關(guān)和相對(duì)獨(dú)立可以看作等價(jià)是嗜。