概率是表示事件出現(xiàn)的可能性大小的一種數(shù)量指標山上。
古典概率的看法憔恳,建立在“等可能”的基礎(chǔ)上乒验,各種可能的結(jié)果及其出現(xiàn)的次數(shù)都推演得知往毡,而無需經(jīng)過任何統(tǒng)計試驗即可計算各種可能發(fā)生的概率个少。(古典概率的計算主要基于排列組合)
在很多實際問題中洪乍,將全部可能事件結(jié)果羅列出來是不可能的,同時夜焦,結(jié)果的等可能性假定也很難成立壳澳。無法按古典概率的方式計算概率。所以從實用的角度茫经,就有了概率的統(tǒng)計定義巷波。這是一種通過實驗去估計事件概率的方法,可稱為試驗概率卸伞。
在試驗概率中抹镊,試驗所得的頻率只是對概率的近似估計,而非概率本身瞪慧。其認為存在一個數(shù)p髓考,當試驗重復(fù)時,事件E的頻率在p的附近擺動弃酌,當試驗次數(shù)無限大時氨菇,p是頻率的極限。
概率的統(tǒng)計定義實際并不是給出了一種定義概率的方法妓湘,而是提供了一種估計概率的方法查蓉。進而可以通過試驗,來檢驗理論正確與否榜贴。
此外豌研,建立在過去的經(jīng)驗與判斷的基礎(chǔ)上,有主觀概率的概念唬党,反映主觀上的可能性鹃共。
隨機變量
在概率論中,隨機變量指其值會隨機會而定的變量驶拱,而機會則表現(xiàn)為試驗結(jié)果霜浴。
研究一個隨機變量,不只是看它能取哪些值蓝纲,更重要的是它取各種值的概率如何阴孟。也就是研究隨機變量的概率函數(shù)、分布函數(shù)税迷。
根據(jù)隨機變量可能的值的全體的性質(zhì)永丝,可分為離散型隨機變量、連續(xù)性隨機變量箭养。常見的離散型隨機變量分布有二項分布慕嚷、泊松分布,對連續(xù)性隨機變量,則有均勻分布闯冷、指數(shù)分布砂心、正態(tài)分布。
隨機變量也可以是多維的蛇耀,對多維隨機變量的研究還涉及邊緣分布的問題辩诞。
有了隨機變量的分布,進一步地還有隨機變量的函數(shù)(或稱為統(tǒng)計量)的分布問題纺涤。
隨機變量的數(shù)字特征
在統(tǒng)計中译暂,通過樣本數(shù)據(jù),可對樣本數(shù)據(jù)的分布情況及特征進行統(tǒng)計性描述撩炊。例如均值外永、中位數(shù)、標準差等統(tǒng)計量拧咳。對于概率論伯顶,隨機變量也有類似的數(shù)字特征,但與樣本的統(tǒng)計性描述指標有本質(zhì)上的區(qū)別骆膝。
如概率上的數(shù)學(xué)期望祭衩,也可稱均值。但與統(tǒng)計樣本均值不同阅签,隨機變量的數(shù)學(xué)期望以概率加權(quán)求和所得掐暮,是先驗的。而統(tǒng)計均值政钟,是觀測數(shù)據(jù)的平均路克,是后驗的。中位數(shù)在概率上养交,指變量值小于它的概率為1/2的那個數(shù)精算,而統(tǒng)計的中位數(shù),是樣本中的中間數(shù)值碎连。同樣有先驗與后驗的區(qū)別灰羽。
此外,還有矩破花,稱為 X 關(guān)于數(shù) c 的 k 階矩。
時稱為原點矩疲吸,
時稱為中心距座每。
一階原點矩就是期望,二姐中心距是方差摘悴,三階中心距往往用來衡量數(shù)據(jù)偏度峭梳,四階中心距衡量數(shù)據(jù)峰度。
對于多維隨機變量,還有協(xié)方差葱椭、相關(guān)系數(shù)的概念捂寿,反映各維分量間的關(guān)系。
概率論與數(shù)理統(tǒng)計
如上面數(shù)學(xué)期望及中位數(shù)的例子孵运,概率與數(shù)理統(tǒng)計的區(qū)別就在于概率論是演繹秦陋,從先驗知識推出結(jié)論,根據(jù)已知變量的概率分布(實際中并不能真正的已知概率分布)治笨,推出各種結(jié)論驳概;而數(shù)理統(tǒng)計是歸納的,因為在真實世界里旷赖,我們只能通過觀測值來預(yù)估數(shù)學(xué)模型顺又,是后驗的。
數(shù)理統(tǒng)計就是使用概率論和統(tǒng)計數(shù)學(xué)方法等孵,研究怎樣收集帶有隨機誤差的數(shù)據(jù)稚照,在總體是未知的情況下(有時候是總體分布類型未知,有時候是總體分布類型已知但分布的參數(shù)未知)俯萌,通過從總體中收集的樣本果录,得到關(guān)于總體分布的統(tǒng)計推斷。
在任何考察的項目中绳瘟,總體都是需要歸納了解的雕憔,需要連接關(guān)于總體的數(shù)值特征(概率分布參數(shù))。而從總體中抽取的樣本時具體的糖声,可操作性的斤彼。通過樣本的統(tǒng)計量,來估計總體的數(shù)值特征(參數(shù))蘸泻。
而要能通過樣本估計總體的特征琉苇,只有在樣本的特征反映總體特征時才是可行的,根據(jù)樣本來估計參數(shù)才是合理的悦施。要核實這一點并扇,值查看樣本是不可能的,但又因不了解總體抡诞,所以無法對比樣本與總體穷蛹,來判定樣本是否與總體相似。我們能做的昼汗,就是查看樣本時如何獲取的肴熏,選取樣本的方法至關(guān)重要,也就是統(tǒng)計實驗中為了避免偏性的實驗設(shè)計顷窒。
而有了合適的樣本蛙吏,數(shù)理統(tǒng)計的工作主要涉及到參數(shù)估計和假設(shè)檢驗。