學(xué)習(xí)安排(8月9日-8月10日)
1.主要學(xué)習(xí)視頻Week3
鏈接(http://www.xuetangx.com/courses/MITx/6_00_2x/2014_T2/courseware/d39541ec36564a88af34d319a2f16bd7/)
2.輔助內(nèi)容:教材第15和17章
隨機(jī)程序、概率與分布
統(tǒng)計(jì)推斷
統(tǒng)計(jì)推斷的指導(dǎo)原則就是:一個(gè)從總體數(shù)據(jù)中隨機(jī)抽取的樣本往往可以表現(xiàn)出與總體相同的特性进副。
大數(shù)定律(也稱為伯努利定理):在獨(dú)立可重復(fù)的實(shí)驗(yàn)中这揣,如果每次實(shí)驗(yàn)中出現(xiàn)某種特定結(jié)果的實(shí)際概率為p(例如,每次拋硬幣正面向上的實(shí)際概率為0.5)影斑,那么實(shí)驗(yàn)次數(shù)接近無(wú)窮大時(shí)给赞,出現(xiàn)這種結(jié)果的比例與實(shí)際概率p之間的差收斂于0。
值得注意的是矫户,大數(shù)定律并不意味著如果預(yù)期行為出現(xiàn)偏差片迅,那么這些偏差會(huì)在未來(lái)被相反的偏差“扯平”,盡管太多的人都是這樣認(rèn)為的皆辽。這種對(duì)大數(shù)定律的濫用稱為賭徒謬誤柑蛇。人們經(jīng)常將賭徒謬誤與均值回歸混淆。 均值回歸說(shuō)明驱闷,如果出現(xiàn)一個(gè)極端的隨機(jī)事件耻台,那么下一個(gè)隨機(jī)事件很可能就不是極端的。如果你將一個(gè)均勻的硬幣拋了6次空另,每次都是正面向上盆耽,那么均值回歸就意味著如果再拋6次硬幣,結(jié)果就非扯蟛ぃ可能接近3次正面向上這個(gè)期望值摄杂。而不是像賭徒謬誤那樣,認(rèn)為在下一個(gè)拋擲序列中循榆,正面向上的概率要小于反面向上的概率析恢。在很多工作中,成功既需要能力秧饮,也需要運(yùn)氣映挂。能力決定了均值,運(yùn)氣則導(dǎo)致了方差浦楣。運(yùn)氣的隨機(jī)性解釋了均值回歸。
方差描述了集合中接近于均值的數(shù)值的比例咪辱。如果很多值都非常接近均值振劳,方差就會(huì)很小。如果很多值都非常遠(yuǎn)離均值油狂,方差就會(huì)很大历恐。如果所有值都一樣寸癌,方差就是0。
一個(gè)數(shù)值集合的標(biāo)準(zhǔn)差是方差的平方根弱贼。盡管它包含的信息與方差完全相同蒸苇,但標(biāo)準(zhǔn)差更容易解釋,因?yàn)樗c原始數(shù)據(jù)的單位是一致的吮旅。
標(biāo)準(zhǔn)差除以均值所得的值稱為變異系數(shù)溪烤。當(dāng)我們比較具有不同均值的數(shù)據(jù)集合時(shí)(比如本例) ,變異系數(shù)比標(biāo)準(zhǔn)差更合適庇勃。并不是說(shuō)變異系數(shù)總是比標(biāo)準(zhǔn)差更有用處檬嘀。如果均值接近于0,那么均值的一個(gè)微小改變就會(huì)導(dǎo)致變異系數(shù)發(fā)生非常大(但不一定有意義)的變化责嚷。而且均值為0時(shí)鸳兽,變異系數(shù)是沒有意義的。
概率分布
根據(jù)隨機(jī)變量是離散型的還是連續(xù)型的罕拂,概率分布可以分成兩類:離散型概率分布和連續(xù)型概率分布揍异。 離散型隨機(jī)變量的取值是一個(gè)有限集合,如擲骰子的結(jié)果爆班; 連續(xù)型隨機(jī)變量的取值可以是無(wú)限的衷掷,可以是兩個(gè)實(shí)數(shù)之間的任意一個(gè)實(shí)數(shù)。例如蛋济,汽車的行駛速度可以在0英里/小時(shí)和最大行駛速度之間棍鳖。
離散型概率分布很容易描述,因?yàn)樽兞咳≈凳怯邢薜耐肼茫灾灰?jiǎn)單列出每個(gè)值的概率即可描述這種分布渡处。連續(xù)型概率分布則更復(fù)雜一些。因?yàn)橛袩o(wú)限多個(gè)可能的取值祟辟,所以連續(xù)型隨機(jī)變量取某個(gè)特
定的值的概率通常為0医瘫。數(shù)學(xué)家們喜歡用概率密度函數(shù)(probability density function)來(lái)描述連續(xù)型概率分布,并經(jīng)常將其縮寫為PDF旧困。 PDF描述了一個(gè)隨機(jī)變量位于兩個(gè)數(shù)值之間的概率醇份。
正態(tài)分布
正態(tài)分布(又稱高斯分布)由以下概率密度函數(shù)定義:
P(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
這里\mu表示均值,\sigma表示標(biāo)準(zhǔn)差吼具。
正態(tài)分布在均值處達(dá)到最大值僚纷,并在均值兩下·x側(cè)對(duì)稱地減小,逐漸趨近于0拗盒。使用Python程序非常容易生成正態(tài)分布怖竭,調(diào)用函數(shù)random.gauss(mu, sigma)即可,這個(gè)函數(shù)會(huì)從一個(gè)均值為mu陡蝇、標(biāo)準(zhǔn)差為sigma的正態(tài)分布中隨機(jī)返回一個(gè)浮點(diǎn)數(shù)痊臭。
正態(tài)分布的一個(gè)良好特性是均值和標(biāo)準(zhǔn)差的獨(dú)立性哮肚,如果想包括固定比例的數(shù)據(jù),那么從均值開始所需的標(biāo)準(zhǔn)差個(gè)數(shù)是一個(gè)常數(shù)广匙。舉例來(lái)說(shuō)允趟,大約68.27%的數(shù)據(jù)都位于距均值1個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),大約95.45%的數(shù)據(jù)位于距均值2個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)鸦致,大約99.73%的數(shù)據(jù)位于距均值3個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)潮剪。人們有時(shí)將這種情況稱為68-95-99.7法則,但更多時(shí)候?qū)⑵浞Q為經(jīng)驗(yàn)法則蹋凝。
均勻分布
均勻分布可以是離散型的鲁纠,也可以是連續(xù)型的。 連續(xù)型均勻分布也稱為矩形分布鳍寂,它的特點(diǎn)是所有長(zhǎng)度相同的區(qū)間都具有相同概率改含。
我們可以使用一個(gè)參數(shù)完全描述出連續(xù)型均勻分布的特性,即它的范圍(也就是最小值和最大值)迄汛。如果可能取值的范圍是min-max捍壤,那么一個(gè)值落入x~y的概率可以由以下公式給出:
P(x, y) = \begin{cases} \frac{y-x}{max-min} &\text{if $x≥min$ 且 $y≤max$x} \\ n+1 &\text{其他} \end{cases}
調(diào)用random.uniform(min, max)可以生成一個(gè)連續(xù)型均勻分布的值,它會(huì)返回在min和max之間隨機(jī)選擇的一個(gè)浮點(diǎn)數(shù)鞍爱。
離散型均勻分布描述的是鹃觉,結(jié)果不是連續(xù)的而且每個(gè)結(jié)果發(fā)生的概率完全相同的情況。我們可以使用下面的公式來(lái)完整地描述離散型均勻分布:
P(x) = \begin{cases} \frac{1}{|S|} &\text{if $x \in S$} \\ 0&\text{其他} \end{cases}
這里的S是可能出現(xiàn)的結(jié)果的集合睹逃, |S|是S中的元素?cái)?shù)量盗扇。
二項(xiàng)式分布與多項(xiàng)式分布
只能在一個(gè)離散集合中取值的隨機(jī)變量稱為分類變量,也稱名義變量或離散變量沉填。如果分類變量只可能有兩個(gè)值(如成功或失斄屏ァ),那么這時(shí)的概率分布就稱為二項(xiàng)式分布翼闹“弑牵可以將二項(xiàng)式分布理解為n次獨(dú)立實(shí)驗(yàn)中正好成功k次的概率。如果單次實(shí)驗(yàn)成功的概率為p猎荠,那么n次獨(dú)立實(shí)驗(yàn)中正好成功k次的概率可以由以下公式給出:
\left(C^k_n\right)p^k(1-p)^{n-k}
多項(xiàng)式分布是二項(xiàng)式分布的推廣坚弱,用來(lái)描述取值多于兩個(gè)的分類數(shù)據(jù)。如果在n次獨(dú)立實(shí)驗(yàn)中关摇,每次實(shí)驗(yàn)都存在m個(gè)具有固定概率的互相排斥的結(jié)果荒叶,那么這時(shí)候適用于多項(xiàng)式分布。多項(xiàng)式分布可以給出各種結(jié)果的任何一種組合發(fā)生的概率输虱。
指數(shù)分布和幾何分布
指數(shù)分布非常常見些楣,它經(jīng)常用來(lái)對(duì)兩次輸入的時(shí)間間隔進(jìn)行建模。例如,汽車進(jìn)入高速公路的間隔時(shí)間和訪問網(wǎng)頁(yè)的時(shí)間間隔戈毒。
在Python語(yǔ)言中,生成指數(shù)分布非常容易横堡,調(diào)用函數(shù)random.expovariate(lambd)即可埋市, 這里的lambd是想得到的均值的倒數(shù)。如果lambd是個(gè)正數(shù)命贴,函數(shù)會(huì)返回0和正無(wú)窮大之間的一個(gè)值道宅;如果lambd是個(gè)負(fù)數(shù),則返回負(fù)無(wú)窮大和0之間的一個(gè)值胸蛛。
幾何分布是指數(shù)分布的離散模擬污茵,經(jīng)常用于描述在第一次成功(或第一次失敗)之前所需的獨(dú)立嘗試次數(shù)葬项。舉例來(lái)說(shuō)泞当,假設(shè)你有一輛很舊的汽車,當(dāng)你轉(zhuǎn)動(dòng)鑰匙(或按下啟動(dòng)按鈕)時(shí)民珍,它只有50%的概率能夠啟動(dòng)襟士。幾何分布就可以用來(lái)描述在成功之前嘗試啟動(dòng)汽車的次數(shù)。