python編程導(dǎo)論_第十課

學(xué)習(xí)安排(8月9日-8月10日)
1.主要學(xué)習(xí)視頻Week3
鏈接(http://www.xuetangx.com/courses/MITx/6_00_2x/2014_T2/courseware/d39541ec36564a88af34d319a2f16bd7/
2.輔助內(nèi)容:教材第15和17章

隨機(jī)程序、概率與分布

統(tǒng)計(jì)推斷

統(tǒng)計(jì)推斷的指導(dǎo)原則就是:一個(gè)從總體數(shù)據(jù)中隨機(jī)抽取的樣本往往可以表現(xiàn)出與總體相同的特性进副。

大數(shù)定律(也稱為伯努利定理):在獨(dú)立可重復(fù)的實(shí)驗(yàn)中这揣,如果每次實(shí)驗(yàn)中出現(xiàn)某種特定結(jié)果的實(shí)際概率為p(例如,每次拋硬幣正面向上的實(shí)際概率為0.5)影斑,那么實(shí)驗(yàn)次數(shù)接近無(wú)窮大時(shí)给赞,出現(xiàn)這種結(jié)果的比例與實(shí)際概率p之間的差收斂于0。

值得注意的是矫户,大數(shù)定律并不意味著如果預(yù)期行為出現(xiàn)偏差片迅,那么這些偏差會(huì)在未來(lái)被相反的偏差“扯平”,盡管太多的人都是這樣認(rèn)為的皆辽。這種對(duì)大數(shù)定律的濫用稱為賭徒謬誤柑蛇。人們經(jīng)常將賭徒謬誤與均值回歸混淆。 均值回歸說(shuō)明驱闷,如果出現(xiàn)一個(gè)極端的隨機(jī)事件耻台,那么下一個(gè)隨機(jī)事件很可能就不是極端的。如果你將一個(gè)均勻的硬幣拋了6次空另,每次都是正面向上盆耽,那么均值回歸就意味著如果再拋6次硬幣,結(jié)果就非扯蟛ぃ可能接近3次正面向上這個(gè)期望值摄杂。而不是像賭徒謬誤那樣,認(rèn)為在下一個(gè)拋擲序列中循榆,正面向上的概率要小于反面向上的概率析恢。在很多工作中,成功既需要能力秧饮,也需要運(yùn)氣映挂。能力決定了均值,運(yùn)氣則導(dǎo)致了方差浦楣。運(yùn)氣的隨機(jī)性解釋了均值回歸。

方差描述了集合中接近于均值的數(shù)值的比例咪辱。如果很多值都非常接近均值振劳,方差就會(huì)很小。如果很多值都非常遠(yuǎn)離均值油狂,方差就會(huì)很大历恐。如果所有值都一樣寸癌,方差就是0。

一個(gè)數(shù)值集合的標(biāo)準(zhǔn)差是方差的平方根弱贼。盡管它包含的信息與方差完全相同蒸苇,但標(biāo)準(zhǔn)差更容易解釋,因?yàn)樗c原始數(shù)據(jù)的單位是一致的吮旅。

標(biāo)準(zhǔn)差除以均值所得的值稱為變異系數(shù)溪烤。當(dāng)我們比較具有不同均值的數(shù)據(jù)集合時(shí)(比如本例) ,變異系數(shù)比標(biāo)準(zhǔn)差更合適庇勃。并不是說(shuō)變異系數(shù)總是比標(biāo)準(zhǔn)差更有用處檬嘀。如果均值接近于0,那么均值的一個(gè)微小改變就會(huì)導(dǎo)致變異系數(shù)發(fā)生非常大(但不一定有意義)的變化责嚷。而且均值為0時(shí)鸳兽,變異系數(shù)是沒有意義的。

概率分布

根據(jù)隨機(jī)變量是離散型的還是連續(xù)型的罕拂,概率分布可以分成兩類:離散型概率分布和連續(xù)型概率分布揍异。 離散型隨機(jī)變量的取值是一個(gè)有限集合,如擲骰子的結(jié)果爆班; 連續(xù)型隨機(jī)變量的取值可以是無(wú)限的衷掷,可以是兩個(gè)實(shí)數(shù)之間的任意一個(gè)實(shí)數(shù)。例如蛋济,汽車的行駛速度可以在0英里/小時(shí)和最大行駛速度之間棍鳖。

離散型概率分布很容易描述,因?yàn)樽兞咳≈凳怯邢薜耐肼茫灾灰?jiǎn)單列出每個(gè)值的概率即可描述這種分布渡处。連續(xù)型概率分布則更復(fù)雜一些。因?yàn)橛袩o(wú)限多個(gè)可能的取值祟辟,所以連續(xù)型隨機(jī)變量取某個(gè)特
定的值的概率通常為0医瘫。數(shù)學(xué)家們喜歡用概率密度函數(shù)(probability density function)來(lái)描述連續(xù)型概率分布,并經(jīng)常將其縮寫為PDF旧困。 PDF描述了一個(gè)隨機(jī)變量位于兩個(gè)數(shù)值之間的概率醇份。

正態(tài)分布

正態(tài)分布(又稱高斯分布)由以下概率密度函數(shù)定義:
P(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
這里\mu表示均值,\sigma表示標(biāo)準(zhǔn)差吼具。

正態(tài)分布在均值處達(dá)到最大值僚纷,并在均值兩下·x側(cè)對(duì)稱地減小,逐漸趨近于0拗盒。使用Python程序非常容易生成正態(tài)分布怖竭,調(diào)用函數(shù)random.gauss(mu, sigma)即可,這個(gè)函數(shù)會(huì)從一個(gè)均值為mu陡蝇、標(biāo)準(zhǔn)差為sigma的正態(tài)分布中隨機(jī)返回一個(gè)浮點(diǎn)數(shù)痊臭。

正態(tài)分布的一個(gè)良好特性是均值和標(biāo)準(zhǔn)差的獨(dú)立性哮肚,如果想包括固定比例的數(shù)據(jù),那么從均值開始所需的標(biāo)準(zhǔn)差個(gè)數(shù)是一個(gè)常數(shù)广匙。舉例來(lái)說(shuō)允趟,大約68.27%的數(shù)據(jù)都位于距均值1個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),大約95.45%的數(shù)據(jù)位于距均值2個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)鸦致,大約99.73%的數(shù)據(jù)位于距均值3個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)潮剪。人們有時(shí)將這種情況稱為68-95-99.7法則,但更多時(shí)候?qū)⑵浞Q為經(jīng)驗(yàn)法則蹋凝。

均勻分布

均勻分布可以是離散型的鲁纠,也可以是連續(xù)型的。 連續(xù)型均勻分布也稱為矩形分布鳍寂,它的特點(diǎn)是所有長(zhǎng)度相同的區(qū)間都具有相同概率改含。

我們可以使用一個(gè)參數(shù)完全描述出連續(xù)型均勻分布的特性,即它的范圍(也就是最小值和最大值)迄汛。如果可能取值的范圍是min-max捍壤,那么一個(gè)值落入x~y的概率可以由以下公式給出:
P(x, y) = \begin{cases} \frac{y-x}{max-min} &\text{if $x≥min$ 且 $y≤max$x} \\ n+1 &\text{其他} \end{cases}
調(diào)用random.uniform(min, max)可以生成一個(gè)連續(xù)型均勻分布的值,它會(huì)返回在min和max之間隨機(jī)選擇的一個(gè)浮點(diǎn)數(shù)鞍爱。
離散型均勻分布描述的是鹃觉,結(jié)果不是連續(xù)的而且每個(gè)結(jié)果發(fā)生的概率完全相同的情況。我們可以使用下面的公式來(lái)完整地描述離散型均勻分布:
P(x) = \begin{cases} \frac{1}{|S|} &\text{if $x \in S$} \\ 0&\text{其他} \end{cases}
這里的S是可能出現(xiàn)的結(jié)果的集合睹逃, |S|是S中的元素?cái)?shù)量盗扇。

二項(xiàng)式分布與多項(xiàng)式分布

只能在一個(gè)離散集合中取值的隨機(jī)變量稱為分類變量,也稱名義變量或離散變量沉填。如果分類變量只可能有兩個(gè)值(如成功或失斄屏ァ),那么這時(shí)的概率分布就稱為二項(xiàng)式分布翼闹“弑牵可以將二項(xiàng)式分布理解為n次獨(dú)立實(shí)驗(yàn)中正好成功k次的概率。如果單次實(shí)驗(yàn)成功的概率為p猎荠,那么n次獨(dú)立實(shí)驗(yàn)中正好成功k次的概率可以由以下公式給出:
\left(C^k_n\right)p^k(1-p)^{n-k}
多項(xiàng)式分布是二項(xiàng)式分布的推廣坚弱,用來(lái)描述取值多于兩個(gè)的分類數(shù)據(jù)。如果在n次獨(dú)立實(shí)驗(yàn)中关摇,每次實(shí)驗(yàn)都存在m個(gè)具有固定概率的互相排斥的結(jié)果荒叶,那么這時(shí)候適用于多項(xiàng)式分布。多項(xiàng)式分布可以給出各種結(jié)果的任何一種組合發(fā)生的概率输虱。

指數(shù)分布和幾何分布

指數(shù)分布非常常見些楣,它經(jīng)常用來(lái)對(duì)兩次輸入的時(shí)間間隔進(jìn)行建模。例如,汽車進(jìn)入高速公路的間隔時(shí)間和訪問網(wǎng)頁(yè)的時(shí)間間隔戈毒。

在Python語(yǔ)言中,生成指數(shù)分布非常容易横堡,調(diào)用函數(shù)random.expovariate(lambd)即可埋市, 這里的lambd是想得到的均值的倒數(shù)。如果lambd是個(gè)正數(shù)命贴,函數(shù)會(huì)返回0和正無(wú)窮大之間的一個(gè)值道宅;如果lambd是個(gè)負(fù)數(shù),則返回負(fù)無(wú)窮大和0之間的一個(gè)值胸蛛。

幾何分布是指數(shù)分布的離散模擬污茵,經(jīng)常用于描述在第一次成功(或第一次失敗)之前所需的獨(dú)立嘗試次數(shù)葬项。舉例來(lái)說(shuō)泞当,假設(shè)你有一輛很舊的汽車,當(dāng)你轉(zhuǎn)動(dòng)鑰匙(或按下啟動(dòng)按鈕)時(shí)民珍,它只有50%的概率能夠啟動(dòng)襟士。幾何分布就可以用來(lái)描述在成功之前嘗試啟動(dòng)汽車的次數(shù)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末嚷量,一起剝皮案震驚了整個(gè)濱河市陋桂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蝶溶,老刑警劉巖嗜历,帶你破解...
    沈念sama閱讀 216,651評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異抖所,居然都是意外死亡梨州,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門部蛇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)摊唇,“玉大人,你說(shuō)我怎么就攤上這事涯鲁∠锊椋” “怎么了?”我有些...
    開封第一講書人閱讀 162,931評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵抹腿,是天一觀的道長(zhǎng)岛请。 經(jīng)常有香客問我,道長(zhǎng)警绩,這世上最難降的妖魔是什么崇败? 我笑而不...
    開封第一講書人閱讀 58,218評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上后室,老公的妹妹穿的比我還像新娘缩膝。我一直安慰自己,他們只是感情好岸霹,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評(píng)論 6 388
  • 文/花漫 我一把揭開白布疾层。 她就那樣靜靜地躺著,像睡著了一般贡避。 火紅的嫁衣襯著肌膚如雪痛黎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,198評(píng)論 1 299
  • 那天刮吧,我揣著相機(jī)與錄音湖饱,去河邊找鬼。 笑死杀捻,一個(gè)胖子當(dāng)著我的面吹牛井厌,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播致讥,決...
    沈念sama閱讀 40,084評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼旗笔,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了拄踪?” 一聲冷哼從身側(cè)響起蝇恶,我...
    開封第一講書人閱讀 38,926評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎惶桐,沒想到半個(gè)月后撮弧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,341評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡姚糊,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評(píng)論 2 333
  • 正文 我和宋清朗相戀三年贿衍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片救恨。...
    茶點(diǎn)故事閱讀 39,731評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡贸辈,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出肠槽,到底是詐尸還是另有隱情擎淤,我是刑警寧澤,帶...
    沈念sama閱讀 35,430評(píng)論 5 343
  • 正文 年R本政府宣布秸仙,位于F島的核電站嘴拢,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏寂纪。R本人自食惡果不足惜席吴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評(píng)論 3 326
  • 文/蒙蒙 一赌结、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧孝冒,春花似錦柬姚、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至啼染,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間焕梅,已是汗流浹背迹鹅。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留贞言,地道東北人斜棚。 一個(gè)月前我還...
    沈念sama閱讀 47,743評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像该窗,于是被迫代替她去往敵國(guó)和親弟蚀。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 隨機(jī)變量是根據(jù)偶然性取值的變量酗失。我們?cè)谡劦诫S機(jī)變量時(shí)义钉,通常是以“概率分布”的形式來(lái)描述他們。也即:隨機(jī)變量落在每一...
    小貍投資閱讀 5,352評(píng)論 1 7
  • 乘著夜色回來(lái) 有種身在田野的幻覺 加上耳邊冰冰涼的風(fēng) 我想要在其間游走 日子依然一團(tuán)糟 做不完的工作 分不夠的時(shí)間...
    三言兩語(yǔ)啰啰嗦嗦閱讀 204評(píng)論 0 0
  • 執(zhí)行之所以重要规肴!不是因?yàn)榱私饬藞?zhí)行的理念捶闸,而是因?yàn)榛貧w了管理的本質(zhì)! 中國(guó)不缺乏戰(zhàn)略家拖刃,缺乏不折不扣的執(zhí)行者… 執(zhí)...
    智愚大叔閱讀 1,385評(píng)論 0 2
  • 商人的發(fā)家史與時(shí)代好像沒太大的關(guān)系删壮,都是一樣的起步一樣的發(fā)展一樣的變化…… 友情,愛情兑牡,親情央碟,情的深淺濃淡也不...
    風(fēng)箏2017閱讀 213評(píng)論 0 0
  • 寫于2017年11月23日 周四 丁酉年十月初六 凌晨 地點(diǎn):深圳酒店。 天氣:陰 均函,有風(fēng)亿虽。 很久沒有出門旅游了,...
    藍(lán)澤陸離閱讀 957評(píng)論 0 1