正態(tài)分布(normal distribution)谷徙,normal: 常見的伞剑,典型的。正態(tài)分布即常見的分布胆数。
正態(tài)分布能代表多種多樣的數(shù)據(jù)類型(即常見)肌蜻,正態(tài)分布概率密度曲線呈鐘形,有對(duì)稱美必尼,計(jì)算概率方便(有概率表)蒋搜。且在一定條件下,其他分布可以轉(zhuǎn)化為正態(tài)分布瀑粥,應(yīng)用廣泛搞挣。
正態(tài)分布關(guān)健在于兩個(gè)參數(shù):均值和方差
對(duì)于正態(tài)分布曲線而言,均值表示其曲線中心軸的位置洋访,方差代表曲線的胖瘦祷杈。因?yàn)榉讲畲頂?shù)據(jù)的波動(dòng)情況斑司,即波動(dòng)越大,數(shù)據(jù)相對(duì)于均值的取值范圍變大但汞,即圖形會(huì)變胖宿刮。
下面對(duì)歷屆賽馬比賽冠軍所用時(shí)間數(shù)據(jù)進(jìn)行分析。
1.程序代碼
#2017.03.21
#case study:stakes data
#導(dǎo)入必要的數(shù)據(jù)分析和做圖的模塊
#numpy 科學(xué)計(jì)算包
import numpy as np
#pandas 數(shù)據(jù)分析包
import pandas as pd
#matplotlib 繪圖包
import matplotlib .pyplot as plt
#matplotlib 數(shù)值函數(shù) 可視化腳本數(shù)據(jù)
import matplotlib.mlab as mlab
# %magic keyword 控制nootebook的特殊命令
#運(yùn)行 %magic 可查看magic的各個(gè)命令
# %matplotlib命令可以將matplotlib的圖表直接嵌入到Notebook之中
# inline表示將圖表嵌入到Notebook中
% matplotlib inline
#使畫出來的圖支持retina私蕾,retina一種顯示技術(shù)
#可以將把更多的像素點(diǎn)壓縮至一塊屏幕里僵缺,從而達(dá)到更高的分辨率并提高屏幕顯示的細(xì)膩程度
% config OnlineBackend.figure_format = 'retina'
#導(dǎo)入stakes數(shù)據(jù)
stakes_data = pd.read_csv('stakes.csv')
#查看數(shù)據(jù)的前5行
#stakes_data.head(5)
#查看一共有多少行數(shù)據(jù)
#len(stakes_data)
#提取數(shù)據(jù)中的'time'列
time = stakes_data['time']
#計(jì)算平均值和標(biāo)準(zhǔn)差
mean_time = time.mean()
std_time = time.std()
#數(shù)據(jù)可視化
#x取值從144-155以0.01為步長(zhǎng)
#min = 146 max = 153.2
x = np.arange(144,155,0.01)
y = mlab.normpdf(x,mean,std)
#y = normfun(x,mean,std)
plt.plot(x,y)
#設(shè)置顯示中文字體
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.hist(time,bins = 13, rwidth = 0.9, normed = True)
plt.title('歷屆賽馬比賽冠軍所用時(shí)間分布')
plt.xlabel('time')
plt.ylabel('Probability')
print("平均值:"+ str(mean_time))
print("方差:"+ str(std_time))
plt.show()
2.結(jié)果
平均值:149.22101123595513
方差:1.6278164717748154
3.結(jié)果分析
歷屆賽馬比賽冠軍所用時(shí)間平均值為149.22,大部分選手奪冠的所用時(shí)間在147到151范圍內(nèi)踩叭,只有少部分選手奪冠時(shí)間小于147磕潮,即對(duì)于一般賽馬選手來說,奪冠時(shí)間要小于147較難達(dá)到容贝。還有部分選手奪冠時(shí)長(zhǎng)超過150自脯,最長(zhǎng)時(shí)間為153左右。
方差為1.63斤富,數(shù)據(jù)波動(dòng)不大膏潮,有68%的選手奪冠時(shí)間在149.22-1.63 到 149.22+1.63 之間。
同時(shí)满力,我們可以根據(jù)計(jì)算的均值和方差對(duì)選手奪冠時(shí)間范圍進(jìn)行預(yù)測(cè):
如果參加比賽的選手可以將比賽時(shí)間控制在[146.03焕参,153.14]范圍內(nèi)(149.22-1.63×1.69~149.22+1.63×1.69),則他有95%的可能性?shī)Z冠油额。