前言
這個(gè)系列的筆記是StatQuest視頻的學(xué)習(xí)筆記,我的這些筆記有時(shí)候會(huì)使用一些自己以前收錄的數(shù)據(jù)幔翰,外加自己補(bǔ)充的一些筆記漩氨。此篇筆記是基礎(chǔ)知識(shí),視頻教程的1-5遗增。
什么是直方圖
如果我們測(cè)量一批人的身高叫惊,他們的身高并不固定,因此我們先做一個(gè)x軸做修,從左到右身高依次增高霍狰,如下所示:
此時(shí),我們開始測(cè)量這批人的身高饰及,一個(gè)點(diǎn)代表一個(gè)人蔗坯,如下所示:
這種圖有個(gè)缺陷,就是一些相同身高的人的點(diǎn)會(huì)重合燎含,并不直觀步悠,因此我們可以轉(zhuǎn)換一下圖形,把相同身高的人的點(diǎn)疊加起來(lái)瘫镇,如下所示:
這樣的話鼎兽, 我們就能很清楚地看到這批人身高的統(tǒng)計(jì)情況,這種圖形可以叫直方圖(histogram)铣除,直方圖的下端(也就是x軸)的數(shù)據(jù)是連續(xù)的谚咬,可以自己設(shè)定,從圖中可以明顯看到尚粘,中間的人的點(diǎn)數(shù)多择卦,兩邊的人點(diǎn)數(shù)少。再進(jìn)一步郎嫁,我們可以使用“分布(distribution)”這個(gè)術(shù)語(yǔ)來(lái)表示我們這次測(cè)量的為數(shù)據(jù)秉继,將這些數(shù)據(jù)點(diǎn)的頂端用一個(gè)近似曲線連接起來(lái),就成了下面的這個(gè)樣子:
這種圖形類似于一個(gè)鐘型(bell)我們可以稱它為正態(tài)分布(normal distribution)泽铛,如果我們測(cè)量出來(lái)的數(shù)據(jù)是下面的這個(gè)樣子离赫,它就呈現(xiàn)一種指數(shù)分布(exponential distribution):
直方圖的特點(diǎn)
如果我們?cè)跍y(cè)量這批人的數(shù)據(jù)時(shí)贺归,以0.5英尺(約合30cm)為單位,也就是說(shuō),在繪制直方圖時(shí)萨咳,x軸的坐標(biāo)上的寬度分布是這個(gè)樣子的:直方圖與柱狀圖的區(qū)別
直方圖x軸上的組距是連續(xù)的拇颅,從上面的圖形可以得知,測(cè)量的身高的不同劃分是小于5乔询,5到5.5樟插,5.5到6,6以上竿刁。而柱狀圖的x軸上通常是一些分類的數(shù)據(jù)類型黄锤,看下圖:這張圖就是一個(gè)柱狀圖(有人也稱條形圖),它的x軸是不連續(xù)的食拜,只是一些分類變量鸵熟。
正態(tài)分布
先看一下正態(tài)分布圖形,就是上一部分中的身高分布數(shù)據(jù)负甸,如下所示:
從圖形上可以看到正態(tài)分布的特點(diǎn):
- 左右對(duì)稱流强,因此也叫鐘型曲線(bell shaped curve);
- 中間凸起呻待,兩側(cè)平緩打月。
其中,左側(cè)綠線表示的是出生的嬰兒的身高分布(英寸)蚕捉,右側(cè)的劃線表示的是成人身高的分布奏篙,從這兩個(gè)曲線上我們可以得到這些信息:
- 嬰兒的正態(tài)分布曲線比較尖銳,這表示嬰兒身高比較集中迫淹,成人身高的正態(tài)分布曲線比較平緩秘通,這表示成人身高比較分散为严;
- 成人身高的平均值要高于嬰兒身高的平均值。
自然界的很多事物都符合正態(tài)分布充易,其背后的一個(gè)原理就是中心極限定理(the central limit theorem)梗脾,以后的筆記會(huì)提到。
模型
模型盹靴,英文是指“model”。在統(tǒng)計(jì)學(xué)中瑞妇,模型是指對(duì)現(xiàn)實(shí)世界中的一些事情的抽象處理稿静,數(shù)據(jù)模型使用一些表格,圖表辕狰,公式來(lái)研究現(xiàn)實(shí)世界中的一些規(guī)律改备,例如下圖就是使用一個(gè)圖表和公式來(lái)表示小鼠的體重與大小的關(guān)系:
有時(shí)候,圖形不一定是直線蔓倍,也有可能是曲線悬钳,如下所示:
抽樣分布
下圖是一個(gè)直方圖,一個(gè)點(diǎn)表示一個(gè)人的身高:那么經(jīng)過(guò)t檢驗(yàn),得到的p值就會(huì)很小阎曹。如果想到得到較小的p值伪阶,這就可能要增加樣本,或者是就此為止(增加樣本涉及到一類錯(cuò)誤與二類錯(cuò)誤芬膝,這里不表)望门。