生物統(tǒng)計(jì)-StatQuest學(xué)習(xí)筆記(一)-基礎(chǔ)知識(shí)

前言

這個(gè)系列的筆記是StatQuest視頻的學(xué)習(xí)筆記,我的這些筆記有時(shí)候會(huì)使用一些自己以前收錄的數(shù)據(jù)幔翰,外加自己補(bǔ)充的一些筆記漩氨。此篇筆記是基礎(chǔ)知識(shí),視頻教程的1-5遗增。

什么是直方圖

如果我們測(cè)量一批人的身高叫惊,他們的身高并不固定,因此我們先做一個(gè)x軸做修,從左到右身高依次增高霍狰,如下所示:

此時(shí),我們開始測(cè)量這批人的身高饰及,一個(gè)點(diǎn)代表一個(gè)人蔗坯,如下所示:

這種圖有個(gè)缺陷,就是一些相同身高的人的點(diǎn)會(huì)重合燎含,并不直觀步悠,因此我們可以轉(zhuǎn)換一下圖形,把相同身高的人的點(diǎn)疊加起來(lái)瘫镇,如下所示:

這樣的話鼎兽, 我們就能很清楚地看到這批人身高的統(tǒng)計(jì)情況,這種圖形可以叫直方圖(histogram)铣除,直方圖的下端(也就是x軸)的數(shù)據(jù)是連續(xù)的谚咬,可以自己設(shè)定,從圖中可以明顯看到尚粘,中間的人的點(diǎn)數(shù)多择卦,兩邊的人點(diǎn)數(shù)少。再進(jìn)一步郎嫁,我們可以使用“分布(distribution)”這個(gè)術(shù)語(yǔ)來(lái)表示我們這次測(cè)量的為數(shù)據(jù)秉继,將這些數(shù)據(jù)點(diǎn)的頂端用一個(gè)近似曲線連接起來(lái),就成了下面的這個(gè)樣子:

這種圖形類似于一個(gè)鐘型(bell)我們可以稱它為正態(tài)分布(normal distribution)泽铛,如果我們測(cè)量出來(lái)的數(shù)據(jù)是下面的這個(gè)樣子离赫,它就呈現(xiàn)一種指數(shù)分布(exponential distribution):

直方圖的特點(diǎn)

如果我們?cè)跍y(cè)量這批人的數(shù)據(jù)時(shí)贺归,以0.5英尺(約合30cm)為單位,也就是說(shuō),在繪制直方圖時(shí)萨咳,x軸的坐標(biāo)上的寬度分布是這個(gè)樣子的:

可以看到,這次測(cè)量把這批人的身高數(shù)據(jù)劃分了4份腮郊,分別為小于5狱庇,5到5.5,5.5到6舀透,大于6栓票。如果改變一下,把數(shù)據(jù)劃分為8份愕够,也就是說(shuō)最小的單位值是0.25走贪,就是下面的這個(gè)樣子:

如果測(cè)量更多的人,使用更加小的劃分單位链烈,我們就會(huì)得到一個(gè)對(duì)人體身高更加精確的估計(jì)值厉斟,下圖是劃分了18份,如下所示:

并且還可以畫出一條曲線(curve)强衡,對(duì)這批數(shù)據(jù)進(jìn)行估計(jì)擦秽,如下所示:

從這張圖上我們可以得到以下信息:

測(cè)量一個(gè)人,得到這個(gè)低于4.5或高于6.5的概率比較低漩勤,而很大的概率會(huì)得到曲線中間凸出來(lái)的部分感挥。使用曲線來(lái)估計(jì)一批人數(shù)據(jù)比直方圖更有優(yōu)勢(shì)。第一越败,直方圖有時(shí)候并不準(zhǔn)触幼,例如上圖右側(cè)藍(lán)箭頭這部分?jǐn)?shù)據(jù)并沒(méi)有測(cè)到,如果換一批人究飞,就有可能測(cè)到置谦;第二堂鲤,使用曲線時(shí),并不用考慮最小數(shù)據(jù)的分隔單位媒峡,就能估計(jì)一個(gè)數(shù)值的概率瘟栖,例如我們要計(jì)算得到5.021和5.317這個(gè)數(shù)據(jù)的概率有多大,就直接利用曲線就能得到谅阿。第三半哟,人的精力與資源有限,直接去測(cè)量大批數(shù)據(jù)并不現(xiàn)實(shí)签餐,而估計(jì)一條曲線只需要我們手中少量數(shù)據(jù)的標(biāo)準(zhǔn)差與均值即可寓涨。

在這張圖里,直方圖與曲線都表示這批數(shù)據(jù)的分布氯檐,其中曲線的最高處以及直方圖的中間地帶戒良,都是最有可能測(cè)量到的部分。除了這種正態(tài)分布的圖形外男摧,還有其他的分布(下圖左上是正態(tài)分布蔬墩,右上是指數(shù)分頁(yè),左下是均勻分頁(yè))耗拓,如下所示:

直方圖與柱狀圖的區(qū)別

直方圖x軸上的組距是連續(xù)的拇颅,從上面的圖形可以得知,測(cè)量的身高的不同劃分是小于5乔询,5到5.5樟插,5.5到6,6以上竿刁。而柱狀圖的x軸上通常是一些分類的數(shù)據(jù)類型黄锤,看下圖:

這張圖就是一個(gè)柱狀圖(有人也稱條形圖),它的x軸是不連續(xù)的食拜,只是一些分類變量鸵熟。

正態(tài)分布

先看一下正態(tài)分布圖形,就是上一部分中的身高分布數(shù)據(jù)负甸,如下所示:

從圖形上可以看到正態(tài)分布的特點(diǎn):

  1. 左右對(duì)稱流强,因此也叫鐘型曲線(bell shaped curve);
  2. 中間凸起呻待,兩側(cè)平緩打月。

再看另外的兩個(gè)正態(tài)分布圖形:

其中,左側(cè)綠線表示的是出生的嬰兒的身高分布(英寸)蚕捉,右側(cè)的劃線表示的是成人身高的分布奏篙,從這兩個(gè)曲線上我們可以得到這些信息:

  1. 嬰兒的正態(tài)分布曲線比較尖銳,這表示嬰兒身高比較集中迫淹,成人身高的正態(tài)分布曲線比較平緩秘通,這表示成人身高比較分散为严;
  2. 成人身高的平均值要高于嬰兒身高的平均值。

再看一下嬰兒和成人身高的95%的集中程度:

自然界的很多事物都符合正態(tài)分布充易,其背后的一個(gè)原理就是中心極限定理(the central limit theorem)梗脾,以后的筆記會(huì)提到。

模型

模型盹靴,英文是指“model”。在統(tǒng)計(jì)學(xué)中瑞妇,模型是指對(duì)現(xiàn)實(shí)世界中的一些事情的抽象處理稿静,數(shù)據(jù)模型使用一些表格,圖表辕狰,公式來(lái)研究現(xiàn)實(shí)世界中的一些規(guī)律改备,例如下圖就是使用一個(gè)圖表和公式來(lái)表示小鼠的體重與大小的關(guān)系:

有時(shí)候,圖形不一定是直線蔓倍,也有可能是曲線悬钳,如下所示:

抽樣分布

下圖是一個(gè)直方圖,一個(gè)點(diǎn)表示一個(gè)人的身高:

然后用一條曲線來(lái)表示數(shù)據(jù)的分布:

如果我們從這個(gè)分布里面隨機(jī)抽出一個(gè)樣本的話偶翅,有很大的概率會(huì)抽到中間的這一部分默勾,就是下圖中黑色圓角矩形表示的區(qū)域:

如果我們使用某個(gè)程序(例如R語(yǔ)言)隨機(jī)地從服從正態(tài)分布的數(shù)據(jù)中挑出許多樣本,然后對(duì)它們進(jìn)行統(tǒng)計(jì)的話聚谁,看一下會(huì)發(fā)生哪些事情母剥,例如從下面的這個(gè)正態(tài)分布中隨機(jī)地挑出兩個(gè)樣本,一個(gè)樣本的數(shù)量是3(一個(gè)樣本不一定只是一個(gè)數(shù)據(jù)點(diǎn))形导,如下所示:

然后對(duì)這兩個(gè)樣本進(jìn)行t檢驗(yàn)环疼,由于它們都是來(lái)源于同不一個(gè)分布,因此t檢驗(yàn)結(jié)果的p值會(huì)很大(也就是說(shuō)p很有可能大于0.05)朵耕。如果這兩個(gè)樣本是來(lái)源兩個(gè)不同的分布炫隶,如下所示:

那么經(jīng)過(guò)t檢驗(yàn),得到的p值就會(huì)很小阎曹。如果想到得到較小的p值伪阶,這就可能要增加樣本,或者是就此為止(增加樣本涉及到一類錯(cuò)誤與二類錯(cuò)誤芬膝,這里不表)望门。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市锰霜,隨后出現(xiàn)的幾起案子筹误,更是在濱河造成了極大的恐慌,老刑警劉巖癣缅,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件厨剪,死亡現(xiàn)場(chǎng)離奇詭異哄酝,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)祷膳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門陶衅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人直晨,你說(shuō)我怎么就攤上這事搀军。” “怎么了勇皇?”我有些...
    開封第一講書人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵罩句,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我敛摘,道長(zhǎng)门烂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任兄淫,我火速辦了婚禮屯远,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘捕虽。我一直安慰自己慨丐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開白布薯鳍。 她就那樣靜靜地躺著咖气,像睡著了一般。 火紅的嫁衣襯著肌膚如雪挖滤。 梳的紋絲不亂的頭發(fā)上崩溪,一...
    開封第一講書人閱讀 51,763評(píng)論 1 307
  • 那天,我揣著相機(jī)與錄音斩松,去河邊找鬼伶唯。 笑死,一個(gè)胖子當(dāng)著我的面吹牛惧盹,可吹牛的內(nèi)容都是我干的乳幸。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼钧椰,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼粹断!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起嫡霞,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤瓶埋,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體养筒,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡曾撤,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了晕粪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片挤悉。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖巫湘,靈堂內(nèi)的尸體忽然破棺而出装悲,到底是詐尸還是另有隱情,我是刑警寧澤尚氛,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布衅斩,位于F島的核電站,受9級(jí)特大地震影響怠褐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜您宪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一奈懒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧宪巨,春花似錦磷杏、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至怠晴,卻和暖如春遥金,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蒜田。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工稿械, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人冲粤。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓美莫,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親梯捕。 傳聞我的和親對(duì)象是個(gè)殘疾皇子厢呵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容