“不要輕視簡單,簡單意味著堅(jiān)固憨琳,整個(gè)數(shù)學(xué)大廈都是建立在這種簡單到不能再簡單诫钓,但在邏輯上堅(jiān)如磐石的公理基礎(chǔ)上「菝” ——《三體》
作為一個(gè)正在向數(shù)據(jù)科學(xué)進(jìn)軍的軟件工程師菌湃,基礎(chǔ)決定了我能走多遠(yuǎn)。而數(shù)學(xué)毫無疑問是基礎(chǔ)中的基礎(chǔ)遍略,核心中的核心惧所。據(jù)我所知骤坐,數(shù)據(jù)科學(xué)領(lǐng)域用的最多的數(shù)學(xué)就是:高等數(shù)學(xué),線性代數(shù)纯路,概率論與數(shù)理統(tǒng)計(jì)或油,以及凸優(yōu)化。其中統(tǒng)計(jì)思維最重要驰唬。于是我決定邊學(xué)邊寫顶岸,將學(xué)習(xí)統(tǒng)計(jì)思維過程中的點(diǎn)點(diǎn)滴滴記錄下來,利用“思維導(dǎo)圖”將所有的知識(shí)點(diǎn)穿成線叫编,然后使用“費(fèi)曼技巧”將學(xué)會(huì)的東西寫成文章講給別人聽辖佣,慢慢地將其內(nèi)化到自己的靈魂中。像數(shù)學(xué)這樣的內(nèi)功修煉絕對(duì)不是一朝一夕之功搓逾,所以越早開始越好卷谈,每天進(jìn)步一點(diǎn)點(diǎn),這樣日積月累霞篡,水滴石穿世蔗,有朝一日定能發(fā)揮大的作用。
對(duì)于這個(gè)系列的文章朗兵,我的定位是“知行合一”污淋,我會(huì)不斷地迭代每篇文章中的內(nèi)容,以臻完善余掖。一開始只有一些理論知識(shí)的總結(jié)寸爆,但隨著學(xué)習(xí)的深入后續(xù)會(huì)慢慢加入一些實(shí)踐的內(nèi)容,比如Python/R的示例代碼盐欺,用于演示統(tǒng)計(jì)規(guī)律在實(shí)際工作中的具體應(yīng)用赁豆。
這篇文章主要介紹了什么是統(tǒng)計(jì)學(xué),以及構(gòu)成統(tǒng)計(jì)學(xué)的基本框架冗美,是統(tǒng)計(jì)學(xué)這門學(xué)科的基本面貌魔种。
一. 什么是統(tǒng)計(jì)學(xué)
《行為科學(xué)統(tǒng)計(jì)精要》一書對(duì)統(tǒng)計(jì)學(xué)的定義是:
“統(tǒng)計(jì)學(xué)是一套組織、總結(jié)和解釋信息的數(shù)學(xué)過程墩衙∥竦眨”
這句話實(shí)際上已經(jīng)回答了“什么是統(tǒng)計(jì)學(xué)”這個(gè)問題,其中“組織”漆改、“總結(jié)”和“解釋”是關(guān)鍵詞心铃。作為一套數(shù)學(xué)工具,統(tǒng)計(jì)學(xué)可以拆分為兩個(gè)部分挫剑,一個(gè)用于“整理總結(jié)數(shù)據(jù)”去扣,另一個(gè)用于“解釋信息”。
用于“整理總結(jié)數(shù)據(jù)”的統(tǒng)計(jì)方法被稱為“描述統(tǒng)計(jì)學(xué)”,比如對(duì)于學(xué)生的數(shù)學(xué)期末考試成績愉棱,我們可以通過計(jì)算平均分唆铐,用一個(gè)單一的數(shù)據(jù)就能了解這次考試的平均情況;通過計(jì)算標(biāo)準(zhǔn)差奔滑,我們可以了解學(xué)生考試成績的集中趨勢(shì)等等艾岂。
用于“解釋信息”的統(tǒng)計(jì)方法被稱為“推論統(tǒng)計(jì)學(xué)”,同樣是數(shù)學(xué)期末考試的例子朋其,假如為了提高教學(xué)質(zhì)量王浴,從全校某一年級(jí)學(xué)生中選出60個(gè)學(xué)生,分成兩組梅猿,其中實(shí)驗(yàn)組A使用新的教學(xué)方法氓辣,控制組B使用原來的教學(xué)方法,一段時(shí)間后再次組織考試袱蚓,然后我們得到兩組學(xué)生的數(shù)學(xué)考試成績钞啸,發(fā)現(xiàn)實(shí)驗(yàn)組學(xué)生的平均分比控制組的高,那么這種情況是偶然發(fā)生的喇潘?還是新的教學(xué)方法的確有效果体斩?這個(gè)時(shí)候就需要使用推論統(tǒng)計(jì)學(xué)來進(jìn)行評(píng)估了。
上面這個(gè)關(guān)于教學(xué)方法的實(shí)驗(yàn)颖低,引出了統(tǒng)計(jì)學(xué)中的一個(gè)基礎(chǔ)概念:總體和樣本硕勿。
二. 總體和樣本
總體表示的特定研究中所關(guān)注的所有個(gè)體的集合。對(duì)于有些研究來說枫甲,測量總體中所有的個(gè)體顯然是不現(xiàn)實(shí)的。因此我們必須在研究中抽取出一定的樣本來進(jìn)行研究扼褪,這些樣本被用來代表總體想幻,我們需要從樣本得出結(jié)論然后推廣到總體。對(duì)樣本特征的描述被稱為統(tǒng)計(jì)量话浇,比如樣本平均分脏毯,而對(duì)總體特征的描述被稱為參數(shù),比如總體平均分幔崖,它們是一一對(duì)應(yīng)的食店,然而樣本統(tǒng)計(jì)量與總體參數(shù)是不可能完全相等的,總會(huì)出現(xiàn)差異赏寇,這個(gè)差異被稱為“抽樣誤差”吉嫩。所以推論統(tǒng)計(jì)學(xué)就是用來回答“實(shí)驗(yàn)中觀察到的差異,到底是抽樣誤差引起的嗅定,還是實(shí)驗(yàn)方法的確有顯著效果”這一問題的數(shù)學(xué)工具自娩。
不同個(gè)體會(huì)變化或者有不同值的特征就叫做“變量”。
三. 變量
變量有兩類渠退,一類是個(gè)體的某個(gè)具體特征忙迁,比如身高脐彩,體重和血型;另一類是會(huì)影響個(gè)體的外部因素姊扔,比如溫度惠奸,濕度和天氣情況。當(dāng)然恰梢,也可以將變量分為離散變量和連續(xù)變量佛南。進(jìn)行實(shí)驗(yàn)就是對(duì)這些變量進(jìn)行測量和觀察,并得到數(shù)據(jù)集删豺。有一些變量是可以直接測量和觀察的共虑,比如上面列舉的這些,然而另外一些變量是抽象的呀页,無法直接測量妈拌,比如智商,是否感到開心快樂蓬蝶,記憶力等尘分,被稱為“假設(shè)構(gòu)建”(Constructs)。
我們可以通過觀察和測量一些代表構(gòu)建的外部行為來完成對(duì)假設(shè)構(gòu)建的測量丸氛。這樣的外部行為被稱為“操作定義”(Operational definitions)培愁。比如通過智力測量分?jǐn)?shù)來衡量智商,通過記憶和識(shí)別人臉的正確率來衡量記憶力等等缓窜。這些操作定義一方面描述了如何測量構(gòu)建的操作定续,另一方面根據(jù)測得的結(jié)果定義構(gòu)建。
那么對(duì)于變量的測量實(shí)際上就是分類或者獲得數(shù)值禾锤。測量分類有兩種尺度:稱名量表和順序量表私股。稱名量表用于標(biāo)注和分類,但沒有數(shù)量上的含義恩掷,比如可以將大學(xué)生按專業(yè)分為化學(xué)倡鲸,生物,藝術(shù)和計(jì)算機(jī)等等黄娘,但“化學(xué)”和“藝術(shù)”之間不存在“多”或“少”的關(guān)系峭状;順序量表在稱名量表基礎(chǔ)上多了一層“順序”的含義,比如“上等”逼争,“中等”和“下等”优床。測量數(shù)值也有兩種尺度:等距量表和等比量表。等距量表具有相對(duì)零點(diǎn)誓焦,比如測量一組男性身高羔巢,以平均身高為零點(diǎn),高于平均身高1厘米的記為+1,低于平均身高1厘米的記為-1竿秆,然而這個(gè)時(shí)候作為零點(diǎn)的平均身高其測量值的量并不是0启摄;等比量表具有絕對(duì)零點(diǎn),比如測量一組男性身高幽钢,僅以厘米為單位歉备,這個(gè)時(shí)候零點(diǎn)就代表沒有高度(絕對(duì)零點(diǎn))。
系統(tǒng)地測量變量的過程匪燕,就稱為“統(tǒng)計(jì)方法”蕾羊。
四. 統(tǒng)計(jì)方法
如果我們需要測量每個(gè)個(gè)體兩個(gè)非數(shù)值型變量之間的關(guān)系,我們可以用卡方檢驗(yàn)帽驯。而如果是數(shù)值型變量之間的關(guān)系龟再,那么我們可以使用“相關(guān)法”對(duì)其進(jìn)行研究,最常見的就是繪制散點(diǎn)圖來觀察變化趨勢(shì)尼变。比如圖4-1用散點(diǎn)圖和線性回歸擬合了白葡萄酒殘?zhí)橇颗c密度之間的關(guān)系利凑。但相關(guān)法的主要局限在于我們只能說明變量之間存在關(guān)聯(lián)關(guān)系,但不能說明存在因果關(guān)系嫌术。其他數(shù)值型統(tǒng)計(jì)方法還包括假設(shè)檢驗(yàn)哀澈,t檢驗(yàn)和方差分析。要想說明因果關(guān)系度气,需要使用“實(shí)驗(yàn)法”割按。
如果我們想比較的是兩組或多組的成績,就要使用“實(shí)驗(yàn)法”和“非實(shí)驗(yàn)研究”磷籍。實(shí)驗(yàn)法可以建立兩個(gè)變量之間的因果關(guān)系适荣,它的特點(diǎn)在于“操縱和控制”,即操縱被試變量院领,并控制其他環(huán)境變量束凑,降低其影響。比如將抑郁癥病人隨機(jī)分為兩組栅盲,其中實(shí)驗(yàn)組的病人服用新藥物,控制組的病人服用安慰劑废恋,一段時(shí)間后觀察病癥改善狀況谈秫,這個(gè)時(shí)候“服用新藥物”還是“服用安慰劑”就是自變量,“癥狀改善的病人數(shù)量”就是因變量鱼鼓。
非實(shí)驗(yàn)研究與實(shí)驗(yàn)法的主要區(qū)別在于它僅僅觀察拟烫,而不“操縱和控制”,常見的有非等效組研究和前后測研究迄本。非等效組研究的一個(gè)例子比如以性別作為被試變量進(jìn)行分組硕淑,因?yàn)樾詣e是天生固有的性質(zhì),研究者并不是通過將實(shí)驗(yàn)對(duì)象分為兩組,然后一組定義為女性置媳,一組定義為男性來實(shí)現(xiàn)的于樟,并沒有“操縱和控制”,所以它不是實(shí)驗(yàn)研究拇囊;前后測研究常常與時(shí)間有關(guān)迂曲,比如對(duì)同一組病人測量治療前后的康復(fù)情況,也屬于非實(shí)驗(yàn)研究寥袭,理由同上路捧。