偶然發(fā)現(xiàn)的一本好書棵介。如果我的大學(xué)課本寫得像它這樣通俗易懂就好了琅绅。
統(tǒng)計(jì)學(xué)作為數(shù)學(xué)里的一個(gè)分支邻眷,它的地位一直以來(lái)都飽受質(zhì)疑。統(tǒng)計(jì)的模糊性與數(shù)學(xué)的精確性確實(shí)有相悖的地方戒努。
1
基礎(chǔ)知識(shí)回顧
這是我覺(jué)得這本書最有意思的地方查描,它回顧了很多來(lái)自小學(xué)、初高中的知識(shí),有些東西我自認(rèn)為理解透徹了冬三,猛然一讀才發(fā)現(xiàn)自己的知識(shí)結(jié)構(gòu)里還出現(xiàn)了很多漏洞。
有很多有意思的地方值得細(xì)細(xì)品味缘缚。
除法
我記得這是小學(xué)二年級(jí)的內(nèi)容勾笆。
除法有兩種意義,一種叫”等分除“桥滨,一種叫”包含除“窝爪。以分蘋果來(lái)說(shuō)明二者的差別。20個(gè)蘋果分給4個(gè)人齐媒,每人可分5個(gè)蘋果蒲每。這叫等分除。20個(gè)蘋果喻括,以5個(gè)為一份打包邀杏,分成4份。這叫包含除唬血。
差別在于望蜡,第一個(gè)是;第二個(gè)是
拷恨〔甭桑”等分除“里是求每單位里有多少;”包含除“里則是求比例腕侄。
平均
“均”是指重量小泉;“平”是指沒(méi)有差別∶岣埽“平均”即是說(shuō)在重量上沒(méi)有差別微姊。
“平均”是個(gè)千古難題“杌悖孔子說(shuō):“人不患寡而患不均柒桑。”《漢紀(jì)》載:“分肉甚平均噪舀,父老善之魁淳。”取長(zhǎng)則要補(bǔ)短与倡,劫富得拿來(lái)濟(jì)貧界逛,“平均”的概念總是與“公平”緊緊相連。
求平均數(shù)有兩種方法纺座。
第一種是
第二種是
第一種是平均數(shù)最直接的定義息拜。
第二種表示方法的意義在于,如果,那么
少欺。所有數(shù)字不管是高于平均數(shù)還是低于平均數(shù)喳瓣,它們與平均數(shù)的差加總為0。這是方差概念產(chǎn)生的原因赞别。正是因?yàn)椤安睢睙o(wú)法體現(xiàn)出數(shù)據(jù)之間的分布離散情況畏陕,才出現(xiàn)了
,就是方差
仿滔,方差用平方消除了這種困難惠毁。
平均數(shù)的缺點(diǎn)在于容易受極值影響,所以當(dāng)一組數(shù)據(jù)中存在極值崎页,通常轉(zhuǎn)而尋求 ==中位數(shù)== 作代表鞠绰。
函數(shù)
這本書對(duì)函數(shù)的解釋同樣很有趣。
從“函數(shù)”兩字理解:
“函”是“信函”的“函”飒焦。它的意思是信箱蜈膨,函是箱子的意思』母“函數(shù)”也可以叫做“箱數(shù)”丈挟。把一個(gè)數(shù)字投入箱子里,出來(lái)另一個(gè)數(shù)志电。這個(gè)箱子的功能就是函數(shù)表達(dá)式曙咽。
從生活中理解:
就像在自動(dòng)售貨機(jī)前買飲料。當(dāng)按下某款飲料下的按鈕時(shí)挑辆,在出口處就會(huì)得到想要的飲料例朱。售貨機(jī)不就像一個(gè)箱子么。
從因果角度理解:
因和果之間應(yīng)當(dāng)有四種對(duì)應(yīng)關(guān)系鱼蝉,一對(duì)一洒嗤、一對(duì)多、多對(duì)一魁亦、多對(duì)多渔隶。函數(shù)是一對(duì)一的關(guān)系,這是四種關(guān)系里最好的一種關(guān)系洁奈,既知原因间唉,就可確定結(jié)果;或者知道結(jié)果利术,可以反推原因呈野。非常清晰的邏輯關(guān)系。
一葉落而知天下秋印叁,葉落真的是秋的原因嗎被冒,當(dāng)然不是军掂。這種關(guān)系就不是函數(shù)關(guān)系,而是相關(guān)關(guān)系昨悼。真實(shí)世界里很少存在一對(duì)一的因果關(guān)系蝗锥,這種模糊性更加常見(jiàn)。如果有見(jiàn)微知著的本領(lǐng)幔戏,那就已經(jīng)不是普通人了玛追。
一次函數(shù)
它有兩種表達(dá)形式。一種是闲延;另一種是
。
第二種是靠?jī)牲c(diǎn)確定一條直線的公理寫出來(lái)的韩玩。一條直線經(jīng)過(guò)(x,y)和(p,q)垒玲,斜率,稍微變形就得到了兩點(diǎn)式一次函數(shù)
找颓。
二次函數(shù)
這應(yīng)該是高中的基礎(chǔ)內(nèi)容合愈。
表達(dá)式。
二次函數(shù)有好幾種表達(dá)形式击狮。
第一種佛析,一般式。
第二種彪蓬,配方法。
它的推導(dǎo)過(guò)程如下
首先必須知道配方法是怎么工作的档冬。
所以膘茎,。這個(gè)式子的特點(diǎn)在于k之間的聯(lián)系酷誓,一個(gè)是一半的關(guān)系披坏,一個(gè)是一半的平方的關(guān)系。
那么
即
更有比較特殊的情況,假如b=0,c=0琐旁,則原式變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=y%3Dax%5E2" alt="y=ax^2" mathimg="1">涮阔,當(dāng)(x,y)向左移動(dòng)p,向右移動(dòng)q時(shí)灰殴,頂點(diǎn)變?yōu)?p,q)敬特,出現(xiàn)了第三種表示方式掰邢,頂點(diǎn)式。
第三種伟阔,頂點(diǎn)式辣之。
最值。
二次函數(shù)的頂點(diǎn)為
判別式怀估。
判別式用來(lái)判斷二次不等式
的解的情況。
(1)有兩個(gè)不同解合搅,多搀,兩個(gè)解為
;
(2)有兩個(gè)相同的解灾部,,
;
(3)無(wú)解時(shí)赌髓,从藤。
當(dāng)
2
圖表
當(dāng)展示一組數(shù)據(jù)分布情況時(shí),表可選擇頻數(shù)分布表荣倾,圖可選擇柱形圖悯搔、折線圖、餅圖逃呼、帶狀圖鳖孤。
柱形圖比較數(shù)值大小抡笼;折線圖展示數(shù)值變化苏揣;餅狀圖和帶狀圖都顯示比例,其中帶狀圖雖然長(zhǎng)得像條形圖推姻,但帶的長(zhǎng)短變化是不能代表總量規(guī)模的變化的平匈。
當(dāng)展示兩組數(shù)據(jù)的分布情況時(shí),可選擇點(diǎn)位圖藏古。點(diǎn)位圖會(huì)顯出五種關(guān)系:
- 強(qiáng)正相關(guān)
- 弱正相關(guān)
- 強(qiáng)負(fù)相關(guān)
- 弱負(fù)相關(guān)
- 不相關(guān)
他們表現(xiàn)出的關(guān)系似乎類似于一次函數(shù)增炭,但二者其實(shí)有很大區(qū)別。
相似之處在于拧晕,當(dāng)點(diǎn)位圖的圖像呈上升趨勢(shì)隙姿,稱為正相關(guān),這和一次函數(shù)圖像上升時(shí)厂捞,斜率為正相互對(duì)應(yīng)输玷。
不同之處在于队丝,相關(guān)關(guān)系并非數(shù)據(jù)間的一般特征,數(shù)據(jù)間也不一定有因果關(guān)系欲鹏。這讓我想起某一次實(shí)驗(yàn)机久,有人統(tǒng)計(jì)了夏天冰激淋的銷量和溺水死亡率,兩者呈現(xiàn)出很強(qiáng)的正相關(guān)赔嚎。當(dāng)然冰激淋和溺水死亡根本沒(méi)有關(guān)系膘盖,這只是個(gè)偶然。
3
統(tǒng)計(jì)學(xué)概念
當(dāng)表示一組數(shù)據(jù)間的離散程度時(shí)尤误,可以著眼于兩個(gè)基本特征:中位數(shù)和平均值侠畔。
平均值受極值影響,所以有時(shí)候中位數(shù)更能代表數(shù)據(jù)的總體情況损晤。以中位數(shù)為基礎(chǔ)践图,采用四分位數(shù)和箱形圖可以有效展示數(shù)據(jù)離散情況。
當(dāng)選擇平均數(shù)時(shí)沉馆,則需要引入方差。
方差
方差會(huì)把數(shù)據(jù)的離散程度擴(kuò)成平方德崭,數(shù)據(jù)變得太大斥黑,通常令人感到摸不著頭腦。假如數(shù)學(xué)為100分制眉厨,一個(gè)班的平均成績(jī)锌奴,如果方差為
,這太奇怪了憾股。所以要把它還原為標(biāo)準(zhǔn)差
鹿蜀。這說(shuō)明學(xué)生的成績(jī)大概率分布在
之間。
標(biāo)準(zhǔn)差
采用以平均數(shù)為基礎(chǔ)的標(biāo)準(zhǔn)差來(lái)表示一組數(shù)據(jù)的離散程度是不錯(cuò)的方式服球,但是當(dāng)數(shù)據(jù)變?yōu)?組呢茴恰?
兩組數(shù)據(jù)的分布情況用點(diǎn)位圖展示。
相關(guān)系數(shù)
對(duì)于同一個(gè)點(diǎn)位圖斩熊,有人也許覺(jué)得是強(qiáng)正相關(guān)往枣,也有人或許會(huì)認(rèn)為是弱正相關(guān)。正是主觀感受的不確定性粉渠,才出現(xiàn)了相關(guān)系數(shù)這個(gè)概念分冈。
相關(guān)系數(shù)用來(lái)表示相關(guān)關(guān)系的強(qiáng)弱。
除以的原因是為了消除
本身的離散性影響霸株,因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=r_%7Bxy%7D" alt="r_{xy}" mathimg="1">主要表示
的緊密程度雕沉。
范圍 | 強(qiáng)弱 |
---|---|
(-0.2,0.2) | 幾乎無(wú)相關(guān) |
(0.2,0.4) | 弱正相關(guān) |
(0.4,0.7) | 中等程度正相關(guān) |
(0.7,1) | 強(qiáng)正相關(guān) |
(-0.4,-0.2) | 弱負(fù)相關(guān) |
(-0.7,-0.4) | 中等程度負(fù)相關(guān) |
(-1,-0.7) | 強(qiáng)負(fù)相關(guān) |
相關(guān)系數(shù)的概念是在高斯分布的基礎(chǔ)上形成的,為什么接近1或-1時(shí)會(huì)存在強(qiáng)相關(guān)性呢去件?
第一步證明的范圍
以為例坡椒,
要證明,
則證明
即
該式的證明可以用到二次函數(shù)的判別式缀雳。
如果渡嚣,則
,即
那么何時(shí)取等號(hào)呢肥印?
將其一般化即可證明识椰。
第二步,當(dāng)深碱。
所有的點(diǎn)都在一條直線上腹鹉。
更加直觀地理解相關(guān)系數(shù),不如以為原點(diǎn)敷硅,重新分割象限功咒。如果落在第一、三象限的點(diǎn)多于二绞蹦、四象限力奋,那么
更可能大于0,甚至接近1幽七。