寫給所有人的極簡(jiǎn)統(tǒng)計(jì)學(xué)

寫給所有人的極簡(jiǎn)統(tǒng)計(jì)學(xué)

偶然發(fā)現(xiàn)的一本好書棵介。如果我的大學(xué)課本寫得像它這樣通俗易懂就好了琅绅。

統(tǒng)計(jì)學(xué)作為數(shù)學(xué)里的一個(gè)分支邻眷,它的地位一直以來(lái)都飽受質(zhì)疑。統(tǒng)計(jì)的模糊性與數(shù)學(xué)的精確性確實(shí)有相悖的地方戒努。


1

基礎(chǔ)知識(shí)回顧

這是我覺(jué)得這本書最有意思的地方查描,它回顧了很多來(lái)自小學(xué)、初高中的知識(shí),有些東西我自認(rèn)為理解透徹了冬三,猛然一讀才發(fā)現(xiàn)自己的知識(shí)結(jié)構(gòu)里還出現(xiàn)了很多漏洞。

有很多有意思的地方值得細(xì)細(xì)品味缘缚。

除法

我記得這是小學(xué)二年級(jí)的內(nèi)容勾笆。

除法有兩種意義,一種叫”等分除“桥滨,一種叫”包含除“窝爪。以分蘋果來(lái)說(shuō)明二者的差別。20個(gè)蘋果分給4個(gè)人齐媒,每人可分5個(gè)蘋果蒲每。這叫等分除。20個(gè)蘋果喻括,以5個(gè)為一份打包邀杏,分成4份。這叫包含除唬血。

差別在于望蜡,第一個(gè)是\frac{20個(gè)}{4人} =5個(gè)/人;第二個(gè)是\frac{20個(gè)}{5個(gè)}=4拷恨〔甭桑”等分除“里是求每單位里有多少;”包含除“里則是求比例腕侄。

平均

“均”是指重量小泉;“平”是指沒(méi)有差別∶岣埽“平均”即是說(shuō)在重量上沒(méi)有差別微姊。

“平均”是個(gè)千古難題“杌悖孔子說(shuō):“人不患寡而患不均柒桑。”《漢紀(jì)》載:“分肉甚平均噪舀,父老善之魁淳。”取長(zhǎng)則要補(bǔ)短与倡,劫富得拿來(lái)濟(jì)貧界逛,“平均”的概念總是與“公平”緊緊相連。

求平均數(shù)有兩種方法纺座。

第一種是\bar{x}=\sum_{i-1}^n\frac{X_i}{n}

第二種是\bar{x}=基準(zhǔn)數(shù)+\frac{X_i-基準(zhǔn)數(shù)}{n}

第一種是平均數(shù)最直接的定義息拜。

第二種表示方法的意義在于,如果\bar{x}=基準(zhǔn)數(shù),那么\frac{X_i-基準(zhǔn)數(shù)}{n}=0少欺。所有數(shù)字不管是高于平均數(shù)還是低于平均數(shù)喳瓣,它們與平均數(shù)的差加總為0。這是方差概念產(chǎn)生的原因赞别。正是因?yàn)椤安睢睙o(wú)法體現(xiàn)出數(shù)據(jù)之間的分布離散情況畏陕,才出現(xiàn)了\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n},就是方差V_x仿滔,方差用平方消除了這種困難惠毁。

平均數(shù)的缺點(diǎn)在于容易受極值影響,所以當(dāng)一組數(shù)據(jù)中存在極值崎页,通常轉(zhuǎn)而尋求 ==中位數(shù)== 作代表鞠绰。

函數(shù)

這本書對(duì)函數(shù)的解釋同樣很有趣。

從“函數(shù)”兩字理解:

“函”是“信函”的“函”飒焦。它的意思是信箱蜈膨,函是箱子的意思』母“函數(shù)”也可以叫做“箱數(shù)”丈挟。把一個(gè)數(shù)字投入箱子里,出來(lái)另一個(gè)數(shù)志电。這個(gè)箱子的功能就是函數(shù)表達(dá)式f曙咽。

從生活中理解:

就像在自動(dòng)售貨機(jī)前買飲料。當(dāng)按下某款飲料下的按鈕時(shí)挑辆,在出口處就會(huì)得到想要的飲料例朱。售貨機(jī)不就像一個(gè)箱子么。

函數(shù)-自動(dòng)售貨機(jī)

從因果角度理解:

因和果之間應(yīng)當(dāng)有四種對(duì)應(yīng)關(guān)系鱼蝉,一對(duì)一洒嗤、一對(duì)多、多對(duì)一魁亦、多對(duì)多渔隶。函數(shù)是一對(duì)一的關(guān)系,這是四種關(guān)系里最好的一種關(guān)系洁奈,既知原因间唉,就可確定結(jié)果;或者知道結(jié)果利术,可以反推原因呈野。非常清晰的邏輯關(guān)系。

一葉落而知天下秋印叁,葉落真的是秋的原因嗎被冒,當(dāng)然不是军掂。這種關(guān)系就不是函數(shù)關(guān)系,而是相關(guān)關(guān)系昨悼。真實(shí)世界里很少存在一對(duì)一的因果關(guān)系蝗锥,這種模糊性更加常見(jiàn)。如果有見(jiàn)微知著的本領(lǐng)幔戏,那就已經(jīng)不是普通人了玛追。

一次函數(shù)

它有兩種表達(dá)形式。一種是y=ax+b闲延;另一種是y-q=a(x-p)

第二種是靠?jī)牲c(diǎn)確定一條直線的公理寫出來(lái)的韩玩。一條直線經(jīng)過(guò)(x,y)和(p,q)垒玲,斜率a=\frac{y-q}{x-p},稍微變形就得到了兩點(diǎn)式一次函數(shù)y-q=a(x-p)找颓。

二次函數(shù)

這應(yīng)該是高中的基礎(chǔ)內(nèi)容合愈。

表達(dá)式。

二次函數(shù)有好幾種表達(dá)形式击狮。

第一種佛析,一般式y=ax^2+bx+c

第二種彪蓬,配方法y=a\left(x+\frac寸莫{2a}\right)^2-\frac{b^2-4ac}{4a}

它的推導(dǎo)過(guò)程如下

首先必須知道配方法是怎么工作的档冬。
(x+k)^2=x^2+2kx+k^2
所以膘茎,x^2+2kx=(x+k)^2-k^2。這個(gè)式子的特點(diǎn)在于k之間的聯(lián)系酷誓,一個(gè)是一半的關(guān)系披坏,一個(gè)是一半的平方的關(guān)系。
那么ax^2+bx=a(x^2+\frac盐数{a}x)=a\left[(x+\frac棒拂{2a})^2-\left(\frac{2a}\right)^2\right]=a(x+\frac玫氢{2a})^2-\frac{b^2}{4a}
y=ax^2+bx+c=a(x+\frac帚屉{2a})^2-\frac{b^2-4ac}{4a}

更有比較特殊的情況,假如b=0,c=0琐旁,則原式變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=y%3Dax%5E2" alt="y=ax^2" mathimg="1">涮阔,當(dāng)(x,y)向左移動(dòng)p,向右移動(dòng)q時(shí)灰殴,頂點(diǎn)變?yōu)?p,q)敬特,出現(xiàn)了第三種表示方式掰邢,頂點(diǎn)式。

第三種伟阔,頂點(diǎn)式y=a(x-p)^2+q辣之。

最值。

二次函數(shù)的頂點(diǎn)為(-\frac皱炉{2a},-\frac{b^2-4ac}{4a})

判別式怀估。

判別式\Delta=b^2-4ac用來(lái)判斷二次不等式ax^2+bx+c=0的解的情況。

(1)有兩個(gè)不同解合搅,\Delta<0多搀,兩個(gè)解為x_{12}=\frac{-b\pm\sqrt[]{\Delta}}{2a}
(2)有兩個(gè)相同的解灾部,\Delta=0, x_1=x_2=-\frac康铭{2a}
(3)無(wú)解時(shí)赌髓,\Delta>0从藤。

ax^2+bx+c=0
\rightarrow y=ax^2+bx+c=0
\rightarrow y=a\left(x+\frac{2a}\right)^2-\frac{b^2-4ac}{4a}=0
\rightarrow (x+\frac锁蠕{2a})^2= \frac{b^2-4ac}{4a^2}
當(dāng)a\neq0
\rightarrow x+\frac夷野{2a}=\pm\frac{\sqrt[]{b^2-4ac}}{2a}
\rightarrow x_{12}=\frac{-b\pm\sqrt[]{\Delta}}{2a}



2

圖表

當(dāng)展示一組數(shù)據(jù)分布情況時(shí),表可選擇頻數(shù)分布表荣倾,圖可選擇柱形圖悯搔、折線圖、餅圖逃呼、帶狀圖鳖孤。

柱形圖比較數(shù)值大小抡笼;折線圖展示數(shù)值變化苏揣;餅狀圖和帶狀圖都顯示比例,其中帶狀圖雖然長(zhǎng)得像條形圖推姻,但帶的長(zhǎng)短變化是不能代表總量規(guī)模的變化的平匈。

當(dāng)展示兩組數(shù)據(jù)的分布情況時(shí),可選擇點(diǎn)位圖藏古。點(diǎn)位圖會(huì)顯出五種關(guān)系:

  • 強(qiáng)正相關(guān)
  • 弱正相關(guān)
  • 強(qiáng)負(fù)相關(guān)
  • 弱負(fù)相關(guān)
  • 不相關(guān)

他們表現(xiàn)出的關(guān)系似乎類似于一次函數(shù)增炭,但二者其實(shí)有很大區(qū)別。

相似之處在于拧晕,當(dāng)點(diǎn)位圖的圖像呈上升趨勢(shì)隙姿,稱為正相關(guān),這和一次函數(shù)圖像上升時(shí)厂捞,斜率為正相互對(duì)應(yīng)输玷。

不同之處在于队丝,相關(guān)關(guān)系并非數(shù)據(jù)間的一般特征,數(shù)據(jù)間也不一定有因果關(guān)系欲鹏。這讓我想起某一次實(shí)驗(yàn)机久,有人統(tǒng)計(jì)了夏天冰激淋的銷量和溺水死亡率,兩者呈現(xiàn)出很強(qiáng)的正相關(guān)赔嚎。當(dāng)然冰激淋和溺水死亡根本沒(méi)有關(guān)系膘盖,這只是個(gè)偶然。


3

統(tǒng)計(jì)學(xué)概念

當(dāng)表示一組數(shù)據(jù)間的離散程度時(shí)尤误,可以著眼于兩個(gè)基本特征:中位數(shù)平均值侠畔。

平均值受極值影響,所以有時(shí)候中位數(shù)更能代表數(shù)據(jù)的總體情況损晤。以中位數(shù)為基礎(chǔ)践图,采用四分位數(shù)和箱形圖可以有效展示數(shù)據(jù)離散情況。

當(dāng)選擇平均數(shù)時(shí)沉馆,則需要引入方差

方差

V_x=\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n}

方差會(huì)把數(shù)據(jù)的離散程度擴(kuò)成平方德崭,數(shù)據(jù)變得太大斥黑,通常令人感到摸不著頭腦。假如數(shù)學(xué)為100分制眉厨,一個(gè)班的平均成績(jī)\bar{x}=50锌奴,如果方差為900分^2,這太奇怪了憾股。所以要把它還原為標(biāo)準(zhǔn)差30分鹿蜀。這說(shuō)明學(xué)生的成績(jī)大概率分布在20-80分之間。

標(biāo)準(zhǔn)差
S_x=\sqrt[]{\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n}}=\sqrt[]{\overline{x^2}-\overline{x}^2}

V_x=\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n}=\frac{\sum_{i=1}^nX_i^2-2\bar{x}\sum_{i=1}^nX_i+n\bar{x}^2}{n}=\overline{x^2}-\overline{x}^2

采用以平均數(shù)為基礎(chǔ)的標(biāo)準(zhǔn)差來(lái)表示一組數(shù)據(jù)的離散程度是不錯(cuò)的方式服球,但是當(dāng)數(shù)據(jù)變?yōu)?組呢茴恰?

兩組數(shù)據(jù)的分布情況用點(diǎn)位圖展示。

相關(guān)系數(shù)

對(duì)于同一個(gè)點(diǎn)位圖斩熊,有人也許覺(jué)得是強(qiáng)正相關(guān)往枣,也有人或許會(huì)認(rèn)為是弱正相關(guān)。正是主觀感受的不確定性粉渠,才出現(xiàn)了相關(guān)系數(shù)這個(gè)概念分冈。

相關(guān)系數(shù)用來(lái)表示相關(guān)關(guān)系的強(qiáng)弱

r_{xy}=\frac{C_{xy}}{S_xS_y},r\in[-1,1]
C_{xy}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n}

除以S_xS_y的原因是為了消除x和y本身的離散性影響霸株,因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=r_%7Bxy%7D" alt="r_{xy}" mathimg="1">主要表示x和y的緊密程度雕沉。

范圍 強(qiáng)弱
(-0.2,0.2) 幾乎無(wú)相關(guān)
(0.2,0.4) 弱正相關(guān)
(0.4,0.7) 中等程度正相關(guān)
(0.7,1) 強(qiáng)正相關(guān)
(-0.4,-0.2) 弱負(fù)相關(guān)
(-0.7,-0.4) 中等程度負(fù)相關(guān)
(-1,-0.7) 強(qiáng)負(fù)相關(guān)

相關(guān)系數(shù)的概念是在高斯分布的基礎(chǔ)上形成的,為什么接近1或-1時(shí)會(huì)存在強(qiáng)相關(guān)性呢去件?

第一步證明r的范圍

i=3為例坡椒,

r_{xy}=\frac{\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+(x_3-\bar{x})(y_3-\bar{y})}{n}}{\frac{\sqrt[]{(x_1-\bar{x})^2+(x_2-\bar{x})^2+(x_3-\bar{x})^2}}{\sqrt[]{n}}\frac{\sqrt[]{(y_1-\bar{y})^2+(y_2-\bar{y})^2+(y_3-\bar{y})^2}}{\sqrt[]{n}}}
\rightarrow 令X_1=x_1-\bar{x}扰路,X_2,X_3同肠牲;Y_1=y_1-\bar{y}幼衰,Y_2,Y_3同
r_{xy}=\frac{X_1Y_1+X_2Y_2+X_3Y_3}{\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}}
要證明r_{xy}\in[-1,1],
則證明\frac{X_1Y_1+X_2Y_2+X_3Y_3}{\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}}\leq1
X_1Y_1+X_2Y_2+X_3Y_3\leq\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}

該式的證明可以用到二次函數(shù)的判別式缀雳。

f(t)=(X_1t-Y_1)^2+(X_2t-Y_2)^2+(X_3t-Y_3)^2 =(X_1^2+X_2^2+X_3^2)t^2-2(X_1Y_1+X_2Y_2+X_3Y_3)t+Y_1^2+Y_2^2+Y_3^2
如果f(t)\geq0渡嚣,則\Delta\leq0,即X_1Y_1+X_2Y_2+X_3Y_3\leq\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}
那么何時(shí)取等號(hào)呢肥印?
f(t)=(X_1t-Y_1)^2+(X_2t-Y_2)^2+(X_3t-Y_3)^2=0
t=\frac{Y_1}{X_1}=\frac{Y_2}{X_2}=\frac{Y_3}{X_3}

將其一般化即可證明识椰。

第二步,當(dāng)r=1深碱。
\frac{Y-\bar{y}}{X-\bar{x}}=t
\rightarrow Y=t(X-\bar{x})+\bar{y}
所有的點(diǎn)都在一條直線上腹鹉。

更加直觀地理解相關(guān)系數(shù),不如以(\bar{x},\bar{y})為原點(diǎn)敷硅,重新分割象限功咒。如果落在第一、三象限的點(diǎn)多于二绞蹦、四象限力奋,那么r_{xy}更可能大于0,甚至接近1幽七。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末景殷,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子澡屡,更是在濱河造成了極大的恐慌猿挚,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,039評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件驶鹉,死亡現(xiàn)場(chǎng)離奇詭異绩蜻,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)梁厉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門辜羊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人词顾,你說(shuō)我怎么就攤上這事八秃。” “怎么了肉盹?”我有些...
    開(kāi)封第一講書人閱讀 165,417評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵昔驱,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我上忍,道長(zhǎng)骤肛,這世上最難降的妖魔是什么纳本? 我笑而不...
    開(kāi)封第一講書人閱讀 58,868評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮腋颠,結(jié)果婚禮上繁成,老公的妹妹穿的比我還像新娘。我一直安慰自己淑玫,他們只是感情好巾腕,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著絮蒿,像睡著了一般尊搬。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上土涝,一...
    開(kāi)封第一講書人閱讀 51,692評(píng)論 1 305
  • 那天佛寿,我揣著相機(jī)與錄音,去河邊找鬼但壮。 笑死冀泻,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蜡饵。 我是一名探鬼主播腔长,決...
    沈念sama閱讀 40,416評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼验残!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起巾乳,我...
    開(kāi)封第一講書人閱讀 39,326評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤您没,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后胆绊,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體氨鹏,經(jīng)...
    沈念sama閱讀 45,782評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評(píng)論 3 337
  • 正文 我和宋清朗相戀三年压状,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了仆抵。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,102評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡种冬,死狀恐怖镣丑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情娱两,我是刑警寧澤莺匠,帶...
    沈念sama閱讀 35,790評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站十兢,受9級(jí)特大地震影響趣竣,放射性物質(zhì)發(fā)生泄漏摇庙。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 331
  • 文/蒙蒙 一遥缕、第九天 我趴在偏房一處隱蔽的房頂上張望卫袒。 院中可真熱鬧,春花似錦单匣、人聲如沸夕凝。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,996評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)迹冤。三九已至,卻和暖如春虎忌,著一層夾襖步出監(jiān)牢的瞬間泡徙,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,113評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工膜蠢, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留堪藐,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,332評(píng)論 3 373
  • 正文 我出身青樓挑围,卻偏偏與公主長(zhǎng)得像礁竞,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子杉辙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評(píng)論 2 355