小島寬之《極簡統(tǒng)計(jì)學(xué)》讀書筆記

統(tǒng)計(jì)學(xué)可以分為描述和推斷兩個(gè)部分。

即使數(shù)據(jù)是“不確定的”吃媒,他們也有自己固有的“特點(diǎn)”和“特征”烙如。這種固有的特點(diǎn)和特征叫作“分布的特性”。

統(tǒng)計(jì)學(xué)對于一堆數(shù)據(jù)炊琉,進(jìn)行了信息壓縮展蒂,雖然犧牲了原始數(shù)據(jù)的細(xì)節(jié),但這種犧牲反而刻畫出了數(shù)據(jù)分布和其背后的特征苔咪,所謂壓縮锰悼,可以理解為總結(jié)數(shù)據(jù)要點(diǎn)的一種操作。

平均值是從數(shù)據(jù)中選出的一個(gè)代表數(shù)值团赏,在直方圖中是使左右平衡的點(diǎn)箕般;數(shù)據(jù)在平均值的周邊分布,反映了數(shù)據(jù)的集中趨勢舔清;多次出現(xiàn)的數(shù)據(jù)對平均值的影響力大丝里;分布左右對稱的情況下,其對稱軸通過的點(diǎn)即平均值体谒。對數(shù)據(jù)取平均值的方法不止一個(gè)杯聚,根據(jù)需要有不同處理手法,最為常用的是算術(shù)平均抒痒,這種平均可以在合計(jì)的意義上保持其本質(zhì)幌绍;對于增長率等情況,想在乘法意義上保持其本質(zhì)則應(yīng)該使用幾何平均故响;其他還有均方根平均傀广、調(diào)和平均等等。

方差是可以評價(jià)數(shù)據(jù)波動(dòng)情況的量彩届,但是以方差來刻畫數(shù)據(jù)的波動(dòng)特征有兩點(diǎn)不方便伪冰。第一,作為表示波動(dòng)情況的數(shù)值太大了樟蠕;第二贮聂,單位發(fā)生了變化靠柑。將方差開平方后得到標(biāo)準(zhǔn)差(S.D.)這個(gè)統(tǒng)計(jì)量,使用標(biāo)準(zhǔn)差刻畫數(shù)據(jù)的波動(dòng)特征則相對比較合適吓懈,S.D.是表示以平均值為基點(diǎn)病往,數(shù)據(jù)大致擴(kuò)散到多遠(yuǎn)的程度的刻畫量。

知道了標(biāo)準(zhǔn)差骄瓣,從數(shù)據(jù)中我們還可以知道些什么呢停巷?第一,可以明白一組數(shù)據(jù)中某一個(gè)數(shù)據(jù)的意義榕栏。一組數(shù)據(jù)中的某一個(gè)數(shù)據(jù)是否特殊畔勤,應(yīng)當(dāng)以S.D.為基準(zhǔn)來看待,比如這個(gè)數(shù)據(jù)是處于一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)還是兩個(gè)兩個(gè)標(biāo)準(zhǔn)差范圍內(nèi)等等扒磁。如果數(shù)據(jù)的偏離處在一個(gè)S.D.以內(nèi)庆揪,可以說是“平常”的數(shù)據(jù)妨托,而處在兩個(gè)S.D.以外缸榛,則可以說這個(gè)數(shù)據(jù)是“特殊”的數(shù)據(jù)。第二兰伤,可以通過比較多個(gè)數(shù)據(jù)組得出不同内颗。比如說,兩個(gè)人分別10次考試的成績作為兩個(gè)數(shù)據(jù)組敦腔,分析這兩個(gè)數(shù)據(jù)組的特征差異均澳。

僅憑收益率的平均值不能判斷某一產(chǎn)品是否屬于優(yōu)良投資,S.D.也是一個(gè)很重要的參數(shù)符衔。一個(gè)比較合適的做法是將兩者綜合考慮找前,將收益率的平均值比上收益率的S.D.,我們將收益率的平均值稱為回報(bào)(縱坐標(biāo))判族,收益率的S.D.稱為風(fēng)險(xiǎn)(橫坐標(biāo))躺盛,以回報(bào)和風(fēng)險(xiǎn)的綜合效果作為投資產(chǎn)品的一個(gè)優(yōu)良衡量標(biāo)準(zhǔn)。比較不同產(chǎn)品時(shí)形帮,可以過原點(diǎn)和各自的比值點(diǎn)作直線槽惫,即可得到各產(chǎn)品的斜率。斜率較大者品質(zhì)較為優(yōu)良沃缘。如此即可將回報(bào)和風(fēng)險(xiǎn)各不相同的產(chǎn)品進(jìn)行一個(gè)統(tǒng)一的比較躯枢。

標(biāo)準(zhǔn)正態(tài)分布的平均值為0则吟,標(biāo)準(zhǔn)差為1槐臀。距離平均值1個(gè)S.D.范圍以內(nèi)的數(shù)據(jù)的相對頻數(shù)為0.6826(7成弱);距離平均值2個(gè)S.D.范圍以內(nèi)的數(shù)據(jù)的相對頻數(shù)為0.9544(9成5強(qiáng))氓仲。標(biāo)準(zhǔn)正態(tài)分布的95%預(yù)測命中區(qū)間為-1.96至+1.96水慨。滿足95%預(yù)測命中的區(qū)間還有很多得糜,但是由于正態(tài)分布左右對稱的特點(diǎn),選擇其他區(qū)間要滿足95%命中的話晰洒,會導(dǎo)致需要預(yù)測的范圍變大朝抖,即相應(yīng)的降低了預(yù)測的精度〉海總之這個(gè)區(qū)間要盡可能選在數(shù)據(jù)集中的區(qū)域治宣。需要注意的是,95%預(yù)測命中區(qū)間和95%置信區(qū)間不是同一個(gè)概念砌滞。

“95%預(yù)測命中區(qū)間”是指“95%的數(shù)據(jù)在此區(qū)間”侮邀,因此,認(rèn)為“下次觀測到的數(shù)據(jù)進(jìn)入此區(qū)間有95%的概率”贝润。但是绊茧,置信區(qū)間的情況不是這樣〈蚓颍“95%置信區(qū)間”是指“無論出現(xiàn)什么樣的觀測值x,反復(fù)以此方法進(jìn)行數(shù)據(jù)值N的估計(jì)华畏,其中95%的估計(jì)結(jié)果是命中的”。也就是說尊蚁,如果持續(xù)進(jìn)行區(qū)間估計(jì)亡笑,可求得對應(yīng)觀測值x的各種各樣的區(qū)間,但在100次中有95次真正的N落在求出的區(qū)間內(nèi)横朋。(置信區(qū)間是針對因變量均值的區(qū)間况芒,而預(yù)測區(qū)間是針對因變量個(gè)體值的區(qū)間。比如叶撒,讓你預(yù)測一個(gè)高中班級中學(xué)生的平均身高绝骚,跟讓你預(yù)測該班級中具體某一個(gè)學(xué)生的身高)。

可以說祠够,統(tǒng)計(jì)學(xué)的方法論與目前的科學(xué)法則的形式稍有不同压汪,這就意味著要從一開始就放棄100%命中。

從部分推測整體可以說是統(tǒng)計(jì)學(xué)的妙趣所在古瓤,推論統(tǒng)計(jì)的工作止剖,是關(guān)于從觀測來的數(shù)據(jù)到整體的推斷和總結(jié)。比如落君,我們做醬湯的時(shí)候穿香,需要判斷味道是否合適,于是绎速,用勺子舀著喝一點(diǎn)皮获,這就是根據(jù)部分推斷整體。但是偶爾會嘗到稍淡或稍濃的地方纹冤,所以醬湯總體的味道與試嘗的味道多少有些偏差也是正常的洒宝。同樣购公,也必須做好統(tǒng)計(jì)推論與總體并非完全一致,而是有一定偏差的思想準(zhǔn)備雁歌。

進(jìn)行充分的觀測宏浩,就能相當(dāng)鮮明地捕捉總體的情況。現(xiàn)實(shí)中很多情況并不允許我們進(jìn)行大量的觀測靠瞎,在此種情況下比庄,如何實(shí)現(xiàn)從不那么大量的觀測去推斷總體的特點(diǎn)呢?

雖然通過“隨機(jī)抽樣法”觀測足夠多的次數(shù)確實(shí)可以明確這些分布乏盐,但我們卻無法對周圍的不確定現(xiàn)象進(jìn)行那么多次觀測(比如科學(xué)試驗(yàn)一般很難獲取規(guī)模龐大的數(shù)據(jù))印蔗。

假如我們實(shí)際觀測到了1個(gè)數(shù)據(jù),可以從它推測總體的什么呢丑勤?可以推測“總體的平均值接近這個(gè)觀測到的值”吧华嘹,因?yàn)槠骄凳菑姆植贾羞x取的具有代表性的數(shù)據(jù),數(shù)據(jù)的分布有向平均值聚集的趨勢法竞。假設(shè)通過什么手段知道了總體的標(biāo)準(zhǔn)差耙厚,那我們就能知道數(shù)據(jù)的集中程度,對總體做一個(gè)更詳細(xì)的推測岔霸。即使分布不是正態(tài)分布而是一般分布薛躬,根據(jù)切比雪夫不等式,通過選取適當(dāng)?shù)膋呆细,普通數(shù)據(jù)也視為分布在-k個(gè)S.D.到k個(gè)S.D.之間型宝,而這個(gè)范圍之外的數(shù)據(jù)視為特殊數(shù)據(jù)(比如正態(tài)分布是k = 2,一般距離平均值大于k個(gè)S.D.以上的數(shù)據(jù)占全體數(shù)據(jù)的比例不大于1/(k^2)絮爷,現(xiàn)實(shí)中的一般分布取3或6個(gè)S.D.的比較常用趴酣?)。

觀測1個(gè)數(shù)據(jù)推測很容易具有偶然性坑夯,所以一般是觀測n個(gè)數(shù)據(jù)再取算術(shù)平均即為樣本均值岖寞,根據(jù)大數(shù)法則,觀測的數(shù)據(jù)個(gè)數(shù)n越大柜蜈,樣本均值接近總體均值的可能性越高(大樣本推斷)仗谆。在戈塞特之前的學(xué)者們,以樣本標(biāo)準(zhǔn)差作為總體標(biāo)準(zhǔn)差使用淑履,確實(shí)隶垮,如果樣本數(shù)n夠大,沒什么問題秘噪。但是狸吞,戈塞特發(fā)現(xiàn)钓丰,如果樣本數(shù)n小缓淹,就會產(chǎn)生無法忽視的大的偏差粪躬,于是他發(fā)現(xiàn)了t分布捉貌,使得實(shí)現(xiàn)小樣本自然估計(jì)成為可能(小樣本推斷)贯要。

書本后記)統(tǒng)計(jì)學(xué)理論中有某種秘訣的“飛躍”暖侨,推論統(tǒng)計(jì)的方法是從部分推論整體的一種歸納法。習(xí)慣了數(shù)學(xué)中完美無缺的演繹法的人可能覺得別扭崇渗,要領(lǐng)悟這種充滿飛躍的理論體系字逗,必須將頭腦從過往習(xí)慣的思考方法中切換出來。統(tǒng)計(jì)學(xué)正是因?yàn)橛辛诉@樣的飛躍宅广,才有了更加密切聯(lián)系“現(xiàn)實(shí)”的可能葫掉,這也正是統(tǒng)計(jì)學(xué)的活力和魅力所在。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末跟狱,一起剝皮案震驚了整個(gè)濱河市俭厚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌驶臊,老刑警劉巖挪挤,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異关翎,居然都是意外死亡扛门,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門纵寝,熙熙樓的掌柜王于貴愁眉苦臉地迎上來论寨,“玉大人,你說我怎么就攤上這事爽茴≡岬剩” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵室奏,是天一觀的道長沮明。 經(jīng)常有香客問我,道長窍奋,這世上最難降的妖魔是什么荐健? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮琳袄,結(jié)果婚禮上江场,老公的妹妹穿的比我還像新娘。我一直安慰自己窖逗,他們只是感情好址否,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般佑附。 火紅的嫁衣襯著肌膚如雪樊诺。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天音同,我揣著相機(jī)與錄音词爬,去河邊找鬼。 笑死权均,一個(gè)胖子當(dāng)著我的面吹牛顿膨,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播叽赊,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼恋沃,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了必指?” 一聲冷哼從身側(cè)響起囊咏,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎塔橡,沒想到半個(gè)月后匆笤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡谱邪,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年炮捧,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片惦银。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡咆课,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出扯俱,到底是詐尸還是另有隱情书蚪,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布迅栅,位于F島的核電站殊校,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏读存。R本人自食惡果不足惜为流,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望让簿。 院中可真熱鬧敬察,春花似錦、人聲如沸尔当。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至锐帜,卻和暖如春田盈,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背缴阎。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工允瞧, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人药蜻。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓瓷式,卻偏偏與公主長得像替饿,于是被迫代替她去往敵國和親语泽。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容