第一篇是懶人模式...
學習內(nèi)容:數(shù)據(jù)的描述性統(tǒng)計
一篮愉、集中趨勢
1、眾數(shù)
眾數(shù)(Mode)是統(tǒng)計學名詞差导,在統(tǒng)計分布上具有明顯集中趨勢點的數(shù)值试躏,代表數(shù)據(jù)的一般水平(眾數(shù)可以不存在或多于一個)。 修正定義:是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值设褐,叫眾數(shù)颠蕴,有時眾數(shù)在一組數(shù)中有好幾個泣刹。用 M 表示。 理性理解:簡單的說犀被,就是一組數(shù)據(jù)中占比例最多的那個數(shù)椅您。
2、中位數(shù)
中位數(shù)(又稱中值寡键,英語:Median)掀泳,統(tǒng)計學中的專有名詞,代表一個樣本西轩、種群或概率分布中的一個數(shù)值员舵,其可將數(shù)值集合劃分為相等的上下兩部分。
對于有限的數(shù)集藕畔,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數(shù)马僻。如果觀察值有偶數(shù)個,通常取最中間的兩個數(shù)值的平均數(shù)作為中位數(shù)劫流。
中位數(shù)示意圖:
3巫玻、分位數(shù)
分位數(shù)(Quantile),亦稱分位點祠汇,是指將一個隨機變量的概率分布范圍分為幾個等份的數(shù)值點仍秤,常用的有中位數(shù)(即二分位數(shù))、四分位數(shù)可很、百分位數(shù)等诗力。
4、平均數(shù)
平均數(shù)我抠,統(tǒng)計學術語苇本,是表示一組數(shù)據(jù)集中趨勢的量數(shù),是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù)菜拓。它是反映數(shù)據(jù)集中趨勢的一項指標瓣窄。解答平均數(shù)應用題的關鍵在于確定“總數(shù)量”以及和總數(shù)量對應的總份數(shù)。
在統(tǒng)計工作中纳鼎,平均數(shù)(均值)和標準差是描述數(shù)據(jù)資料集中趨勢和離散程度的兩個最重要的測度值俺夕。
平均數(shù)分為三個大類,分別為算數(shù)平均數(shù)贱鄙、加權平均數(shù)劝贸、幾何平均數(shù)
算數(shù)平均數(shù)
又稱均值,是統(tǒng)計學中最基本逗宁、最常用的一種平均指標映九,分為簡單算術平均數(shù)、加權算術平均數(shù)瞎颗。它主要適用于數(shù)值型數(shù)據(jù)件甥,不適用于品質(zhì)數(shù)據(jù)捌议。根據(jù)表現(xiàn)形式的不同,算術平均數(shù)有不同的計算形式和計算公式嚼蚀。
算術平均數(shù)是加權平均數(shù)的一種特殊形式(特殊在各項的權重相等)禁灼。在實際問題中管挟,當各項權重不相等時轿曙,計算平均數(shù)時就要采用加權平均數(shù);當各項權相等時僻孝,計算平均數(shù)就要采用算術平均數(shù)导帝。
加權平均數(shù)
加權平均值即將各數(shù)值乘以相應的權數(shù),然后加總求和得到總體值穿铆,再除以總的單位數(shù)您单。加權平均值的大小不僅取決于總體中各單位的數(shù)值(變量值)的大小,而且取決于各數(shù)值出現(xiàn)的次數(shù)(頻數(shù))荞雏,由于各數(shù)值出現(xiàn)的次數(shù)對其在平均數(shù)中的影響起著權衡輕重的作用虐秦,因此叫做權數(shù)。
因為加權平均值是根據(jù)權數(shù)的不同進行的平均數(shù)的計算凤优,所以又叫加權平均數(shù)悦陋。在日常生活中,人們常常把“權數(shù)”理解為事物所占的“權重”筑辨,所以在本詞條中俺驶,我們不對這兩個詞加以區(qū)別。
幾何平均數(shù)
幾何平均數(shù)是對各變量值的連乘積開項數(shù)次方根棍辕。求幾何平均數(shù)的方法叫做幾何平均法暮现。如果總水平、總成果等于所有階段楚昭、所有環(huán)節(jié)水平栖袋、成果的連乘積總和時,求各階段抚太、各環(huán)節(jié)的一般水平塘幅、一般成果,要使用幾何平均法計算幾何平均數(shù)凭舶,而不能使用算術平均法計算算術平均數(shù)晌块。根據(jù)所拿握資料的形式不同,其分為簡單幾何平均數(shù)和加權幾何平均數(shù)兩種形式帅霜。
二匆背、數(shù)值型數(shù)據(jù)
1、方差
方差是在概率論和統(tǒng)計方差衡量隨機變量或一組數(shù)據(jù)時離散程度的度量身冀。概率論中方差用來度量隨機變量和其數(shù)學期望(即均值)之間的偏離程度钝尸。統(tǒng)計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)括享。在許多實際問題中,研究方差即偏離程度有著重要意義珍促。
方差是衡量源數(shù)據(jù)和期望值相差的度量值铃辖。
方差的概念與計算公式,例如 兩人的5次測驗成績?nèi)缦拢篨: 50猪叙,100娇斩,100,60穴翩,50犬第,平均值E(X)=72;Y:73芒帕, 70歉嗓,75,72背蟆,70 平均值E(Y)=72鉴分。平均成績相同,但X 不穩(wěn)定带膀,對平均值的偏離大志珍。方差描述隨機變量對于數(shù)學期望的偏離程度。單個偏離是消除符號影響方差即偏離平方的均值本砰,記為E(X):直接計算公式分離散型和連續(xù)型碴裙。推導另一種計算公式得到:“方差等于各個數(shù)據(jù)與其算術平均數(shù)的離差平方和的平均數(shù)”。其中点额,分別為離散型和連續(xù)型計算公式?[1]?舔株。 稱為標準差或均方差,方差描述波動程度还棱。
2载慈、標準差
標準差(Standard Deviation) ,中文環(huán)境中又常稱均方差珍手,是離均差平方的算術平均數(shù)的平方根办铡,用σ表示。標準差是方差的算術平方根琳要。標準差能反映一個數(shù)據(jù)集的離散程度寡具。平均數(shù)相同的兩組數(shù)據(jù),標準差未必相同稚补。
3童叠、極差
極差又稱范圍誤差或全距(Range),以R表示课幕,是用來表示統(tǒng)計資料中的變異量數(shù)(measures of variation)厦坛,其最大值與最小值之間的差距五垮,即最大值減最小值后所得之數(shù)據(jù)。?
它是標志值變動的最大范圍杜秸,它是測定標志變動的最簡單的指標放仗。移動極差(Moving Range)是其中的一種。極差不能用作比較撬碟,單位不同 诞挨,方差能用作比較, 因為都是個比率小作。
極差的計算公式:
4亭姥、平均差
平均差(Mean Deviation)是表示各個變量值之間差異程度的數(shù)值之一。指各個變量值同平均數(shù)的離差絕對值的算術平均數(shù)顾稀。
平均差異大,表明各標志值與算術平均數(shù)的差異程度越大坝撑,該算術平均數(shù)的代表性就越芯哺选;平均差越小巡李,表明各標志值與算術平均數(shù)的差異程度越小抚笔,該算術平均數(shù)的代表性就越大。因離差和為零侨拦,離差的平均數(shù)不能將離差和除以離差的個數(shù)求得殊橙,而必須將離差取絕對數(shù)來消除正負號。平均差是反應各標志值與算術平均數(shù)之間的平均差異狱从。
5膨蛮、順序數(shù)據(jù)(四分位差)
四分位差(quartile deviation),它是上四分位數(shù)(Q3季研,即位于75%)與下四分位數(shù)(Q1敞葛,即位于25%)的差。
計算公式為:Q = Q3-Q1
四分位差反映了中間50%數(shù)據(jù)的離散程度与涡,其數(shù)值越小惹谐,說明中間的數(shù)據(jù)越集中;其數(shù)值越大驼卖,說明中間的數(shù)據(jù)越分散贴谎。四分位差不受極值的影響茶凳。此外,由于中位數(shù)處于數(shù)據(jù)的中間位置,因此鲫构,四分位差的大小在一定程度上也說明了中位數(shù)對一組數(shù)據(jù)的代表程度。四分位差主要用于測度順序數(shù)據(jù)的離散程度。對于數(shù)值型數(shù)據(jù)也可以計算四分位差,但不適合分類數(shù)據(jù)附帽。
四分位數(shù)是將一組數(shù)據(jù)由小到大(或由大到小)排序后井誉,用3個點將全部數(shù)據(jù)分為4等份蕉扮,與這3個點位置上相對應的數(shù)值稱為四分位數(shù),分別記為Q1(第一四分位數(shù))颗圣,說明數(shù)據(jù)中有25%的數(shù)據(jù)小于或等于Q1喳钟,Q2(第二四分位數(shù),即中位數(shù))說明數(shù)據(jù)中有50%的數(shù)據(jù)小于或等于Q2在岂、Q3(第三四分位數(shù))說明數(shù)據(jù)中有75%的數(shù)據(jù)小于或等于Q3奔则。其中,Q3到Q1之間的距離的差的一半又稱為分半四分位差蔽午,記為(Q3-Q1)/2易茬。
6、分類數(shù)據(jù)(異眾比率)
異眾比率(variation ratio)是統(tǒng)計學名詞及老,是統(tǒng)計學當中研究現(xiàn)象離中趨勢的指標之一抽莱。異眾比率指的是總體中非眾數(shù)次數(shù)與總體全部次數(shù)之比。換句話說骄恶,異眾比率指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例食铐。
計算公式
7、相對立三數(shù)據(jù)(離散系數(shù))
離散系數(shù)又稱變異系數(shù)僧鲁,是統(tǒng)計學當中的常用統(tǒng)計指標虐呻。離散系數(shù)是測度數(shù)據(jù)離散程度的相對統(tǒng)計 量,主要是用于比較不同樣本數(shù)據(jù)的離散程度寞秃。離散系數(shù)大斟叼,說明數(shù)據(jù)的離散程度也大;離散系數(shù)小蜕该,說明數(shù)據(jù)的離散程度也小犁柜。
三、分布的形狀
1堂淡、偏態(tài)系數(shù)
偏態(tài)系數(shù)又稱偏差系數(shù)馋缅,說明隨機系列分配不對稱程度的統(tǒng)計參數(shù),用Cs表示绢淀。和Cv只能反映頻率密度分配曲線的平均情況和離散程度萤悴,而不能反映其對稱(即偏態(tài))情況,所以必須再引入一個參數(shù)皆的,即偏差系數(shù)Cso覆履。偏態(tài)系數(shù)絕對值越大,偏斜越嚴重。
2硝全、峰態(tài)系數(shù)
峰態(tài)系數(shù)( coefficient of kurtosis)即“峰度”栖雾。設隨機變量X的數(shù)學期望與方差統(tǒng)計學分別為EX和var(x)≠o,則稱≤萇:毒籌£一3為x的峰度伟众。它是反映X的密度函數(shù)曲線在眾數(shù)附近的“峰”的尖峭程度的數(shù)字特征析藕。正態(tài)分布的峰度為0,其他分布的峰度是以正態(tài)分布為標準描述該分布密度形狀為陡峭或平坦的數(shù)字特征凳厢。?
第一周的筆記账胧,都是從百度百科copy的,真的是太懶了先紫,后面的學習過程中要好好改正治泥,每一周認真學習,這樣才有效果和意義遮精。