1蔫巩,中位數(shù):按從小到大排列好的中間值
2,眾數(shù):出現(xiàn)次數(shù)最多的那個(gè)數(shù)
3,方差:數(shù)值和均值的距離的平方數(shù)的平均值
4追他,協(xié)方差:在概率論和統(tǒng)計(jì)學(xué)中用于衡量兩個(gè)變量的總體誤差。而方差是協(xié)方差的一種特殊情況岛蚤,即當(dāng)兩個(gè)變量是相同的情況邑狸。
協(xié)方差表示的是兩個(gè)變量的總體的誤差,這與只表示一個(gè)變量誤差的方差不同涤妒。 如果兩個(gè)變量的變化趨勢一致单雾,也就是說如果其中一個(gè)大于自身的期望值,另外一個(gè)也大于自身的期望值,那么兩個(gè)變量之間的協(xié)方差就是正值硅堆。如果兩個(gè)變量的變化趨勢相反屿储,即其中一個(gè)大于自身的期望值,另外一個(gè)卻小于自身的期望值渐逃,那么兩個(gè)變量之間的協(xié)方差就是負(fù)值
期望值分別為E[X]與E[Y]的兩個(gè)實(shí)隨機(jī)變量X與Y之間的協(xié)方差Cov(X,Y)定義為:
如果X與Y是統(tǒng)計(jì)獨(dú)立的够掠,那么二者之間的協(xié)方差就是0,因?yàn)閮蓚€(gè)獨(dú)立的隨機(jī)變量滿足E[XY]=E[X]E[Y]茄菊。
但是疯潭,反過來并不成立。即如果X與Y的協(xié)方差為0面殖,二者并不一定是統(tǒng)計(jì)獨(dú)立的竖哩。
協(xié)方差Cov(X,Y)的度量單位是X的協(xié)方差乘以Y的協(xié)方差。而取決于協(xié)方差的相關(guān)性脊僚,是一個(gè)衡量線性獨(dú)立的無量綱的數(shù)相叁。
協(xié)方差為0的兩個(gè)隨機(jī)變量稱為是不相關(guān)的。
5辽幌,算術(shù)平均數(shù)
算術(shù)平均數(shù)分為兩種簡單算術(shù)平均數(shù)和加權(quán)算術(shù)平均數(shù)
1钝荡,簡單算術(shù)平均
適用:主要用于未分組的原始數(shù)據(jù)。設(shè)一組數(shù)據(jù)為X1舶衬,X2埠通,...,Xn逛犹,簡單的算術(shù)平均數(shù)的計(jì)算公式為:
2 加權(quán)算術(shù)平均
適用:主要用于處理經(jīng)分組整理的數(shù)據(jù)端辱。設(shè)原始數(shù)據(jù)為被分成K組,各組的組中的值為X1虽画,X2舞蔽,...,Xk码撰,各組的頻數(shù)分別為f1渗柿,f2,...脖岛,fk朵栖,加權(quán)算術(shù)平均數(shù)的計(jì)算公式為:
6,幾何平均數(shù)
幾何平均數(shù)是n個(gè)變量值連乘積的n次方根
1柴梆、簡單幾何平均數(shù):
幾何平均數(shù)示意圖
2陨溅、加權(quán)幾何平均數(shù):
1、幾何平均數(shù)受極端值的影響較算術(shù)平均數(shù)猩茉凇门扇;
2雹有、如果變量值有負(fù)值,計(jì)算出的幾何平均數(shù)就會成為負(fù)數(shù)或虛數(shù)臼寄;
3霸奕、它僅適用于具有等比或近似等比關(guān)系的數(shù)據(jù);
4吉拳、幾何平均數(shù)的對數(shù)是各變量值對數(shù)的算術(shù)平均數(shù)铅祸。
計(jì)算幾何平均數(shù)要求各觀察值之間存在連乘積關(guān)系,它的主要用途是: [4]
1合武、對比率、指數(shù)等進(jìn)行平均涡扼;
2稼跳、計(jì)算平均發(fā)展速度;
其中:樣本數(shù)據(jù)非負(fù)吃沪,主要用于對數(shù)正態(tài)分布汤善。
3、復(fù)利下的平均年利率票彪;
4红淡、連續(xù)作業(yè)的車間求產(chǎn)品的平均合格率。
7降铸,分位值:分位值是隨機(jī)變量的特征數(shù)之一在旱。將隨機(jī)變量分布曲線與X軸包圍的面積作n等分,得n—1個(gè)值(X_1、X_2……X_(n-1)),這些值稱為n分位值推掸。參數(shù)統(tǒng)計(jì)中常常用到分位值這一概念桶蝎。
分位值(數(shù))在統(tǒng)計(jì)學(xué)中也有很多應(yīng)用,比如在一般的數(shù)據(jù)分析當(dāng)中谅畅,需要我們計(jì)算25分位(下四分位)登渣,50分位(中位),75分位(上四分位)值毡泻。下面介紹一個(gè)例子具體說明什么是分位值:
8胜茧,期望:在一個(gè)離散性隨機(jī)變量試驗(yàn)中每次可能結(jié)果的概率乘以其結(jié)果的總和
9.雙峰數(shù)據(jù):雙峰分布(bimodal
distribution)是分布中的兩個(gè)分?jǐn)?shù)附近集中著較多的次數(shù),以致次數(shù)分布曲線有兩個(gè)隆起的峰仇味,故名雙峰分布呻顽。
10長尾效應(yīng):長尾效應(yīng)的根本就是強(qiáng)調(diào)“個(gè)性化”,“客戶力量”和“小利潤大市場”丹墨,也就是要賺很少的錢芬位,但是要賺很多人的錢。要將市場細(xì)分到很細(xì)很小的時(shí)候带到,然后就會發(fā)現(xiàn)這些細(xì)小市場的累計(jì)會帶來明顯的長尾的效應(yīng)昧碉。
11英染,條件概率:P(A|B)=P(AηB)/P(B)
12 貝葉斯定理:P(A|B)=P(A)*P(B|A) / [(P(A)* P(B|A)+P(A’)*P(B|A’))
在需要求出條件概率,且該條件概率與已知條件概率順序相反時(shí)使用
13線性變換E(AX+B)=AE(X)+B?? VAR(AX+B)=A2var(x)
獨(dú)立觀察值E(X1+X2+…..+Xn)=nE(X)?? VAR(X1+X2+…..+Xn)=NVAR(X)
14 排列;從N個(gè)對象里取出R個(gè)對象的排列方法P=N!/(N-R)!
組合從N個(gè)對象中選取R個(gè)對象的選取方式的數(shù)目被饿,
15 幾何分布??????X ~ GE(p)
進(jìn)行一系列獨(dú)立的實(shí)驗(yàn)四康,每一次都有可能成功,也有可能失敗狭握,成功的概率一樣闪金,感興趣的是第一次成功的概率
Var(x)=q/p2
16 二項(xiàng)分布???X~B(n,p)
你正在進(jìn)行一系列獨(dú)立實(shí)驗(yàn),每一次都存在成功和失敗的可能论颅,每一次實(shí)驗(yàn)的成功概率相同哎垦,實(shí)驗(yàn)次數(shù)有限
P=C(n,k)×p^k×(1-p)^(n-k)。C(n,k)表示組合數(shù)
當(dāng)N大于50且P小于0.1的時(shí)候恃疯,二項(xiàng)分布可以用泊松分布代替
當(dāng)np 和nq都大于5的時(shí)候漏设,正太分布可以代替二項(xiàng)分布,但是要進(jìn)行連續(xù)性修正X~N(np??? npq)
17泊松分布??X~PO(χ)
單獨(dú)事件在給定區(qū)間內(nèi)隨機(jī)今妄,獨(dú)立發(fā)生郑口。
已知該區(qū)間內(nèi)事件發(fā)生的平均數(shù),且為有限值盾鳞,該事件平均發(fā)生次數(shù)用χ表示
泊松分布的參數(shù)λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生率犬性。
泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。
E(X)=χ
VAR(X)=χ
當(dāng)χ大于15的時(shí)候可以用正太分布代替泊松分布X~N(χ,?χ)需要進(jìn)行連續(xù)性修正
18 正態(tài)分布
若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ腾仅、方差為σ^2的正態(tài)
(3) E(X1+X2+X3+….+Xn)=nE(x)????VAR(X)=nvar(x)
X1+X2+X3+….Xn~N(nE(x),nvar(x)2)
正態(tài)曲線下乒裆,橫軸區(qū)間(μ-σ,μ+σ)內(nèi)的面積為68.268949%。
橫軸區(qū)間(μ-1.96σ,μ+1.96σ)內(nèi)的面積為95.449974%推励。
橫軸區(qū)間(μ-2.58σ,μ+2.58σ)內(nèi)的面積為99.730020%缸兔。
19 抽取樣本
簡單隨機(jī)抽樣的兩種方式 重復(fù)抽樣和不重復(fù)抽樣,前者是抽樣完了又把樣本放回總體吹艇,后者不放
可以用抽簽和隨機(jī)編號進(jìn)行簡單隨機(jī)抽樣
分層抽樣:將總體分割為及格相似的組惰蜜,每個(gè)組具有類似的特征。這些特征或者組叫做層受神。比如按照顏色分層
整群抽樣 抛猖; 進(jìn)行整群抽樣的時(shí)候,不是對抽樣的單位進(jìn)行隨機(jī)抽樣鼻听,而是對群進(jìn)行簡單隨機(jī)抽樣财著。整群抽樣之所以行得通是因?yàn)槿后w之間的相似性。(比如對一盒糖進(jìn)行抽樣撑碴,而不是一顆糖)
系統(tǒng)抽樣撑教,按照某種順序列出整體名單,然后每隔K個(gè)單位進(jìn)行抽樣醉拓。如果總體存在某種循環(huán)伟姐,則樣本會發(fā)生偏倚
20點(diǎn)估計(jì)量:樣本均值被稱作為整體均值的點(diǎn)估計(jì)量收苏,樣本比例被稱為總體比例的點(diǎn)估計(jì)量
點(diǎn)估計(jì)量是有價(jià)值的,但是不能夠百分百代表總體愤兵,會有小小的誤差鹿霸。與其給出一個(gè)精確值作為總體均值的估計(jì)值,不如指定一個(gè)區(qū)間秆乳。
S 樣本方差公式?
總體方差公式?
大部分情況下都用樣本方差估算總體方差懦鼠,除以n-1比除以N 能得出精確性稍微高點(diǎn)的結(jié)果
21 比例抽樣分布如果從總體中用相同的方法抽取許多大小相同但是存在差異的樣本,然后用每個(gè)樣本的某個(gè)屬性形成一個(gè)分布屹堰,則所得結(jié)果成為抽樣分布肛冶。用每個(gè)樣本的比例形成的抽樣分布就是比例的抽樣分布
利用比例抽樣分布可以求出某一個(gè)隨機(jī)選擇的,大小為n 的樣本的成功比例的概率
E(ps)=p?? var(ps)=pq/n?ps=成功樣本/總共樣本
當(dāng)樣本大于30的時(shí)候Ps分布符合正態(tài)分布Ps~N(p??? pq/n)
Ps需要進(jìn)行連續(xù)性修正=+-(1)/2n
22 均值抽樣分布
E(x)=u
Var(x)= ?2/n
中心極限定理: 如果從一個(gè)非正態(tài)的樣本總體X中取出樣本扯键,且樣本很大睦袖,則X的平均值近似為正態(tài)分布,如果總體的均值和方差為u和?2忧陪。則
X~N(u? ?2/n)
如果有一個(gè)總體用二項(xiàng)分布X~B(n p)表示,其中n大于30近范,如前所訴u=np
?2=npq 根據(jù)極限中心定理嘶摊,X平均值~n(u,? ?2/n)得到
X平均值~n(np,? pq)
如果有一個(gè)總體用泊松分布X~Po(χ? χ)表示,其中n大于30评矩,如前所訴u=np
?2=npq 根據(jù)極限中心定理叶堆,X平均值~n(u,? ?2/n)得到
X平均值~n(χ? χ/n)
使用中心極限定理求出的概率和樣本均值有關(guān),而與樣本數(shù)值無關(guān)斥杜,因此不需要進(jìn)行任何連續(xù)性修正
23 置信區(qū)間:置信區(qū)間是指由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間虱颗。在統(tǒng)計(jì)學(xué)中,一個(gè)概率樣本的置信區(qū)間是對這個(gè)樣本的某個(gè)總體參數(shù)的區(qū)間估計(jì)蔗喂。置信區(qū)間展現(xiàn)的是這個(gè)參數(shù)的真實(shí)值有一定概率落在測量結(jié)果的周圍的程度忘渔。置信區(qū)間給出的是被測量參數(shù)的測量值的可信程度,即前面所要求的“一個(gè)概率”
置信水平:表明你希望“置信區(qū)間包含總統(tǒng)計(jì)量”這一說法有多大把握缰儿。
置信水平是“統(tǒng)計(jì)量處于置信區(qū)間之中“的概率畦粮,通常是百分?jǐn)?shù),比如95%.置信區(qū)間則給出了區(qū)間本身——數(shù)字范圍的上下限
置信區(qū)間理論上要連續(xù)修正乖阵,但是實(shí)踐中通常忽略不計(jì)宣赔。
24 當(dāng)樣本很小,或者方差不知道的時(shí)候我們采用T分布瞪浸,T分布只有一個(gè)參數(shù)就是自由度儒将,v,通常V=n-1
我們要求出樣本平均值分布,就要知道樣本平均值的期望和方差对蒲,樣本平均值的期望為u钩蚊,標(biāo)準(zhǔn)差為?**2/n贡翘,由于需要s估計(jì)?的值,T分布的算式如下
T=(樣本的平均值-u)/(s/n**0.5)
25兩種估計(jì)總體統(tǒng)計(jì)量的方法
一是點(diǎn)估計(jì)量两疚,點(diǎn)估計(jì)量方法可以用于估計(jì)總體統(tǒng)計(jì)量的精確數(shù)值床估,是根據(jù)樣本數(shù)據(jù)有可能做出的最好猜測
二是總體統(tǒng)計(jì)量的置信區(qū)間,這個(gè)方法得到的并不是總體統(tǒng)計(jì)量的精確估計(jì)诱渤,而是求出總體統(tǒng)計(jì)量的有一個(gè)較高可信度的范圍
26假設(shè)檢驗(yàn)也被成為顯著性檢驗(yàn)
1確定要進(jìn)行檢驗(yàn)的假設(shè)丐巫;
2選擇檢驗(yàn)統(tǒng)計(jì)量;
3確定用于做決策的拒絕域
4求出檢驗(yàn)統(tǒng)計(jì)量的P值勺美;
5查看樣本結(jié)果是否位于拒絕域內(nèi)
6做出決策递胧。
臨界點(diǎn):拒絕域的臨界點(diǎn)C
顯著性水平用α表示,你希望在不可能程度多大的時(shí)候拒絕你的假設(shè)
單尾檢驗(yàn):當(dāng)拒絕域落在可能數(shù)據(jù)集的一側(cè)赡茸。當(dāng)<的時(shí)候用左尾缎脾,當(dāng)>的時(shí)候用右尾。
雙尾檢驗(yàn):拒絕域一分為二位于數(shù)據(jù)左右兩側(cè)占卧,選擇的檢驗(yàn)水平為α遗菠,將拒絕域一分為二分別位于數(shù)據(jù)集的兩端。當(dāng)出現(xiàn)<>d的時(shí)候用雙尾檢驗(yàn)
第一類錯(cuò)誤:錯(cuò)誤地拒絕了真原假設(shè)
第二類錯(cuò)誤:錯(cuò)誤的接受了假原假設(shè)
P(第一類錯(cuò)誤)=α???????????????????α為檢驗(yàn)的顯著性水平
P(第二類錯(cuò)誤)=β
求β的方法(1)檢查是否擁有H1(備選假設(shè))的特定數(shù)值华蜒,如果沒有就沒有辦法計(jì)算第二類錯(cuò)誤概率辙纬。(2)求檢驗(yàn)域以外的數(shù)值范圍 (3)假定H1為真,得到這些數(shù)值的概率叭喜。
功效:在H0為假的時(shí)候拒絕H0的概率?????功效=1-β
?27卡方分布
通過檢驗(yàn)統(tǒng)計(jì)量來比較期望結(jié)果和實(shí)際結(jié)果之間的差別贺拣,然后得出觀察頻數(shù)極值的發(fā)生概率。
X2=£(o-E)/E
O表示觀察頻數(shù)捂蕴,E表示期望頻數(shù)
X2說明差別越明顯
卡方分布的主要用途??第一 檢驗(yàn)擬合優(yōu)度譬涡,也就是檢驗(yàn)一組給定的數(shù)據(jù)與指定分布的吻合程度。例如啥辨,可以用來檢驗(yàn)老虎機(jī)收益的觀察頻率與我們所期待的分布的吻合程度
第二?檢驗(yàn)兩個(gè)變量之間的獨(dú)立性涡匀,通過這個(gè)方法可以檢驗(yàn)兩個(gè)變量之間是否存在某種關(guān)聯(lián)。
V表示自由度數(shù)目
v=組數(shù)-限制數(shù)
當(dāng)v等于1和2的時(shí)候溉知,X2分布比較向J線高后低渊跋。當(dāng)V大于2的時(shí)候圖形先低后高然后再低,V越大着倾,越接近正態(tài)分布
用卡方分布進(jìn)行的檢驗(yàn)是單尾檢驗(yàn)拾酝,右尾是拒絕域
如果用顯著性水平α進(jìn)行檢驗(yàn),則可以寫作
χ2α(v)可以通過查χ2概率表可以求出χ卡者。第一列求v,第一行查α蒿囤,交點(diǎn)就是χ值。
首先崇决,你得到了老虎機(jī)的一組觀察頻數(shù)材诽,然后假定這些頻數(shù)符合某種特定的概率分布并算出來期望底挫,然后算出自由度和檢驗(yàn)統(tǒng)計(jì)量χ2,通過χ2可以看出觀察頻數(shù)和期望頻數(shù)之間的總偏差
然后從χ2概率表中查找顯著性水平為x%時(shí)的拒絕域脸侥,經(jīng)過檢驗(yàn)統(tǒng)計(jì)量進(jìn)行比較建邓,看總偏差是否位于拒絕域以內(nèi)。
這種假設(shè)檢驗(yàn)被叫做擬合優(yōu)度檢驗(yàn)睁枕,它檢驗(yàn)觀察頻數(shù)是否和假設(shè)的頻數(shù)分布相吻合官边。若你有一組數(shù)據(jù),并希望這組數(shù)據(jù)符合某種分布外遇,為了看這組數(shù)據(jù)是否確實(shí)符合這種分布注簿,則可以用擬合優(yōu)度檢驗(yàn)。
χ2擬合優(yōu)度檢驗(yàn)對相當(dāng)多的概率分布都有效跳仿,只要得到了一組觀察頻數(shù)诡渴,并且能夠算出期望頻數(shù)。
χ2進(jìn)行獨(dú)立性檢驗(yàn)
期望頻數(shù)=(行合計(jì)*列合計(jì))/ 總和
X2=£(o-E)/E
如果有一張H*K的表格菲语,則可以通過V=(h-1)*(k-1)來計(jì)算自由度妄辩。表格里面不包含總計(jì)
28相關(guān)和線性
兩個(gè)變量之間的相關(guān)關(guān)系意味著二者存在某種數(shù)學(xué)關(guān)系。既我們在圖上繪制數(shù)值時(shí)山上,我們能夠看得出某種模式眼耀,并能夠預(yù)測出沒有出現(xiàn)在圖上的數(shù)值。我們并不知道兩個(gè)變量之間是否存在實(shí)際關(guān)系胶哲,當(dāng)然我們也不知道一個(gè)變量是否會影響另一個(gè)變量畔塔√侗玻或是有其它因素在發(fā)揮作用鸯屿。
B=£((x-x的平均值)(y-y的平均值))/£(X-X的平均值)2
B=每一個(gè)X減去X的平均值乘以每一個(gè)Y減去Y的平均值除以(每個(gè)數(shù)X減去X的均值,然后將所得結(jié)果平方
直線一定會經(jīng)過(X均值,Y均值)這個(gè)點(diǎn)把敢,所以可以求出a
直線Y=bx+a被成為回歸線 用于求出最佳擬合線的方法叫做最小二乘回歸法
有一種方法可以計(jì)算直線擬合度——稱為相關(guān)系數(shù)r
相關(guān)系數(shù)位于-1和1之間寄摆。如果r是-1數(shù)據(jù)是完全負(fù)線性相關(guān),r為1則數(shù)據(jù)完全正線性相關(guān)修赞。R=0則不相關(guān)婶恼。R的絕對值越接近1,則相關(guān)性越高柏副。
R=bSx/Sy
B是以求出的最佳擬合線概率 Sx 是樣本中X值的標(biāo)準(zhǔn)差Sy是y值的標(biāo)準(zhǔn)差勾邦。在計(jì)算X和Y的方差和標(biāo)準(zhǔn)差的時(shí)候都是除以n-1.