一些基本變量包括均值寻咒,眾數(shù)哮翘,中位數(shù),方差什么的就不說了毛秘,值得注意的就是樣本標(biāo)準(zhǔn)差s計(jì)算時(shí)是除以n-1饭寺。還有樣本和總體符號(hào)的不同(總體均值,標(biāo)準(zhǔn)差分別是μ叫挟,σ)
一.Chebyshev`s theorem(切比雪夫理論)
一般的圖:
(x-s,x+s) little info
(x-2s,x+2s) 75% info
(x-3s,x+3s) 8/9 info
對(duì)于正態(tài)分布:
一道例題:
b艰匙,這道題是找出低于40的占比,也就是x-2s抹恳,在圖上標(biāo)出40的位置员凝,求40之前的面積占比即可(用68%,95%)
偏差估計(jì)
Z-score:
z的值與占比關(guān)系及偏差:
(-1,1)? 68%?
(-2,2) 95%
(-3,3) 99.7%?
|z|>2? probable outlier
|z|>3? outlier
例題:
題目大意是一個(gè)女人覺得自己工資水平低了奋献,懷疑公司性別歧視绊序,于是看看自己工資在男性工資中的位置,通過z-score計(jì)算來(lái)判斷自己的值在這張分布圖里是否屬于異常值秽荞,若是,則 sex discrimination
算出來(lái)-3.5抚官,是扬跋!
箱形圖:
1.5到3之間:suspect outliers
在3之外: highly suspect outliers