統(tǒng)計學(xué)劃分:
描述統(tǒng)計學(xué)
使用特定的數(shù)字或圖表來體現(xiàn)數(shù)據(jù)的集中和離散程度潘悼。如:統(tǒng)計每次考試的各項指標(biāo)分布喉悴。
1.集中趨勢
對于一組數(shù)據(jù)祸挪,如果只允許用一個數(shù)字去代表這組數(shù)據(jù)外潜,那么這個數(shù)字如何選擇原环?
>均值:算術(shù)平均數(shù),描述平均水平处窥。
Note:容易收到極端數(shù)據(jù)的影響嘱吗。
>中位數(shù):按照大小排列所有數(shù)據(jù),然后選擇中間位置的數(shù)滔驾,描述中等水平谒麦。
Note:如果中間位置的數(shù)據(jù)有兩個,也就是總個數(shù)為偶數(shù)哆致,中位數(shù)就是中間兩個數(shù)的算術(shù)平均數(shù)绕德。不會收到極端數(shù)據(jù)的影響,但缺乏敏感性沽瞭。
>眾數(shù):數(shù)據(jù)中出現(xiàn)最多的數(shù)迁匠,描述一般水平。
>求眾數(shù)的函數(shù)
def get_more(arr):
????????????????more = []
????????????????arr_appear = dict((afar.count(a)) for a in arr)
????????????????if max(arr_appear.values())==1:
????????????????????????return#沒有眾數(shù)
????????????????else:
????????????????????????for k,v in arr_appear.items():
????????????????????????????????if v == ?max(arr_appear.values()):
????????????????????????????????????????more.append(k)
????????????????return more;
Note:一組數(shù)據(jù)驹溃,可能會存在多個眾數(shù)城丧,也可能不存在。眾數(shù)不僅適用于數(shù)值型數(shù)據(jù)豌鹤,對非數(shù)值型數(shù)據(jù)也同樣適用亡哄。缺乏唯一性,可能不能作為指標(biāo)布疙。
2.離散程度的描述
極差:
最大值-最小值蚊惯,簡單描述數(shù)據(jù)的范圍大小。
方差:
數(shù)據(jù)離中心越遠越離散灵临。var()
標(biāo)準(zhǔn)差:
方差的平方截型,與原數(shù)據(jù)單位一樣,與方差一樣表征數(shù)據(jù)離散程度儒溉。std()
3.偏度
對數(shù)據(jù)分布的偏斜程度的衡量宦焦。通過它的正負來判斷數(shù)據(jù)是正偏還是負偏。也可用pandas 的方法skew()求出:
a= Series(a)
a.skew()
正偏:大部分?jǐn)?shù)據(jù)比均值要大
負偏:大部分?jǐn)?shù)據(jù)比均值要小
4.蜂度
數(shù)據(jù)分布峰態(tài)的度量指標(biāo)。與正態(tài)分布進行比較波闹。
尖峰 中峰 低峰
超額峰度
a.kurt()
5.分位數(shù)
將數(shù)據(jù)按照從小到大排列酝豪,然后分成兩組,較小的一組元素個數(shù)占整個樣本元素個數(shù)的值
6.數(shù)據(jù)基本特征描述
Describe()
7.多元數(shù)據(jù)的數(shù)據(jù)特征
方差與協(xié)方cov()精堕,相關(guān)系數(shù)corr()
推斷統(tǒng)計學(xué)
根據(jù)樣本數(shù)據(jù)推斷總體數(shù)據(jù)的特征孵淘。如:產(chǎn)品質(zhì)量檢查,一般采用抽樣歹篓,根據(jù)樣本的質(zhì)量合格率作為總體的質(zhì)量的一個估計瘫证。
只要有數(shù)據(jù),統(tǒng)計學(xué)就有用武之地滋捶,廣泛運用于經(jīng)濟學(xué)痛悯,醫(yī)學(xué),心理學(xué)重窟,大數(shù)據(jù)分析载萌,機器學(xué)習(xí)等。
假設(shè)檢驗
對于提出的假設(shè)進行檢驗巡扇,看它是不是真的扭仁。
基本思想:
1.小概率思想
2.反證法思想
零假設(shè)與備擇假設(shè)--無罪推定原理
零假設(shè):假定一個總體參數(shù)等于某個特定值的一個聲明,如H0: p = 0.5
備擇假設(shè):假定該總體參數(shù)為零假設(shè)中假設(shè)的值除外的值厅翔,H1: p>0.5
選擇原理:如希望假設(shè)的論斷成立乖坠,設(shè)為備擇假設(shè);如希望假設(shè)不成立刀闷,設(shè)為零假設(shè)熊泵。