統(tǒng)計學(xué)

數(shù)據(jù)分析和統(tǒng)計所付出的成本是不能超過決策所節(jié)省的費用的
統(tǒng)計分描述型和預(yù)測型

描述:表格法和圖形法

餅圖:顯示占比
每一塊的占比 = 相對頻數(shù)分布×360°
但通常人們使用柱狀圖來顯示各百分比
對于頻數(shù)較小的組別谒养,并到‘其他’中鹏倘。

散點圖:相關(guān)性
條形圖,復(fù)合條形圖和結(jié)構(gòu)條形圖渤刃,復(fù)合為比較-各自分段的高低起愈,結(jié)構(gòu)為構(gòu)成-各自分段的占比只恨。

頻數(shù)分布:其中的值各自出現(xiàn)的次數(shù)
相對頻數(shù)分布:其中的值出現(xiàn)次數(shù)占總次數(shù)的百分比

累積頻數(shù)分布:小于等于各值大小的數(shù)量
累積相對頻數(shù)分布:小于等于各值占總數(shù)百分比,比如95%的審計在29天內(nèi)完成等

辛普森悖論:交叉表做出結(jié)論時抬虽,需要審查未綜合的數(shù)據(jù)官觅,可能會出現(xiàn)不同的結(jié)論

數(shù)值方法

例:應(yīng)收賬款的例子平均數(shù)40天、中位數(shù)35天阐污、眾數(shù)31天
意思是:一張發(fā)票的平均收款期限是40天休涤,有一半的發(fā)票超過35天沒有付款,最常見是發(fā)票未付期限是35天笛辟。

通常要考慮樣本(局部)和總體統(tǒng)計方法出現(xiàn)數(shù)值的區(qū)別
平均數(shù):加總求和除以個數(shù)滑绒,要注意:類似價格和數(shù)量求平均單價的情況下不能分別只求價格平均數(shù),而要使用加權(quán)平均數(shù)
中位數(shù):升序排列后中間的數(shù)隘膘,不受異常大或異常小的數(shù)據(jù)點影響,也可以表明有一半的數(shù)據(jù)已經(jīng)超過或者小于這個數(shù)
幾何平均數(shù):N個增長因子的N次方根杠览,多用于計算平均變化率和平均增長率
眾數(shù):出現(xiàn)次數(shù)最多的數(shù)據(jù)弯菊,大部分只有在單眾數(shù)和雙眾數(shù)時有意義
極差:最簡單的離散程度的度量,在有異常大或者異常小時無效
四分位數(shù)間距(IQR):相比極差可以克服異常大和異常小值的問題踱阿,第三四分位數(shù)-第一四分位數(shù)管钳。
方差:比較兩個和兩個以上變量變異程度的有用工具。
標準差:方差開根號
標準差系數(shù):標準差離平均值偏離的百分比软舌。通常用于計算月回報率與長期回報率波動的度量才漆。
z-score:歸一化常用方法之一、(樣本點-總平均值)除以標準差佛点,目的是為了計算各值偏離多少個標準差

切比雪夫定理:知道平均數(shù)和標準差醇滥,可以確定大部分數(shù)據(jù)值所在的區(qū)間黎比。
至少75%的數(shù)據(jù)值和平均數(shù)的距離 z-score<=2
至少89%的數(shù)據(jù)值和平均數(shù)的距離 z-score<=3
至少92%的數(shù)據(jù)值和平均數(shù)的距離 z-score<=4

經(jīng)驗法則:正態(tài)分布下
約68%的數(shù)據(jù)值 在1個標準差之內(nèi)
約95%的數(shù)據(jù)值 在2個標準差之內(nèi)
幾乎所有的數(shù)據(jù)值 在三個標準差之內(nèi)
箱形圖:上限Q1中位數(shù)Q3下限。
協(xié)方差:可以用數(shù)值來表示兩列數(shù)據(jù)的相關(guān)性鸳玩,但是單位小的時候數(shù)值會過于大阅虫,但表示的意義會有誤解
皮爾遜積矩相關(guān)系數(shù):協(xié)方差的修正版以1為正相關(guān),-1為負相關(guān)不跟,但僅在線性時有效

概率

多步驟實驗計數(shù)法則:
古典型的概率:用樹型圖列出所有各階段可能性颓帝,計算最后一列的唯一值出現(xiàn)次數(shù)占所有情況的百分比就是其中的概率值。
相對頻率法:通過過去各情況出現(xiàn)次數(shù)占比窝革,來預(yù)測未來某情況的出現(xiàn)
概率购城,比如某項目完工時間預(yù)測
如果求小于某值的概率發(fā)生情況,只要把小于這個值的概率加起來就可以了虐译,比如:小于10月份的完工時間
2瘪板、在報告和報表中,可以通過概率計算公式菱蔬,計算屬于這幾個事件的概率(和)篷帅,計算這幾個事件同時發(fā)生的概率(交)
獨立事件:概率相乘
互斥事件:乘法公式
3、條件概率:可以通過你想要的概率的多個列的分組匯總后的交叉表擴展列拴泌,來計算某條件下的概率
4魏身、貝葉斯公式:要發(fā)生情況的概率/所有可能發(fā)生這件事的各種情況加總
離散型隨機變量
數(shù)學(xué)期望=可能出現(xiàn)的數(shù)值(x)×權(quán)重(各自概率)
多個數(shù)值的總期望等于這些的求和
離散型隨機變量方差 =(可能出現(xiàn)的數(shù)值(x)-總期望)2×權(quán)重(各自概率)的求和
二元離散概率分布:兩列數(shù)據(jù)做交叉表然后計數(shù),顯示為標準化百分比
二元離散聯(lián)合概率分布計算:s=x+y,將各自數(shù)字下的值歸類加總到一起
二元相關(guān)系數(shù)=二元協(xié)方差/x標準差*y標準差
二元線性組合的數(shù)學(xué)期望= a × x的期望+b×y的期望
還可以二元線性組合的期望方差var(a×x期望+b×y期望)公式可查
各種離散分布類型的性質(zhì)下蚪腐,可以用不同的公式計算箭昵,N次中有多少種方式可以得到成功x次的方法(排列組合)、第x次成功的概率(概率函數(shù))以及數(shù)學(xué)期望和方差

二項分布性質(zhì):
1回季、由一系列相同的N個試驗組成
2家制、每次只有兩種結(jié)果,可以稱為成功或失敗
3泡一、每次試驗成功或失敗的概率相同颤殴,可以用p和1-p表示
4、試驗相互獨立
比如:是或不是的問題
二項分布次數(shù)過大可以用正態(tài)分布計算鼻忠,這個值-0.5和+0.5的區(qū)間面積來近似涵但,小于這個值需要 -0.5修正,大于需要+0.5帖蔓,區(qū)間-0.5~+0.5矮瘟,計算標準差記得開根號 根號np(1-p)

泊松分布性質(zhì):
在任意兩個長度相同的區(qū)間上,發(fā)生的可能相同
各區(qū)間發(fā)生的可能性獨立
期望=方差
比如:n分鐘內(nèi)有x人到達

超幾何概率分布使用情況:
每次試驗不獨立塑娇,成功概率不等
比如:N個球中有a個紅球b個白球不放回抽樣 求概率期望和標準差

連續(xù)型概率分布
計算上:小于X就是等于X

均勻概率分布:
(1/區(qū)間總寬度)×你想要計算的寬度 = 概率
比如120~140之間 概率為1/20澈侠,要計算16~19之間的概率,就是(1/20) × (19-16)
密度函數(shù)1/(b-a)
期望埋酬;(A+B)/2 ,方差=((b-a)^2)/12 ,標準差:開根號

正態(tài)分布:
計算時可以轉(zhuǎn)為標準正態(tài)分布
z=個人認為也可以解釋為變動比例哨啃,百分比烧栋,或概率
x=所帶入計算的實際值
指數(shù)概率分布:
泊松分布是區(qū)間內(nèi)X次的概率,只需要均值
指數(shù)分布是時間段內(nèi)發(fā)生的概率(累積)棘催,需要用單位時間

抽樣分布

抽樣分布指的是在沒法獲取整個所有數(shù)據(jù)集的情況下劲弦,用部分的隨機數(shù)據(jù)進行估計,需要保證抽取的是隨機的醇坝,估計的時候需要用另外但類似的公式算均值標準差和比例標準差邑跪。結(jié)果是可以算出一個可信度為x%的一個估計區(qū)域

區(qū)間估計

在抽樣估計的情況下可以設(shè)定一個可信度區(qū)間(置信區(qū)間),然后算出它的誤差呼猪,給出均值和比例的區(qū)間画畅;或者設(shè)定置信區(qū)間和可接受的邊際誤差,求所需樣本數(shù)量
已知總體標準差:按公式算就行了
不知道總體標準差的情況:把公式里的換成t分布公式宋距,自由度為樣本數(shù)量n-1

假設(shè)檢驗

做出一種假設(shè)和整個假設(shè)相反的假設(shè)轴踱,然后代入公式
H0:備受質(zhì)疑的命題
H1:有待驗證的問題
顯著水平一般設(shè)定為0.05 or 0.01

第一種錯誤:結(jié)論是對的,但是它錯了的概率
直接套公式谚赎,小于直接計算查表(下側(cè)概率)淫僻,大于1-查表值(上側(cè)概率),雙側(cè)是單側(cè)*2=p-值
負的就是小于壶唤,正的就是大于,預(yù)測失誤率小于顯著水平雳灵,就同意小于或者大于,失誤率小于顯著水平即是不等于
顯著性水平=可接受的錯誤概率闸盔,判斷的是H1的錯誤率
已知和未知與之前一樣悯辙,未知把總標準差換成樣本標準差,查表為t分布表迎吵,自由度為n-1
例:找到研究報告后躲撰,自己抽樣來驗證研究報告是否適用于自己的業(yè)務(wù)

第二種錯誤:結(jié)論是錯的,但它對了的概率
計算時击费,需要先計算出z的拒絕規(guī)則拢蛋,大于或者小于某個值就拒絕,然后再反求出臨界值蔫巩,然后再用均值和這個臨界值按第一種錯誤計算

依舊可以確定假設(shè)檢驗的樣本容量

二總體均值和比例的推斷

用于標準和所要對比的樣本之間的區(qū)間估計和假設(shè)檢驗瓤狐,
兩個不同的樣本量標準差之間的比較
計算方法變了公式之后基本同上,D通常假設(shè)為0
例子上大多用在質(zhì)檢和計算機計算辨別

十一批幌、總體方差的統(tǒng)計推斷

可以用來計算同一總體和不同總體兩樣本不同的數(shù)量和方差下,他們的區(qū)間估計和他們之間是否顯著和比較誤差嗓节,計算二方差的假設(shè)檢驗統(tǒng)計量時較大的為分子荧缘,計算F差異時,小于查表F值就是無差異大于就有
s為方差給出標準差時計算記得平方拦宣,答案如果算的是方差要標準差的區(qū)間記得開根號

十二截粗、多個比例信姓、獨立性檢驗、擬合優(yōu)度檢驗

三個或多個比例相等的檢驗:(觀察頻數(shù)-期望頻數(shù))^2/期望頻數(shù)
成對比較的話绸罗,pi-pj的絕對值小于臨界值就是不顯著意推,大于就是顯著
獨立性檢驗:小于就是不獨立,大于就是獨立
擬合優(yōu)度:檢測是否服從正態(tài)分布珊蟀,可以用ks檢驗代替

十四菊值、簡單線性回歸

簡單線性回歸方程:截距+系數(shù)*斜率

判定系數(shù):
SSE(誤差平方和):(原值-預(yù)測值)的平方加總
SST(總的平方和):(原值-均值)的平方加總
SSR(回歸平方和):(預(yù)測值-均值)的平方加總
SST = SSR+SSE
R^2=SSR/SST

相關(guān)系數(shù):
等于回歸方程的斜率的正負號 根號r^2

   顯著性檢驗:SSE/(n-2)

以及其他檢驗方式
區(qū)間估計可以確定線性回歸的誤差范圍,在什么值以內(nèi)可以使用育灸,越窄的越精準

殘差分析:數(shù)值方法確定異常值腻窒,有些異常點是正常的不可以被清除,殘差圖就是正態(tài)化的散點圖
十五磅崭、多元回歸
類似簡單線性回歸儿子,用于多個變量的回歸分析
邏輯斯提回歸,提供兩個點的區(qū)間砸喻,可以知道機會比率(在某個變量下柔逼,一個值的機會比是另一個的x倍)
十六、回歸分析

交互作用:可以通過增加一個含有兩個預(yù)測變量的二階模型來確定因變量與哪個更有關(guān)
可以通過對數(shù)或者倒數(shù)的方法來減少非常數(shù)方差割岛,穩(wěn)定波動減少數(shù)值大小
計算相關(guān)矩陣后愉适,對于任意兩個變量,系數(shù)的絕對值大于0.7蜂桶,多重共線性會對結(jié)果產(chǎn)生影響
可以使用杜賓瓦特森方法來檢驗是否自相關(guān)儡毕,值越小越相關(guān)
十七、時間序列
無論使用什么樣的預(yù)測方法扑媚,都不能獲得理想的預(yù)測結(jié)果
時間序列的模式:
水平模式:圍繞一個平均值上下波動
趨勢模式:有波動的狀態(tài)腰湾,但會隨著時間變化逐步提高或個降低
季節(jié)模式:周期模式
趨勢季節(jié)模式:同周期性的趨勢模式
預(yù)測精度:
MAPE(百分數(shù)預(yù)測誤差的絕對值的平均數(shù))
消除時間序列的平滑方法:
移動平均法:最近K期數(shù)據(jù)之和/K
加權(quán)移動平均法:例如:k-3是六分之一權(quán)重,k-2是六分之二權(quán)重疆股,k-1期是六分之三權(quán)重
指數(shù)平滑法:t+1期的預(yù)測值 = 平滑常數(shù)t期實際值+(1-平滑常數(shù))t期實際值)
線性趨勢回歸:就是線性回歸
非線性趨勢回歸:截距*(斜率)^t次方
季節(jié)趨勢要消除季節(jié)影響經(jīng)過季節(jié)指數(shù)計算

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末费坊,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子旬痹,更是在濱河造成了極大的恐慌附井,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件两残,死亡現(xiàn)場離奇詭異永毅,居然都是意外死亡,警方通過查閱死者的電腦和手機人弓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進店門沼死,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人崔赌,你說我怎么就攤上這事意蛀∷时穑” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵县钥,是天一觀的道長秀姐。 經(jīng)常有香客問我,道長若贮,這世上最難降的妖魔是什么省有? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮兜看,結(jié)果婚禮上锥咸,老公的妹妹穿的比我還像新娘。我一直安慰自己细移,他們只是感情好搏予,可當我...
    茶點故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著弧轧,像睡著了一般雪侥。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上精绎,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天速缨,我揣著相機與錄音,去河邊找鬼代乃。 笑死旬牲,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的搁吓。 我是一名探鬼主播原茅,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼堕仔!你這毒婦竟也來了擂橘?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤摩骨,失蹤者是張志新(化名)和其女友劉穎通贞,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體恼五,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡昌罩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了灾馒。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片峡迷。...
    茶點故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出绘搞,到底是詐尸還是另有隱情,我是刑警寧澤傅物,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布夯辖,位于F島的核電站,受9級特大地震影響董饰,放射性物質(zhì)發(fā)生泄漏蒿褂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一卒暂、第九天 我趴在偏房一處隱蔽的房頂上張望啄栓。 院中可真熱鬧,春花似錦也祠、人聲如沸昙楚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽堪旧。三九已至,卻和暖如春奖亚,著一層夾襖步出監(jiān)牢的瞬間淳梦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工昔字, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留爆袍,地道東北人。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓作郭,卻偏偏與公主長得像陨囊,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子所坯,可洞房花燭夜當晚...
    茶點故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容