做指標(biāo)管理俱箱、數(shù)據(jù)分析已經(jīng)2年了国瓮,工作已經(jīng)慢慢有了套路,但對(duì)于數(shù)據(jù)的應(yīng)用基本上還處于各單位分析狞谱,而我來匯總的初級(jí)階段乃摹。對(duì)于數(shù)據(jù)的有效性核查基本也只能靠直覺,靠熟悉程度跟衅,經(jīng)驗(yàn)的經(jīng)歷是一定的孵睬,但成長的速度可真的是看不見的慢。為了讓自己有提升專業(yè)能力伶跷,提高對(duì)數(shù)據(jù)的分析應(yīng)用掰读,本年的自我提升特別加入了專業(yè)的學(xué)習(xí),而且特別制定了第一階段90天數(shù)據(jù)分析能力提升入門計(jì)劃叭莫,簡單來說就要增加輸入蹈集,同時(shí)以輸出倒逼輸入。
90天數(shù)據(jù)分析能力提升計(jì)劃
輸入:
專業(yè)的書籍——統(tǒng)計(jì)雇初、數(shù)據(jù)分析
系統(tǒng)的培訓(xùn)——數(shù)說1-3季
工具的學(xué)習(xí)——透視表拢肆、儀表盤
公眾號(hào)、微博
輸出:
10篇讀書筆記
1個(gè)改進(jìn)項(xiàng)目
1項(xiàng)專項(xiàng)分析報(bào)告
指標(biāo)儀表盤初稿
學(xué)習(xí)數(shù)據(jù)分析,統(tǒng)計(jì)學(xué)可謂是必學(xué)的知識(shí)之一善榛。相對(duì)于其他的統(tǒng)計(jì)學(xué)書籍,各種正態(tài)分布呻畸、卡方分布移盆、T分布的晦澀概念,《極簡統(tǒng)計(jì)學(xué)》的內(nèi)容沒有那么的學(xué)術(shù)化伤为,案例也貼合工作咒循、生活,整個(gè)篇幅也就200頁绞愚,并且每章后都有練習(xí)題叙甸,非常適合統(tǒng)計(jì)學(xué)初學(xué)者自學(xué)。下面記錄一下自己讀書的一些關(guān)鍵點(diǎn)及啟示位衩。
一裆蒸、幾個(gè)重要的統(tǒng)計(jì)概念
1.統(tǒng)計(jì)、概率的區(qū)別
統(tǒng)計(jì)是對(duì)過去事件的概述
概率是對(duì)于未來將發(fā)生事件的描述
2.樣本——母體
樣本就是我們平時(shí)可以獲取的數(shù)據(jù)糖驴。
母體就是藏在少數(shù)樣本后的龐大的全部數(shù)據(jù)僚祷。
3.平均值——就是直方圖的平衡支點(diǎn),主要作用是抵消偶然的數(shù)據(jù)分散贮缕、得出與實(shí)際值接近的值
直方圖就是數(shù)據(jù)的分組頻次辙谜,很直觀,但不便于口頭的交流感昼,而且需要很大的空間装哆,因此引入平均值。
樣本均值——總體均值:觀測的數(shù)據(jù)越多定嗓,樣本均值接近總體均值的可能性越大蜕琴。
電力系統(tǒng)里的平均值都是常見的是總體均值,如戶均配變?nèi)萘肯Α⒖蛻羝骄k姇r(shí)間奸绷、平均售電單價(jià)。
4.方差层玲、標(biāo)準(zhǔn)差——主要作用是表明數(shù)據(jù)的分散和波動(dòng)号醉,搞清楚數(shù)據(jù)的分散程度。
引子:看看下面2組數(shù)據(jù)
100 200 平均值150
140 160 平均值150
這兩組數(shù)據(jù)僅用平均值衡量辛块,明顯不合理畔派。
再來一個(gè)書中的例子
所有引入方差、標(biāo)準(zhǔn)差來表明數(shù)據(jù)的分散和波動(dòng)润绵,通過標(biāo)準(zhǔn)差就能衡量是否是特殊的數(shù)據(jù)线椰。以沖浪為例,平均值就是平靜的海水平面尘盼,而標(biāo)準(zhǔn)差就是浪涌的激烈程度憨愉。
樣本方差就是各樣本偏差平方再取平均值烦绳。
二、重要應(yīng)用:
1.如何比較股票的優(yōu)劣呢配紫?——夏普比率
電網(wǎng)企業(yè)的數(shù)據(jù)應(yīng)用啟示:可以計(jì)算各月售電量径密、停電時(shí)間;各設(shè)備類別的報(bào)廢資產(chǎn)凈值率躺孝、95598各類別投訴數(shù)量等分析指標(biāo)的標(biāo)準(zhǔn)差享扔、方差的指標(biāo),用于分析指標(biāo)是否異常植袍。
2.利用正態(tài)分布進(jìn)行預(yù)測——所謂95%的置信區(qū)間
一般正態(tài)分布:平均值為μ惧眠,標(biāo)準(zhǔn)差為σ。(標(biāo)準(zhǔn)正態(tài)分布平均值為0于个,標(biāo)準(zhǔn)值為1氛魁。)
(1)數(shù)據(jù)x是平均值為μ,標(biāo)準(zhǔn)差為σ的正態(tài)分布時(shí)厅篓,95%的預(yù)測命中區(qū)間的不等式為
電網(wǎng)企業(yè)的數(shù)據(jù)應(yīng)用啟示:可以根據(jù)歷史數(shù)據(jù)計(jì)算總體的均值和標(biāo)準(zhǔn)差呆盖,進(jìn)而計(jì)算95%的置信區(qū)間,做為數(shù)據(jù)收集贷笛、數(shù)據(jù)清理時(shí)的有效性檢查应又。
(2)已知母體為正態(tài)分布,標(biāo)準(zhǔn)差σ已知乏苦,平均值μ未知株扛,由觀察的數(shù)據(jù)來對(duì)μ進(jìn)行母體的區(qū)間估計(jì)。(實(shí)際情況較難實(shí)現(xiàn)標(biāo)準(zhǔn)差σ已知汇荐,可能出現(xiàn)的是機(jī)器生產(chǎn)已經(jīng)給定標(biāo)準(zhǔn)差)
電網(wǎng)企業(yè)的數(shù)據(jù)應(yīng)用啟示:可以用于精益項(xiàng)目改善的前后的現(xiàn)狀檢查及效果評(píng)估洞就。可以用于零售行業(yè)的銷售情況的測算掀淘、可以用于統(tǒng)計(jì)各人員的操作時(shí)間計(jì)算等等旬蟋。
3.利用T分布估算總體均值
T分布稱為“自由度n-1的t分布”。這個(gè)分布非常近似于正態(tài)分布革娄,主要通過計(jì)算樣本均值和樣本方差倾贰,來估算總體的均值。t分布是推論統(tǒng)計(jì)中最自然拦惋、最實(shí)用匆浙、最常用的方法。
4.利用卡方分布估算總體方差