《商務(wù)統(tǒng)計(jì)學(xué)》戴維-萊文
翻開書的一瞬間秒懂箭阶,這是我一直想要找的統(tǒng)計(jì)學(xué)書藉。
他不但講知識(shí)谚殊,重要的是,站在整個(gè)數(shù)據(jù)工作流程上蛤铜,給出一套完整的框架嫩絮,給所有的知識(shí)點(diǎn)找到了安放的位置丛肢。
符合我們面對(duì)工具、知識(shí)的一般理解邏輯:是什么剿干?怎么用蜂怎?為什么雖然重要,但卻不是當(dāng)下最重要的置尔。
在此之前已經(jīng)看了好幾本統(tǒng)計(jì)學(xué)相關(guān)的知識(shí)杠步,知識(shí)點(diǎn)大概都知道了,但仍然不知道怎么用榜轿,有什么用幽歼,仿佛空有內(nèi)力,但沒有招式一般谬盐,與人切磋仍然只會(huì)蠻干甸私。
什么是統(tǒng)計(jì)學(xué)?
統(tǒng)計(jì)學(xué)是一種思維方式飞傀,包含一系列處理數(shù)據(jù)的方法皇型,能幫助我們判斷事件的發(fā)生、數(shù)據(jù)的差異是偶然的砸烦,還是具有顯著意義的弃鸦,以便更好的做出決策。
如何更好的理解統(tǒng)計(jì)學(xué)這種思維方式幢痘?
通過(guò)一個(gè)框架將統(tǒng)計(jì)學(xué)的各種任務(wù)組織起來(lái)唬格。
一個(gè)框架(DCOVA)
- 定義(Define)解決問(wèn)題所需研究的變量,這些變量有助于解決問(wèn)題或?qū)崿F(xiàn)目標(biāo)雪隧。
- 從適當(dāng)?shù)臄?shù)據(jù)源收集(Collect)數(shù)據(jù)西轩。
- 創(chuàng)建表格對(duì)收集到的數(shù)據(jù)進(jìn)行整理(Organize)。
- 創(chuàng)建圖形使整理出來(lái)的數(shù)據(jù)更加可視化(Visualize)脑沿。
- 分析(Analyse)數(shù)據(jù)得出結(jié)論并進(jìn)行演示藕畔。
在使用DCOVA之前,需要先定義問(wèn)題庄拇,確定一個(gè)研究目的是定義問(wèn)題結(jié)束的標(biāo)志注服。
在DCOVA中,首先需要完成DC獲取有意義的結(jié)果措近,OVA的執(zhí)行順序則不固定溶弟,根據(jù)實(shí)際需要執(zhí)行。
如何定義問(wèn)題瞭郑?
如何定義變量辜御?
-
那什么叫變量?
有助于分辨?zhèn)€人或事物的特征屈张。
-
數(shù)據(jù)的定義是什么擒权?
與變量相關(guān)的各個(gè)值的集合袱巨。
-
如何定義變量?
對(duì)每個(gè)感興趣的問(wèn)題碳抄,需要提供可操作的定義愉老,即對(duì)所有與分析相關(guān)的人而言該定義是明顯普遍接受的含義。
為此剖效,需要先劃分變量類型:
-
屬性變量(定性變量)
分類的不同類型嫉入。
-
數(shù)值變量(定量變量)
通過(guò)計(jì)數(shù)或測(cè)量所得到的值。
- 離散變量:計(jì)數(shù)所得璧尸。
- 連續(xù)變量:測(cè)量所得咒林。注意,測(cè)量單位與精確程度是連續(xù)變量的可操作定義的一部分逗宁。
-
收集數(shù)據(jù)需要注意什么映九?
-
注意區(qū)分?jǐn)?shù)據(jù)來(lái)源
數(shù)據(jù)來(lái)源可分為原始數(shù)據(jù)來(lái)源(一手)和二手?jǐn)?shù)據(jù)來(lái)源。
-
辨別收集的數(shù)據(jù)是來(lái)自總體還是樣本
分析一個(gè)總體的數(shù)據(jù)時(shí)瞎颗,需要計(jì)算參數(shù)件甥。
分析來(lái)自樣本的數(shù)據(jù)時(shí),需要計(jì)算統(tǒng)計(jì)量哼拔。
數(shù)據(jù)可能是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)
同樣的數(shù)據(jù)可能是不同的電子格式引有,或不同的編碼方式
-
數(shù)據(jù)清理
異常值,對(duì)于屬性變量是未定義的值倦逐,對(duì)于數(shù)值變量是不可能值譬正。
缺失值,由于某種原因無(wú)法收集到的值檬姥。
-
重新編碼數(shù)據(jù)
可能需要考慮將屬性變量的類別重新劃分曾我,或?qū)?shù)值變量劃分為分組轉(zhuǎn)化為屬性變量。
特別注意健民,為新的變量提供可操作定義抒巢,每個(gè)數(shù)據(jù)的值只能被分配到一個(gè)類別,即互斥秉犹,且新產(chǎn)變量應(yīng)包含所有的數(shù)據(jù)蛉谜,即完備。
抽樣方法類別
抽樣框
概率樣本
凡有可能都應(yīng)該使用概率樣本崇堵,唯有概率樣本才可以對(duì)總體進(jìn)行統(tǒng)計(jì)推斷型诚。
簡(jiǎn)單隨機(jī)樣本、系統(tǒng)樣本鸳劳、分層樣本狰贯、聚類樣本。
非概率樣本
便利樣本、判斷樣本暮现。
調(diào)查誤差的類型
調(diào)查是收集數(shù)據(jù)的主要方式之一还绘。要識(shí)別調(diào)查的客觀性/可信度楚昭。
1.評(píng)價(jià)調(diào)查目的:為什么進(jìn)行調(diào)查栖袋?調(diào)查為誰(shuí)而做?
2.調(diào)查是基于概率樣本還是非概率樣本抚太?
3.即使使用概率樣本塘幅,調(diào)查也可能存在潛在誤差
- 覆蓋面誤差(導(dǎo)致選擇性偏差)
- 無(wú)回復(fù)誤差(或低回復(fù)率)
- 抽樣誤差
- 測(cè)量誤差
如何整理數(shù)據(jù)?
-
整理性屬性變量
將值按不同類別計(jì)數(shù)尿贫、計(jì)算百分比电媳。
總結(jié)表、列聯(lián)表
-
整理數(shù)值變量
有序數(shù)組庆亡、頻數(shù)分布匾乓、頻率分布、百分比分布又谋、累積百分比分布
如何可視化數(shù)據(jù)拼缝?
用什么圖形進(jìn)行可視化,取決于我們的目的彰亥。
-
屬性變量可視化
- 條形圖咧七,各類別之間進(jìn)行比較。
- 餅圖任斋,觀察各類別在總體中的占比继阻。
- 帕累托圖,當(dāng)數(shù)據(jù)主要集中在少數(shù)幾個(gè)類別中時(shí)废酷。
- 對(duì)比條形圖瘟檩,對(duì)兩個(gè)屬性(變量)進(jìn)行比較時(shí)。
-
數(shù)值變量可視化
-
單個(gè)數(shù)值變量
莖葉圖澈蟆。
直方圖墨辛,X軸數(shù)值變量,Y軸觀測(cè)值的頻數(shù)/頻率丰介。
百分比多邊形圖背蟆,X軸為組中值、Y軸為百分比哮幢。
累積百分比多邊形圖带膀,X軸為組下限,Y軸為百分比橙垢。
-
兩個(gè)值變量
- 時(shí)間序列圖
- 散點(diǎn)圖
-
-
一組變量的整理和可視化
- 多維列聯(lián)表
- 數(shù)據(jù)發(fā)現(xiàn):向下鉆取垛叨、樹狀圖
準(zhǔn)奏構(gòu)造圖表的恰當(dāng)做法
1.使用簡(jiǎn)單圖形;
2.包含標(biāo)題;
3.標(biāo)明所有的軸嗽元;
4.如果圖表包含軸敛纲,每個(gè)軸標(biāo)明刻度;
5.縱軸從0開始剂癌;
6.使用固定比例尺淤翔;
7.不使用3D特效;
8.不使用花哨圖表佩谷。