如何理解統(tǒng)計(jì)學(xué)這種思維方式之DCOV

《商務(wù)統(tǒng)計(jì)學(xué)》戴維-萊文

翻開書的一瞬間秒懂箭阶,這是我一直想要找的統(tǒng)計(jì)學(xué)書藉。

他不但講知識(shí)谚殊,重要的是,站在整個(gè)數(shù)據(jù)工作流程上蛤铜,給出一套完整的框架嫩絮,給所有的知識(shí)點(diǎn)找到了安放的位置丛肢。

符合我們面對(duì)工具、知識(shí)的一般理解邏輯:是什么剿干?怎么用蜂怎?為什么雖然重要,但卻不是當(dāng)下最重要的置尔。

在此之前已經(jīng)看了好幾本統(tǒng)計(jì)學(xué)相關(guān)的知識(shí)杠步,知識(shí)點(diǎn)大概都知道了,但仍然不知道怎么用榜轿,有什么用幽歼,仿佛空有內(nèi)力,但沒有招式一般谬盐,與人切磋仍然只會(huì)蠻干甸私。

什么是統(tǒng)計(jì)學(xué)?

統(tǒng)計(jì)學(xué)是一種思維方式飞傀,包含一系列處理數(shù)據(jù)的方法皇型,能幫助我們判斷事件的發(fā)生、數(shù)據(jù)的差異是偶然的砸烦,還是具有顯著意義的弃鸦,以便更好的做出決策。

如何更好的理解統(tǒng)計(jì)學(xué)這種思維方式幢痘?

通過(guò)一個(gè)框架將統(tǒng)計(jì)學(xué)的各種任務(wù)組織起來(lái)唬格。

一個(gè)框架(DCOVA

  • 定義(Define)解決問(wèn)題所需研究的變量,這些變量有助于解決問(wèn)題或?qū)崿F(xiàn)目標(biāo)雪隧。
  • 從適當(dāng)?shù)臄?shù)據(jù)源收集(Collect)數(shù)據(jù)西轩。
  • 創(chuàng)建表格對(duì)收集到的數(shù)據(jù)進(jìn)行整理(Organize)。
  • 創(chuàng)建圖形使整理出來(lái)的數(shù)據(jù)更加可視化(Visualize)脑沿。
  • 分析(Analyse)數(shù)據(jù)得出結(jié)論并進(jìn)行演示藕畔。

在使用DCOVA之前,需要先定義問(wèn)題庄拇,確定一個(gè)研究目的是定義問(wèn)題結(jié)束的標(biāo)志注服。

在DCOVA中,首先需要完成DC獲取有意義的結(jié)果措近,OVA的執(zhí)行順序則不固定溶弟,根據(jù)實(shí)際需要執(zhí)行。

如何定義問(wèn)題瞭郑?

如何定義變量辜御?

  • 那什么叫變量?

    有助于分辨?zhèn)€人或事物的特征屈张。

  • 數(shù)據(jù)的定義是什么擒权?

    與變量相關(guān)的各個(gè)值的集合袱巨。

  • 如何定義變量?

    對(duì)每個(gè)感興趣的問(wèn)題碳抄,需要提供可操作的定義愉老,即對(duì)所有與分析相關(guān)的人而言該定義是明顯普遍接受的含義。

    為此剖效,需要先劃分變量類型:

    1. 屬性變量(定性變量)

      分類的不同類型嫉入。

    2. 數(shù)值變量(定量變量)

      通過(guò)計(jì)數(shù)或測(cè)量所得到的值。

      • 離散變量:計(jì)數(shù)所得璧尸。
      • 連續(xù)變量:測(cè)量所得咒林。注意,測(cè)量單位與精確程度是連續(xù)變量的可操作定義的一部分逗宁。

收集數(shù)據(jù)需要注意什么映九?

  1. 注意區(qū)分?jǐn)?shù)據(jù)來(lái)源

    數(shù)據(jù)來(lái)源可分為原始數(shù)據(jù)來(lái)源(一手)和二手?jǐn)?shù)據(jù)來(lái)源。

  2. 辨別收集的數(shù)據(jù)是來(lái)自總體還是樣本

    分析一個(gè)總體的數(shù)據(jù)時(shí)瞎颗,需要計(jì)算參數(shù)件甥。

    分析來(lái)自樣本的數(shù)據(jù)時(shí),需要計(jì)算統(tǒng)計(jì)量哼拔。

  3. 數(shù)據(jù)可能是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)

  4. 同樣的數(shù)據(jù)可能是不同的電子格式引有,或不同的編碼方式

  5. 數(shù)據(jù)清理

    異常值,對(duì)于屬性變量是未定義的值倦逐,對(duì)于數(shù)值變量是不可能值譬正。

    缺失值,由于某種原因無(wú)法收集到的值檬姥。

  6. 重新編碼數(shù)據(jù)

    可能需要考慮將屬性變量的類別重新劃分曾我,或?qū)?shù)值變量劃分為分組轉(zhuǎn)化為屬性變量。

    特別注意健民,為新的變量提供可操作定義抒巢,每個(gè)數(shù)據(jù)的值只能被分配到一個(gè)類別,即互斥秉犹,且新產(chǎn)變量應(yīng)包含所有的數(shù)據(jù)蛉谜,即完備

抽樣方法類別

  • 抽樣框

    1. 概率樣本

      凡有可能都應(yīng)該使用概率樣本崇堵,唯有概率樣本才可以對(duì)總體進(jìn)行統(tǒng)計(jì)推斷型诚。

      簡(jiǎn)單隨機(jī)樣本、系統(tǒng)樣本鸳劳、分層樣本狰贯、聚類樣本。

    2. 非概率樣本

      便利樣本、判斷樣本暮现。

調(diào)查誤差的類型

  • 調(diào)查是收集數(shù)據(jù)的主要方式之一还绘。要識(shí)別調(diào)查的客觀性/可信度楚昭。

    1.評(píng)價(jià)調(diào)查目的:為什么進(jìn)行調(diào)查栖袋?調(diào)查為誰(shuí)而做?

    2.調(diào)查是基于概率樣本還是非概率樣本抚太?

    3.即使使用概率樣本塘幅,調(diào)查也可能存在潛在誤差

    • 覆蓋面誤差(導(dǎo)致選擇性偏差)
    • 無(wú)回復(fù)誤差(或低回復(fù)率)
    • 抽樣誤差
    • 測(cè)量誤差

如何整理數(shù)據(jù)?

  1. 整理性屬性變量

    將值按不同類別計(jì)數(shù)尿贫、計(jì)算百分比电媳。

    總結(jié)表、列聯(lián)表

  2. 整理數(shù)值變量

    有序數(shù)組庆亡、頻數(shù)分布匾乓、頻率分布、百分比分布又谋、累積百分比分布

如何可視化數(shù)據(jù)拼缝?

用什么圖形進(jìn)行可視化,取決于我們的目的彰亥。

  1. 屬性變量可視化

    • 條形圖咧七,各類別之間進(jìn)行比較。
    • 餅圖任斋,觀察各類別在總體中的占比继阻。
    • 帕累托圖,當(dāng)數(shù)據(jù)主要集中在少數(shù)幾個(gè)類別中時(shí)废酷。
    • 對(duì)比條形圖瘟檩,對(duì)兩個(gè)屬性(變量)進(jìn)行比較時(shí)。
  2. 數(shù)值變量可視化

    • 單個(gè)數(shù)值變量

      1. 莖葉圖澈蟆。

      2. 直方圖墨辛,X軸數(shù)值變量,Y軸觀測(cè)值的頻數(shù)/頻率丰介。

      3. 百分比多邊形圖背蟆,X軸為組中值、Y軸為百分比哮幢。

      4. 累積百分比多邊形圖带膀,X軸為組下限,Y軸為百分比橙垢。

    • 兩個(gè)值變量

      1. 時(shí)間序列圖
      2. 散點(diǎn)圖
  3. 一組變量的整理和可視化

    • 多維列聯(lián)表
    • 數(shù)據(jù)發(fā)現(xiàn):向下鉆取垛叨、樹狀圖

準(zhǔn)奏構(gòu)造圖表的恰當(dāng)做法

1.使用簡(jiǎn)單圖形;

2.包含標(biāo)題;

3.標(biāo)明所有的軸嗽元;

4.如果圖表包含軸敛纲,每個(gè)軸標(biāo)明刻度;

5.縱軸從0開始剂癌;

6.使用固定比例尺淤翔;

7.不使用3D特效;

8.不使用花哨圖表佩谷。

如何分析數(shù)據(jù)旁壮?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市谐檀,隨后出現(xiàn)的幾起案子抡谐,更是在濱河造成了極大的恐慌,老刑警劉巖桐猬,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件麦撵,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡溃肪,警方通過(guò)查閱死者的電腦和手機(jī)免胃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)乍惊,“玉大人杜秸,你說(shuō)我怎么就攤上這事∪笠铮” “怎么了撬碟?”我有些...
    開封第一講書人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)莉撇。 經(jīng)常有香客問(wèn)我呢蛤,道長(zhǎng),這世上最難降的妖魔是什么棍郎? 我笑而不...
    開封第一講書人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任其障,我火速辦了婚禮,結(jié)果婚禮上涂佃,老公的妹妹穿的比我還像新娘励翼。我一直安慰自己,他們只是感情好辜荠,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開白布汽抚。 她就那樣靜靜地躺著,像睡著了一般伯病。 火紅的嫁衣襯著肌膚如雪造烁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,462評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音惭蟋,去河邊找鬼苗桂。 笑死,一個(gè)胖子當(dāng)著我的面吹牛告组,可吹牛的內(nèi)容都是我干的煤伟。 我是一名探鬼主播,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼惹谐,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼持偏!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起氨肌,我...
    開封第一講書人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎酌畜,沒想到半個(gè)月后怎囚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡桥胞,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年恳守,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片贩虾。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡催烘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出缎罢,到底是詐尸還是另有隱情伊群,我是刑警寧澤,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布策精,位于F島的核電站舰始,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏咽袜。R本人自食惡果不足惜丸卷,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望询刹。 院中可真熱鬧谜嫉,春花似錦、人聲如沸凹联。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)匕垫。三九已至僧鲁,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背寞秃。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工斟叼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人春寿。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓朗涩,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親绑改。 傳聞我的和親對(duì)象是個(gè)殘疾皇子谢床,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容