統(tǒng)計學(xué)筆記1:數(shù)據(jù)與圖形描述

記錄了一些基本概念的定義。

1. 數(shù)據(jù)

基本定義

數(shù)據(jù)(data):描述和解釋所搜集仲智,分析屡萤,匯總的事實和數(shù)字。
數(shù)據(jù)集(data set):用于特定研究而搜集的所有數(shù)據(jù)贫堰。
個體(element):搜集數(shù)據(jù)的實體穆壕。
變量(variable):個體中感興趣的特征。
觀測值(observation):對某一特定個體得到的測量值集合其屏。

觀測值個數(shù) = 測量值個數(shù)
數(shù)據(jù)項總數(shù) = 個體個數(shù) * 變量總數(shù)

四種測量尺度(measure scale):

名義尺度(nominal scale):變量的數(shù)據(jù)包含了用來識別個體屬性的標(biāo)記或者名稱時的測量尺度喇勋。
順序尺度(ordinal scale):數(shù)據(jù)具有名義數(shù)據(jù)的性質(zhì),并且數(shù)據(jù)的順序或者等級的意義明確時的測量尺度偎行。
間隔尺度(interval scale):數(shù)據(jù)具有順序數(shù)據(jù)的所有性質(zhì)川背,并且可以按照某一固定度量單位來表示數(shù)值間的間隔時的測量尺度贰拿。
比率尺度(ratio scale):數(shù)據(jù)具有間隔數(shù)據(jù)的所有性質(zhì),并且兩個數(shù)值之間的比是有意義的時的測量尺度熄云。

數(shù)據(jù)類型:

分類型數(shù)據(jù)(categorical data):歸屬于類別的數(shù)據(jù)膨更。
數(shù)量型數(shù)據(jù)(quantitative data):用于表示大小或者多少的數(shù)值。

截面數(shù)據(jù)(cross-sectional data):相同或者近似相同的同一時點上搜集的數(shù)據(jù)缴允。
時間序列數(shù)據(jù)(time series data):幾個時期內(nèi)搜集的數(shù)據(jù)荚守。

統(tǒng)計推斷

總體(population):特定研究中所有感興趣的個體組成的集合。
樣本(sample):總體的子集练般。
普查(census):搜集總體全部數(shù)據(jù)的調(diào)查過程矗漾。
抽樣調(diào)查(sample survey):搜集樣本數(shù)據(jù)的調(diào)查過程蝗砾。
統(tǒng)計推斷(statistical inference):利用樣本數(shù)據(jù)對總體特征進(jìn)行估計和假設(shè)檢驗饿序。

邏輯分析方法

描述性分析(descriptive analysis):包含描述過去發(fā)生狀況的分析技術(shù)集合。
預(yù)測性分析(predictive analytics):包含利用過去數(shù)據(jù)建立的模型來預(yù)測未來或者評估一個變量對另一個變量的影響的分析技術(shù)心褐。
規(guī)范性分析(prescriptive analytics):產(chǎn)生一個最佳行動過程的分析技術(shù)集合摄职。在一組約束條件下產(chǎn)生最大或最小目標(biāo)解決方案的優(yōu)化模型屬于規(guī)范性模型誊役。

2. 圖形描述:

數(shù)據(jù)可視化(data visualization):匯總和表述一個數(shù)據(jù)集信息的圖形。

頻數(shù)分布:分類型數(shù)據(jù)

頻數(shù)分布(frequency distribution):數(shù)據(jù)的表格匯總方法琳钉,表示在幾個互不重疊的組別中每一個項目的個數(shù)。


相對頻數(shù)

條形圖(bar chart):描述已經(jīng)匯總的頻數(shù)分布信息蛛倦。


bar chart

餅狀圖(pie chart):描述相對頻數(shù)和百分?jǐn)?shù)頻數(shù)分布的圖形方法歌懒。
pie chart

頻數(shù)分布:數(shù)量型數(shù)據(jù)

確定頻數(shù)分布值的三個步驟:

  • 確定互不重疊組的組數(shù)
  • 確定每組的寬度
  • 確定組限


    組寬bin

    打點圖(dot plot):展示數(shù)據(jù)的細(xì)節(jié),有利于比較兩個或者更多變量的數(shù)據(jù)分布溯壶。


    dot plot

    直方圖(histogram):提供了分布形態(tài)的信息及皂。
    histogram

累積頻數(shù)分布(cumlative frequency distribution):就是將各類別的頻數(shù)逐級累加起來進(jìn)行的統(tǒng)計。圖形與上類似且改。

莖葉顯示(stem-and-leaf display):同時用于顯示數(shù)據(jù)的等級排序和分布形態(tài)的圖形顯示验烧。


stem-and-leaf

莖葉顯示的優(yōu)點:

  • 莖葉顯示易于用手繪制。
  • 在一個組內(nèi)又跛,莖葉顯示提供了實際的數(shù)據(jù)值碍拆,因此莖葉顯示比直方圖提供更多的信息。

表格匯總

交叉分組表(crosstabulation):一種匯總兩個變量數(shù)據(jù)的方法慨蓝。
辛普森悖論(Simpson's paradox):依據(jù)綜合和未綜合數(shù)據(jù)得到的相反結(jié)論感混。
當(dāng)交叉分組表包括綜合數(shù)據(jù)時,應(yīng)當(dāng)審查是否可能存在影響結(jié)論的隱藏變量礼烈,使得分開的或未綜合交叉分組表提供不同的弧满,可能更好的見解和理論。

圖形匯總

散點圖(scatter plot):兩個數(shù)量變量間關(guān)系的圖形描述此熬。
趨勢線(trendline):顯示相關(guān)性近似程度的一條直線庭呜。


scatter plot

復(fù)合條形圖(side-by-side bar chart):對已匯總的多個條形圖同時顯示的一種圖形方法滑进。


side-by-side bar chart

結(jié)構(gòu)條形圖(stacked chart):每個長條被分解成不同顏色的矩形段,以與餅狀圖類似的方法顯示每一組的相對頻數(shù)募谎。


stacked chart

數(shù)據(jù)可視化工具使用最廣泛:數(shù)據(jù)儀表板(data dashboard)扶关。

參考及引用資料

本人不會將以下資料用于商業(yè)用途并對其于自己的幫助表示由衷的感謝。

  • << Statistics for Business and Econimics>>
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末近哟,一起剝皮案震驚了整個濱河市驮审,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌吉执,老刑警劉巖疯淫,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異戳玫,居然都是意外死亡熙掺,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進(jìn)店門咕宿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來币绩,“玉大人,你說我怎么就攤上這事府阀±铝停” “怎么了?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵试浙,是天一觀的道長董瞻。 經(jīng)常有香客問我,道長田巴,這世上最難降的妖魔是什么钠糊? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮壹哺,結(jié)果婚禮上抄伍,老公的妹妹穿的比我還像新娘。我一直安慰自己管宵,他們只是感情好截珍,可當(dāng)我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著箩朴,像睡著了一般笛臣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上隧饼,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天沈堡,我揣著相機與錄音,去河邊找鬼燕雁。 笑死诞丽,一個胖子當(dāng)著我的面吹牛鲸拥,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播僧免,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼刑赶,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了懂衩?” 一聲冷哼從身側(cè)響起撞叨,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎浊洞,沒想到半個月后牵敷,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡法希,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年枷餐,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片苫亦。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡毛肋,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出屋剑,到底是詐尸還是另有隱情润匙,我是刑警寧澤,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布唉匾,位于F島的核電站孕讳,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏肄鸽。R本人自食惡果不足惜卫病,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一油啤、第九天 我趴在偏房一處隱蔽的房頂上張望典徘。 院中可真熱鬧,春花似錦益咬、人聲如沸逮诲。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽梅鹦。三九已至,卻和暖如春冗锁,著一層夾襖步出監(jiān)牢的瞬間齐唆,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工冻河, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留箍邮,地道東北人茉帅。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像锭弊,于是被迫代替她去往敵國和親堪澎。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,697評論 2 351