記錄了一些基本概念的定義。
1. 數(shù)據(jù)
基本定義
數(shù)據(jù)(data):描述和解釋所搜集仲智,分析屡萤,匯總的事實和數(shù)字。
數(shù)據(jù)集(data set):用于特定研究而搜集的所有數(shù)據(jù)贫堰。
個體(element):搜集數(shù)據(jù)的實體穆壕。
變量(variable):個體中感興趣的特征。
觀測值(observation):對某一特定個體得到的測量值集合其屏。
觀測值個數(shù) = 測量值個數(shù)
數(shù)據(jù)項總數(shù) = 個體個數(shù) * 變量總數(shù)
四種測量尺度(measure scale):
名義尺度(nominal scale):變量的數(shù)據(jù)包含了用來識別個體屬性的標(biāo)記或者名稱時的測量尺度喇勋。
順序尺度(ordinal scale):數(shù)據(jù)具有名義數(shù)據(jù)的性質(zhì),并且數(shù)據(jù)的順序或者等級的意義明確時的測量尺度偎行。
間隔尺度(interval scale):數(shù)據(jù)具有順序數(shù)據(jù)的所有性質(zhì)川背,并且可以按照某一固定度量單位來表示數(shù)值間的間隔時的測量尺度贰拿。
比率尺度(ratio scale):數(shù)據(jù)具有間隔數(shù)據(jù)的所有性質(zhì),并且兩個數(shù)值之間的比是有意義的時的測量尺度熄云。
數(shù)據(jù)類型:
分類型數(shù)據(jù)(categorical data):歸屬于類別的數(shù)據(jù)膨更。
數(shù)量型數(shù)據(jù)(quantitative data):用于表示大小或者多少的數(shù)值。
截面數(shù)據(jù)(cross-sectional data):相同或者近似相同的同一時點上搜集的數(shù)據(jù)缴允。
時間序列數(shù)據(jù)(time series data):幾個時期內(nèi)搜集的數(shù)據(jù)荚守。
統(tǒng)計推斷
總體(population):特定研究中所有感興趣的個體組成的集合。
樣本(sample):總體的子集练般。
普查(census):搜集總體全部數(shù)據(jù)的調(diào)查過程矗漾。
抽樣調(diào)查(sample survey):搜集樣本數(shù)據(jù)的調(diào)查過程蝗砾。
統(tǒng)計推斷(statistical inference):利用樣本數(shù)據(jù)對總體特征進(jìn)行估計和假設(shè)檢驗饿序。
邏輯分析方法
描述性分析(descriptive analysis):包含描述過去發(fā)生狀況的分析技術(shù)集合。
預(yù)測性分析(predictive analytics):包含利用過去數(shù)據(jù)建立的模型來預(yù)測未來或者評估一個變量對另一個變量的影響的分析技術(shù)心褐。
規(guī)范性分析(prescriptive analytics):產(chǎn)生一個最佳行動過程的分析技術(shù)集合摄职。在一組約束條件下產(chǎn)生最大或最小目標(biāo)解決方案的優(yōu)化模型屬于規(guī)范性模型誊役。
2. 圖形描述:
數(shù)據(jù)可視化(data visualization):匯總和表述一個數(shù)據(jù)集信息的圖形。
頻數(shù)分布:分類型數(shù)據(jù)
頻數(shù)分布(frequency distribution):數(shù)據(jù)的表格匯總方法琳钉,表示在幾個互不重疊的組別中每一個項目的個數(shù)。
條形圖(bar chart):描述已經(jīng)匯總的頻數(shù)分布信息蛛倦。
餅狀圖(pie chart):描述相對頻數(shù)和百分?jǐn)?shù)頻數(shù)分布的圖形方法歌懒。
頻數(shù)分布:數(shù)量型數(shù)據(jù)
確定頻數(shù)分布值的三個步驟:
- 確定互不重疊組的組數(shù)
- 確定每組的寬度
-
確定組限
打點圖(dot plot):展示數(shù)據(jù)的細(xì)節(jié),有利于比較兩個或者更多變量的數(shù)據(jù)分布溯壶。
直方圖(histogram):提供了分布形態(tài)的信息及皂。
累積頻數(shù)分布(cumlative frequency distribution):就是將各類別的頻數(shù)逐級累加起來進(jìn)行的統(tǒng)計。圖形與上類似且改。
莖葉顯示(stem-and-leaf display):同時用于顯示數(shù)據(jù)的等級排序和分布形態(tài)的圖形顯示验烧。
莖葉顯示的優(yōu)點:
- 莖葉顯示易于用手繪制。
- 在一個組內(nèi)又跛,莖葉顯示提供了實際的數(shù)據(jù)值碍拆,因此莖葉顯示比直方圖提供更多的信息。
表格匯總
交叉分組表(crosstabulation):一種匯總兩個變量數(shù)據(jù)的方法慨蓝。
辛普森悖論(Simpson's paradox):依據(jù)綜合和未綜合數(shù)據(jù)得到的相反結(jié)論感混。
當(dāng)交叉分組表包括綜合數(shù)據(jù)時,應(yīng)當(dāng)審查是否可能存在影響結(jié)論的隱藏變量礼烈,使得分開的或未綜合交叉分組表提供不同的弧满,可能更好的見解和理論。
圖形匯總
散點圖(scatter plot):兩個數(shù)量變量間關(guān)系的圖形描述此熬。
趨勢線(trendline):顯示相關(guān)性近似程度的一條直線庭呜。
復(fù)合條形圖(side-by-side bar chart):對已匯總的多個條形圖同時顯示的一種圖形方法滑进。
結(jié)構(gòu)條形圖(stacked chart):每個長條被分解成不同顏色的矩形段,以與餅狀圖類似的方法顯示每一組的相對頻數(shù)募谎。
數(shù)據(jù)可視化工具使用最廣泛:數(shù)據(jù)儀表板(data dashboard)扶关。
參考及引用資料
本人不會將以下資料用于商業(yè)用途并對其于自己的幫助表示由衷的感謝。
- << Statistics for Business and Econimics>>