0x00 前言
參加居士的數(shù)據(jù)挖掘?qū)W習(xí)小組凹嘲,按周產(chǎn)出筆記师倔,這周的學(xué)習(xí)內(nèi)容是 【數(shù)據(jù)的描述性統(tǒng)計(jì)】,按照居士的推薦周蹭,學(xué)習(xí)資料主要是【人人都會(huì)數(shù)據(jù)分析這本書(shū)】趋艘,這周的學(xué)習(xí)內(nèi)容主要集中在第三章
0x01 數(shù)據(jù)的類(lèi)型
從方便數(shù)據(jù)處理和分析的角度,常用的數(shù)據(jù)的分類(lèi)方式有三種
1凶朗、數(shù)據(jù)的結(jié)構(gòu)屬性分類(lèi)
按照數(shù)據(jù)的結(jié)構(gòu)數(shù)據(jù)瓷胧,數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)
- 結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)就是有一定結(jié)構(gòu)的數(shù)據(jù),能存儲(chǔ)在結(jié)構(gòu)化數(shù)據(jù)庫(kù)中棚愤,有字段元數(shù)據(jù)描述的數(shù)據(jù)搓萧,例如:我們常用的關(guān)系型數(shù)據(jù)庫(kù),mysql、oracle中的每張表存儲(chǔ)的就是結(jié)構(gòu)化數(shù)據(jù)
- 非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)是沒(méi)有統(tǒng)一的規(guī)則的數(shù)據(jù)矛绘,例如視頻耍休、圖像、文檔等
在數(shù)據(jù)處理的過(guò)程中货矮,我們一般處理結(jié)構(gòu)化數(shù)據(jù)羊精,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)我們也會(huì)提取特征去按照處理結(jié)構(gòu)化數(shù)據(jù)的方式處理,例如人臉識(shí)別囚玫,人臉圖像是非結(jié)構(gòu)化數(shù)據(jù)喧锦,但是我們可以提取人臉圖像的特性,例如:膚色抓督、眼睛大小燃少、臉形等特征形成結(jié)構(gòu)化數(shù)據(jù)處理
2囱井、數(shù)據(jù)的連續(xù)性特征分類(lèi)
按照連續(xù)性特征嘿架,數(shù)據(jù)可分類(lèi)位連續(xù)性數(shù)據(jù)和離散性數(shù)據(jù)
- 連續(xù)型數(shù)據(jù)
連續(xù)型數(shù)據(jù)理論上是可以在一定區(qū)間內(nèi)任意取值雕什,可以精確到任意小數(shù)位蹬癌,例如:每天的銷(xiāo)售額亏吝,這個(gè)數(shù)據(jù)就是連續(xù)的混埠,每天的銷(xiāo)售額可以精確到任意位數(shù)
- 離散型數(shù)據(jù)
離散型數(shù)據(jù)是隔斷的霉翔,數(shù)據(jù)之間不是連續(xù)的咖为,在一定區(qū)間內(nèi)揣炕,只能取固定的數(shù)值帘皿,例如:商城每天的人流量,這個(gè)數(shù)據(jù)是固定的整數(shù)畸陡,不可能是小數(shù)
3鹰溜、數(shù)據(jù)的測(cè)量尺度分類(lèi)
測(cè)量尺度指數(shù)據(jù)按一定的標(biāo)準(zhǔn)尺度測(cè)量得到數(shù)據(jù)的特征尺度,按照尺度的不同可以分為四類(lèi)
- 定類(lèi)數(shù)據(jù)
我們通過(guò)數(shù)據(jù)的某些特征丁恭,按照一定的尺度標(biāo)準(zhǔn)分為不同的類(lèi)別曹动,這類(lèi)數(shù)據(jù)我們可以分為定類(lèi)數(shù)據(jù),例如涩惑,按照學(xué)生的生源地仁期,我們可以按照一定的尺度(地域規(guī)則)將學(xué)生的來(lái)源分為南方和北方,活著東方和西方
- 定序數(shù)據(jù)
定序數(shù)據(jù)指按照一定的尺度竭恬,數(shù)據(jù)之間可以按照一定的順序排列跛蛋,例如:學(xué)生成績(jī),按照班級(jí)進(jìn)行排序痊硕,這些成績(jī)數(shù)據(jù)就可以定序了
- 定距數(shù)據(jù)
定距數(shù)據(jù)按照一定的尺度不僅能對(duì)數(shù)據(jù)進(jìn)行分類(lèi)赊级、排序還能看出數(shù)據(jù)的差距,例如:學(xué)生的成績(jī)岔绸,可以分為及格和不及格理逊,同樣可以按照名次排序橡伞,我們還可以看出未及格的學(xué)生成績(jī)距離及格線(xiàn)差多少分,及格的學(xué)生成績(jī)高于及格線(xiàn)多少分
所以定距數(shù)據(jù)比定類(lèi)和定序數(shù)據(jù)多了加減的描述
- 定比數(shù)據(jù)
定比數(shù)據(jù)是定據(jù)數(shù)據(jù)的特殊形式晋被,除了分類(lèi)兑徘、排序、加減性質(zhì)外羡洛,還有乘除性質(zhì)挂脑,例如:學(xué)生成績(jī),我們可以按照成績(jī)區(qū)間計(jì)算成績(jī)好和差的學(xué)生比例
數(shù)據(jù)的分類(lèi)方法有很多共通的地方欲侮,下圖是書(shū)中的一張總結(jié)圖崭闲,很好的說(shuō)明了數(shù)據(jù)類(lèi)型的關(guān)系
0x02 數(shù)據(jù)的描述性統(tǒng)計(jì)
雖然數(shù)據(jù)的分類(lèi)方法、類(lèi)型有很多威蕉,但是所有的結(jié)構(gòu)化數(shù)據(jù)都可以從三個(gè)維度進(jìn)行描述:集中趨勢(shì)描述刁俭、離散程度描述、分布形態(tài)描述
每個(gè)描述維度包含很多描述指標(biāo)韧涨,這些指標(biāo)適用于不同的數(shù)據(jù)類(lèi)型牍戚,也就是我們這周重點(diǎn)要了解的概念
1、數(shù)據(jù)的集中趨勢(shì)
- 眾數(shù)
眾數(shù)氓奈,從字面意思很好理解翘魄,就是最多的數(shù)鼎天,注意舀奶,如果數(shù)據(jù)集合中每個(gè)數(shù)的出現(xiàn)次數(shù)都一樣,那么這個(gè)數(shù)據(jù)集合沒(méi)有眾數(shù)
- 中位數(shù)
中位數(shù)斋射,同樣可以從字面意思理解育勺,就是最中間的數(shù),一堆數(shù)據(jù)有序排列罗岖,中位數(shù)左邊的數(shù)和右邊的數(shù)個(gè)數(shù)一樣涧至,如果一共有偶數(shù)個(gè)數(shù),中間的數(shù)有兩個(gè)桑包,取平均值
- 平均數(shù)
平均數(shù)包括算數(shù)平均數(shù)南蓬、加權(quán)平均數(shù)、幾何平均數(shù)
- 算數(shù)平均數(shù)
算數(shù)平均數(shù)是最常見(jiàn)的集中趨勢(shì)指標(biāo)哑了,即:數(shù)據(jù)集之和除以數(shù)據(jù)的個(gè)數(shù)
- 加權(quán)平均數(shù)
算數(shù)平均數(shù)是將每個(gè)數(shù)看作同樣重要赘方,有時(shí)候并不符合實(shí)際情況,所以給不同的數(shù)據(jù)賦予不同的權(quán)值計(jì)算出的平均數(shù)就是加權(quán)平均數(shù)弱左,例如:一個(gè)數(shù)據(jù)集合窄陡,有k種不同類(lèi)型,每組的算數(shù)平均數(shù)分別為x1-拆火、x2-跳夭、x3-涂圆。。币叹。xk-润歉,每組數(shù)據(jù)的個(gè)數(shù)為f1、f2颈抚、f3卡辰。。邪意。九妈,每組權(quán)重也是f1、f2雾鬼。萌朱。。,所以加權(quán)平均數(shù)為
m=\frac{f_{1} \overline{x}_{1}+f_{2} \overline{x}_{2}+\cdots+f_{k} \overline{x}_{k}}{f_{1}+f_{2}+\cdots f_{k}}
- 幾何平均數(shù)
算數(shù)平均數(shù)和加權(quán)平均數(shù)是計(jì)算加減關(guān)系的策菜,而有的數(shù)據(jù)并不是簡(jiǎn)單的加減關(guān)系晶疼,這時(shí)候就要用到幾何平均數(shù)了,假設(shè)有n個(gè)數(shù)據(jù)分別為x1又憨、x2翠霍、x3。蠢莺。寒匙。
例如:生產(chǎn)線(xiàn)上每部分的合格率,總的平均合格率是依賴(lài)每部分的合格率躏将,例如a部分合格率為80%锄弱,b部分合格率為90%,總的合格率為80%*90%然后開(kāi)方= 84.8%
- 分位數(shù)
分位數(shù)是中位數(shù)概念的擴(kuò)展祸憋,除了中位數(shù)会宪,最常見(jiàn)的就是四分位數(shù),即將數(shù)據(jù)集合排序蚯窥,在四分之一位置的就是第一四分位數(shù)掸鹅,在四分之二位置的就是第二四分位數(shù),也就是中位數(shù)拦赠,在四分之三位置的是第三四分位數(shù)
2巍沙、數(shù)據(jù)的離散趨勢(shì)
這里按照參考書(shū)【人人都會(huì)數(shù)據(jù)分析】的順序記錄
- 極差
即數(shù)據(jù)集的極大值和極小值的差值,又稱(chēng)為全距
- 平均偏差
平均偏差是指數(shù)據(jù)集中每個(gè)數(shù)距離平均數(shù)的平均差距矛紫,即每個(gè)數(shù)據(jù)距離平均數(shù)的偏差除以數(shù)據(jù)個(gè)數(shù)赎瞎,因?yàn)樗械钠罴悠饋?lái)是0,所以我們采用絕對(duì)值來(lái)計(jì)算颊咬,也可以將偏差理解為距離的概念务甥,即每個(gè)數(shù)據(jù)到平均數(shù)的平均距離
- 方差
平均偏差我們用到的是絕對(duì)值來(lái)消除負(fù)號(hào)的影響牡辽,我們還可以用到平方來(lái)消除負(fù)號(hào),這就是方差的概念敞临,即每個(gè)數(shù)據(jù)和平均數(shù)的平方和除以數(shù)據(jù)個(gè)數(shù)
- 標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差就是為了消除平方的影響态辛,將方差開(kāi)方
- 四分位差
四分位差是第一四分位數(shù)和第三四分位數(shù)的差值
- 離散系數(shù)
離散系數(shù)又稱(chēng)為變異系數(shù),指標(biāo)準(zhǔn)差比算數(shù)平均數(shù)挺尿,主要用來(lái)比較兩個(gè)數(shù)據(jù)集的離散程度奏黑,因?yàn)閿?shù)據(jù)的方差和標(biāo)準(zhǔn)差和數(shù)據(jù)本身的大小有關(guān),所以比較兩堆數(shù)據(jù)的標(biāo)準(zhǔn)差大小無(wú)法正確衡量?jī)啥褦?shù)據(jù)的離散程度大小编矾,所以閉上平均數(shù)就可以消除數(shù)據(jù)本身大小的影響來(lái)比較兩者的離散程度
- 異眾比率
異眾比率指整個(gè)數(shù)據(jù)集中非眾數(shù)的個(gè)數(shù)比數(shù)據(jù)個(gè)數(shù)
3熟史、分布形態(tài)描述
這里只學(xué)習(xí)了最常見(jiàn)的正態(tài)分布,以及描述分布狀態(tài)的兩個(gè)指標(biāo)
- 峰態(tài)系數(shù)
正太分布曲線(xiàn)像個(gè)山峰窄俏,峰態(tài)系數(shù)就是描述這個(gè)山峰平緩或陡峭的概念蹂匹,單峰分布可分為尖峰態(tài)、常峰態(tài)凹蜈、低峰態(tài)限寞,我們把正態(tài)分布做為標(biāo)準(zhǔn),峰度系數(shù)為3仰坦,尖峰態(tài)為峰度系數(shù)大于3履植,低峰為峰度系數(shù)小于3
- 偏態(tài)系數(shù)
偏度系數(shù)是用來(lái)判斷數(shù)據(jù)集合的分布是否對(duì)稱(chēng),如果數(shù)據(jù)集合均勻?qū)ΨQ(chēng)悄晃,例如正態(tài)分布玫霎,偏度系數(shù)等于0,是對(duì)稱(chēng)分布传泊,當(dāng)偏度大于0時(shí)鼠渺,稱(chēng)為右偏分布,當(dāng)偏度小于0時(shí)眷细,稱(chēng)為左偏分布
0xff 參考資料
【人人都會(huì)數(shù)據(jù)分析第二章】