數(shù)據(jù)是指不同的信息片段玉转。你可能認為數(shù)據(jù)只是表格上的簡單數(shù)字,但是數(shù)據(jù)的形式多種多樣欠啤。從文本到視頻到電子表格,從數(shù)據(jù)庫到圖片再到音頻視頻屋灌,而且肯定還漏了很多其他的形式洁段。
存在的數(shù)據(jù)類型有:
換個角度看
要分解我們的數(shù)據(jù)類型,主要有兩大塊:
數(shù)值
和分類
數(shù)值進一步分為連續(xù)
與離散
共郭。
分類數(shù)據(jù)可以分為定序
與定類
祠丝。
數(shù)值與分類
其中一些可能有點棘手 —— 舉個例子,郵政編碼是一個數(shù)字除嘹,但它們并非數(shù)值變量写半。如果我們將兩個郵政編碼加在一起,并不會從得到的新值中獲得任何有用的信息尉咕。因此叠蝇,這是一個分類
變量。
身高年缎、年齡悔捶、書中的頁數(shù)和年收入采用的值我們可以進行加、減和執(zhí)行其他運算单芜,來獲得有用的見解蜕该。因此,這些是數(shù)值
數(shù)據(jù)洲鸠。
性別堂淡、字母成績等級、早餐類型扒腕、婚姻狀態(tài)和郵政編碼可以視為一組物品或個人的標簽绢淀。因此,它們是分類
數(shù)據(jù)袜匿。
連續(xù)和離散
要區(qū)分我們的數(shù)據(jù)是連續(xù)還是離散的更啄,要看我們是否能將數(shù)據(jù)分割成更小的單元。想想時間 —— 我們可以用年居灯、月祭务、日内狗、小時、分鐘或秒來衡量一個事件义锥,甚至是在秒級柳沙,我們知道仍然有更小的單位可以用來衡量時間。因此拌倍,我們知道此數(shù)據(jù)類型為連續(xù)的赂鲤。身高、年齡和收入都是連續(xù)數(shù)據(jù)
的例子柱恤∈酰或者,我們知道書中的頁數(shù)梗顺、咖啡店外的狗數(shù)量或院子里的樹為離散數(shù)據(jù)
泡孩。我們可不想將狗一分為二。
定序與定類
在看定類變量時寺谤,我們發(fā)現(xiàn)性別仑鸥、婚姻狀態(tài)、郵政編碼和早餐食品為定類變量
变屁,這種類型的數(shù)據(jù)沒有相關(guān)的順序排列眼俊。無論你早餐吃麥片粥、吐司粟关、雞蛋還是只喝咖啡疮胖,它并沒有相關(guān)的排序。
相反誊役,字母成績等級或調(diào)查評級作為定序數(shù)據(jù)
具有關(guān)聯(lián)的排序获列。如果獲得 A谷市,它高于 A-蛔垢。A- 的排名高于 B+,以此類推……定序變量在評級量表上很常見迫悠。在很多情況下鹏漆,我們將這些定序變量變?yōu)閿?shù)字,這樣可以更容易地進行分析创泄。
理解數(shù)據(jù)類型也可以幫助我們創(chuàng)建可視化來解釋數(shù)據(jù)艺玲。