數(shù)據(jù)是什么检激?
數(shù)據(jù)(data)是事實或觀察的結(jié)果齐莲,是對客觀事物的邏輯歸納嚣鄙,是用于表示客觀事物的未經(jīng)加工的的原始素材放祟。
????????數(shù)據(jù)有很多種分類鳍怨,但大的類別可以從結(jié)構(gòu)化和非結(jié)構(gòu)化進行分割。所謂結(jié)構(gòu)化舞竿,有傳統(tǒng)的行列存儲的數(shù)據(jù)格式京景,每一行就是一個觀測,每一列是一種屬性特征骗奖,最常見的文檔格式是 CSV确徙;另外有XML、JSON等特定的結(jié)構(gòu)格式执桌。所謂非結(jié)構(gòu)化鄙皇,指數(shù)據(jù)不是按照固定的格式存儲,如文本文件仰挣,圖片文件伴逸,聲音、視頻等膘壶。
? ? ? ? 在結(jié)構(gòu)化數(shù)據(jù)中错蝴,我們可以按照數(shù)據(jù)本身特性洲愤,分為:
? ? ? ? 類別數(shù)據(jù)(nominal level): 一般是字符型,比如名稱顷锰,張三柬赐、李四、王二官紫。類別數(shù)據(jù)通常用于計算頻數(shù)分布肛宋,對其進行均值、方差等計算沒有意義束世。
? ? ? ? 序列數(shù)據(jù)(ordinal level):一般是整數(shù)酝陈,比如序號,1,2,3,4毁涉。序列數(shù)據(jù)通常進行歸一化處理沉帮、分位數(shù)處理等。日期/時間數(shù)據(jù)是一種特殊的序列數(shù)據(jù)贫堰。對序列數(shù)據(jù)進行頻數(shù)計算是沒有意義的遇西。
? ? ? ? 區(qū)間數(shù)據(jù)(interval level):可以是整數(shù),也可以是小數(shù)严嗜,比如重量、身高等洲敢。區(qū)間數(shù)據(jù)適用于各種統(tǒng)計計算漫玄,比如平均數(shù)、方差等压彭,也可以進行頻數(shù)計算看數(shù)據(jù)分布睦优。
? ? ? ? 對于非結(jié)構(gòu)化數(shù)據(jù)的處理:
? ? ? ? 文本數(shù)據(jù):通常進行分詞、詞性標注壮不、去除停用詞汗盘、向量化等;
? ? ? ? 圖片數(shù)據(jù):圖片是由像素組成询一,通過顏色提取隐孽、灰度、二值化健蕊、加粗/弱化等一系列處理菱阵;
? ? ? ? 語音數(shù)據(jù):將語音信號轉(zhuǎn)為聲學特征,然后建立言語模型進行匹配識別缩功;
? ? ? ? 視頻數(shù)據(jù):提取幀圖片數(shù)據(jù)晴及,進行目標運動檢測或者特征識別。