在實際應用中盯荤,我們會遇到各式各樣的數(shù)據(jù)庫如nosql非關(guān)系數(shù)據(jù)庫(memcached馋吗,redis,mangodb)秋秤,RDBMS關(guān)系數(shù)據(jù)庫(oracle宏粤,mysql等),還有一些其它的數(shù)據(jù)庫如hbase灼卢,在這些數(shù)據(jù)庫中绍哎,又會出現(xiàn)結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)鞋真,半結(jié)構(gòu)化數(shù)據(jù)崇堰,下面列出各種數(shù)據(jù)類型:
結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化的數(shù)據(jù)是指可以使用關(guān)系型數(shù)據(jù)庫表示和存儲,表現(xiàn)為二維形式的數(shù)據(jù)涩咖。一般特點是:數(shù)據(jù)以行為單位海诲,一行數(shù)據(jù)表示一個實體的信息,每一行數(shù)據(jù)的屬性是相同的檩互。
能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示特幔,我們稱之為結(jié)構(gòu)化數(shù)據(jù),如數(shù)字闸昨、符號蚯斯。傳統(tǒng)的關(guān)系數(shù)據(jù)模型、行數(shù)據(jù)饵较,存儲于數(shù)據(jù)庫拍嵌,可用二維表結(jié)構(gòu)表示。舉一個例子:
所以循诉,結(jié)構(gòu)化的數(shù)據(jù)的存儲和排列是很有規(guī)律的横辆,這對查詢和修改等操作很有幫助。但是打洼,顯然龄糊,它的擴展性不好(比如,我希望增加一個字段募疮,怎么辦炫惩?)。
半結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式阿浓,它并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu)他嚷,但包含相關(guān)標記,用來分隔語義元素以及對記錄和字段進行分層。因此筋蓖,它也被稱為自描述的結(jié)構(gòu)卸耘。
半結(jié)構(gòu)化數(shù)據(jù),屬于同一類實體可以有不同的屬性粘咖,即使他們被組合在一起蚣抗,這些屬性的順序并不重要。
所謂半結(jié)構(gòu)化數(shù)據(jù)瓮下,就是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫翰铡、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù)讽坏,XML锭魔、HTML文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的路呜,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起迷捧,沒有明顯的區(qū)分。
常見的半結(jié)構(gòu)數(shù)據(jù)有XML和JSON胀葱,對于對于兩個XML文件漠秋,第一個可能有
第二個可能為:
從上面的例子中,屬性的順序是不重要的巡社,不同的半結(jié)構(gòu)化數(shù)據(jù)的屬性的個數(shù)是不一定一樣的膛堤。有些人說半結(jié)構(gòu)化數(shù)據(jù)是以樹或者圖的數(shù)據(jù)結(jié)構(gòu)存儲的數(shù)據(jù)手趣,怎么理解呢晌该?上面的例子中,標簽是樹的根節(jié)點绿渣,和標簽是子節(jié)點朝群。通過這樣的數(shù)據(jù)格式,可以自由地表達很多有用的信息中符,包括自我描述信息(元數(shù)據(jù))姜胖。所以,半結(jié)構(gòu)化數(shù)據(jù)的擴展性是很好的淀散。
非結(jié)構(gòu)化數(shù)據(jù)
顧名思義右莱,就是沒有固定結(jié)構(gòu)的數(shù)據(jù)。各種文檔档插、圖片慢蜓、視頻/音頻等都屬于非結(jié)構(gòu)化數(shù)據(jù)。對于這類數(shù)據(jù)郭膛,我們一般直接整體進行存儲晨抡,而且一般存儲為二進制的數(shù)據(jù)格式。
非結(jié)構(gòu)化數(shù)據(jù)庫是指其字段長度可變,并且每個字段的記錄又可以由可重復或不可重復的子字段構(gòu)成的數(shù)據(jù)庫耘柱,用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字如捅、符號等信息)而且更適合處理非結(jié)構(gòu)化數(shù)據(jù)(全文文本、圖象调煎、聲音镜遣、影視、超媒體等信息)士袄。
非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔烈涮、文本、圖片窖剑、XML坚洽、HTML、各類報表西土、圖像和音頻/視頻信息等等