結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)

在實際應用中盯荤,我們會遇到各式各樣的數(shù)據(jù)庫如nosql非關(guān)系數(shù)據(jù)庫(memcached馋吗,redis,mangodb)秋秤,RDBMS關(guān)系數(shù)據(jù)庫(oracle宏粤,mysql等),還有一些其它的數(shù)據(jù)庫如hbase灼卢,在這些數(shù)據(jù)庫中绍哎,又會出現(xiàn)結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)鞋真,半結(jié)構(gòu)化數(shù)據(jù)崇堰,下面列出各種數(shù)據(jù)類型:

結(jié)構(gòu)化數(shù)據(jù)

結(jié)構(gòu)化的數(shù)據(jù)是指可以使用關(guān)系型數(shù)據(jù)庫表示和存儲,表現(xiàn)為二維形式的數(shù)據(jù)涩咖。一般特點是:數(shù)據(jù)以行為單位海诲,一行數(shù)據(jù)表示一個實體的信息,每一行數(shù)據(jù)的屬性是相同的檩互。

能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示特幔,我們稱之為結(jié)構(gòu)化數(shù)據(jù),如數(shù)字闸昨、符號蚯斯。傳統(tǒng)的關(guān)系數(shù)據(jù)模型、行數(shù)據(jù)饵较,存儲于數(shù)據(jù)庫拍嵌,可用二維表結(jié)構(gòu)表示。舉一個例子:


所以循诉,結(jié)構(gòu)化的數(shù)據(jù)的存儲和排列是很有規(guī)律的横辆,這對查詢和修改等操作很有幫助。但是打洼,顯然龄糊,它的擴展性不好(比如,我希望增加一個字段募疮,怎么辦炫惩?)。

半結(jié)構(gòu)化數(shù)據(jù)

半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式阿浓,它并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu)他嚷,但包含相關(guān)標記,用來分隔語義元素以及對記錄和字段進行分層。因此筋蓖,它也被稱為自描述的結(jié)構(gòu)卸耘。

半結(jié)構(gòu)化數(shù)據(jù),屬于同一類實體可以有不同的屬性粘咖,即使他們被組合在一起蚣抗,這些屬性的順序并不重要。

所謂半結(jié)構(gòu)化數(shù)據(jù)瓮下,就是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫翰铡、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù)讽坏,XML锭魔、HTML文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的路呜,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起迷捧,沒有明顯的區(qū)分。

常見的半結(jié)構(gòu)數(shù)據(jù)有XML和JSON胀葱,對于對于兩個XML文件漠秋,第一個可能有


第二個可能為:


從上面的例子中,屬性的順序是不重要的巡社,不同的半結(jié)構(gòu)化數(shù)據(jù)的屬性的個數(shù)是不一定一樣的膛堤。有些人說半結(jié)構(gòu)化數(shù)據(jù)是以樹或者圖的數(shù)據(jù)結(jié)構(gòu)存儲的數(shù)據(jù)手趣,怎么理解呢晌该?上面的例子中,標簽是樹的根節(jié)點绿渣,和標簽是子節(jié)點朝群。通過這樣的數(shù)據(jù)格式,可以自由地表達很多有用的信息中符,包括自我描述信息(元數(shù)據(jù))姜胖。所以,半結(jié)構(gòu)化數(shù)據(jù)的擴展性是很好的淀散。

非結(jié)構(gòu)化數(shù)據(jù)

顧名思義右莱,就是沒有固定結(jié)構(gòu)的數(shù)據(jù)。各種文檔档插、圖片慢蜓、視頻/音頻等都屬于非結(jié)構(gòu)化數(shù)據(jù)。對于這類數(shù)據(jù)郭膛,我們一般直接整體進行存儲晨抡,而且一般存儲為二進制的數(shù)據(jù)格式。

非結(jié)構(gòu)化數(shù)據(jù)庫是指其字段長度可變,并且每個字段的記錄又可以由可重復或不可重復的子字段構(gòu)成的數(shù)據(jù)庫耘柱,用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字如捅、符號等信息)而且更適合處理非結(jié)構(gòu)化數(shù)據(jù)(全文文本、圖象调煎、聲音镜遣、影視、超媒體等信息)士袄。

非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔烈涮、文本、圖片窖剑、XML坚洽、HTML、各類報表西土、圖像和音頻/視頻信息等等

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末讶舰,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子需了,更是在濱河造成了極大的恐慌跳昼,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肋乍,死亡現(xiàn)場離奇詭異鹅颊,居然都是意外死亡,警方通過查閱死者的電腦和手機墓造,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進店門堪伍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人觅闽,你說我怎么就攤上這事帝雇。” “怎么了蛉拙?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵尸闸,是天一觀的道長。 經(jīng)常有香客問我孕锄,道長吮廉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任畸肆,我火速辦了婚禮宦芦,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘恼除。我一直安慰自己踪旷,他們只是感情好曼氛,可當我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著令野,像睡著了一般舀患。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上气破,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天聊浅,我揣著相機與錄音,去河邊找鬼现使。 笑死低匙,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的碳锈。 我是一名探鬼主播顽冶,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼售碳!你這毒婦竟也來了强重?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤贸人,失蹤者是張志新(化名)和其女友劉穎间景,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體艺智,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡倘要,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了十拣。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片封拧。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖父晶,靈堂內(nèi)的尸體忽然破棺而出哮缺,到底是詐尸還是另有隱情,我是刑警寧澤甲喝,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站铛只,受9級特大地震影響埠胖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜淳玩,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一直撤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蜕着,春花似錦谋竖、人聲如沸红柱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锤悄。三九已至,卻和暖如春嘉抒,著一層夾襖步出監(jiān)牢的瞬間零聚,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工些侍, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留隶症,地道東北人。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓岗宣,卻偏偏與公主長得像蚂会,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子耗式,可洞房花燭夜當晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容