結(jié)構(gòu)化數(shù)據(jù)vs非結(jié)構(gòu)化數(shù)據(jù)

結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)由明確定義的數(shù)據(jù)類型組成揍庄,這些數(shù)據(jù)類型的模式使它們易于搜索;而非結(jié)構(gòu)化數(shù)據(jù)*- “一切” -包括數(shù)據(jù)的通常是不容易搜索沃测,包括格式,如音頻蒂破,視頻和社交媒體帖子。

非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)并不表示兩者之間存在任何實際沖突附迷。客戶選擇一個或另一個不是基于他們的數(shù)據(jù)結(jié)構(gòu)喊儡,而是基于使用它們的應(yīng)用程序:用于結(jié)構(gòu)化的關(guān)系數(shù)據(jù)庫,以及用于非結(jié)構(gòu)化數(shù)據(jù)的大多數(shù)其他類型的應(yīng)用程序艾猜。

但是攀甚,在對結(jié)構(gòu)化數(shù)據(jù)進行分析的簡便性與對非結(jié)構(gòu)化數(shù)據(jù)進行更具挑戰(zhàn)性的分析之間岗喉,存在著越來越大的壓力。結(jié)構(gòu)化數(shù)據(jù)分析是一種成熟的過程和技術(shù)钱床。非結(jié)構(gòu)化數(shù)據(jù)分析是一個新興行業(yè),在研發(fā)方面投入了大量新資金事期,但并不是一項成熟的技術(shù)。公司內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的問題正在決定公司是否應(yīng)該對非結(jié)構(gòu)化數(shù)據(jù)的分析進行投資兽泣,以及是否有可能將兩者整合為更好的商業(yè)智能。

數(shù)據(jù)管理資源:Forrester Wave –主數(shù)據(jù)管理

什么是結(jié)構(gòu)化數(shù)據(jù)唠倦?

結(jié)構(gòu)化數(shù)據(jù)通常駐留在關(guān)系數(shù)據(jù)庫(RDBMS)中涮较。字段存儲長度限定的數(shù)據(jù)電話號碼,社會保險號或郵政編碼狂票。記錄中甚至包含長度可變的文本字符串(如名稱),這都使搜索變得簡單。只要數(shù)據(jù)是在RDBMS結(jié)構(gòu)中創(chuàng)建的周霉,數(shù)據(jù)就可以是人為生成的或機器生成的润匙。既可以通過人工生成的查詢,也可以通過使用數(shù)據(jù)類型和字段名稱(例如字母或數(shù)字孕讳,貨幣或日期)的算法來搜索這種格式。

具有結(jié)構(gòu)化數(shù)據(jù)的常見關(guān)系數(shù)據(jù)庫應(yīng)用程序包括航空公司預(yù)訂系統(tǒng)厂财,庫存控制,銷售交易和ATM活動璃饱。結(jié)構(gòu)化查詢語言(SQL)可以在關(guān)系數(shù)據(jù)庫中對這種類型的結(jié)構(gòu)化數(shù)據(jù)進行查詢。

一些關(guān)系數(shù)據(jù)庫確實存儲或指向非結(jié)構(gòu)化數(shù)據(jù)撩穿,例如客戶關(guān)系管理(CRM)應(yīng)用程序。集成最多可能很尷尬食寡,因為備注字段不會借給傳統(tǒng)的數(shù)據(jù)庫查詢廓潜。盡管如此,大多數(shù)CRM數(shù)據(jù)都是結(jié)構(gòu)化的辩蛋。

什么是非結(jié)構(gòu)化數(shù)據(jù)?

非結(jié)構(gòu)化數(shù)據(jù)本質(zhì)上是其他所有內(nèi)容悼院。非結(jié)構(gòu)化數(shù)據(jù)具有內(nèi)部結(jié)構(gòu),但未通過預(yù)定義的數(shù)據(jù)模型或架構(gòu)進行結(jié)構(gòu)化据途。它可以是文本的也可以是非文本的,并且可以是人為生成的或機器生成的爽醋。它也可以存儲在非關(guān)系數(shù)據(jù)庫(如NoSQL)中。

由人產(chǎn)生的典型非結(jié)構(gòu)化數(shù)據(jù)包括:

  • 文本文件: 文字處理蚂四,電子表格,演示文稿遂赠,電子郵件,日志跷睦。
  • 電子郵件: 電子郵件由于其元數(shù)據(jù)而具有某種內(nèi)部結(jié)構(gòu),有時我們將其稱為半結(jié)構(gòu)化烂琴。但是,其消息字段是非結(jié)構(gòu)化的奸绷,傳統(tǒng)的分析工具無法對其進行解析层玲。
  • 社交媒體: 來自Facebook,Twitter辛块,LinkedIn的數(shù)據(jù)。
  • 網(wǎng)站: YouTube润绵,Instagram,照片共享網(wǎng)站授药。
  • 移動數(shù)據(jù): 短信呜魄,位置。
  • 通訊: 聊天爵嗅,即時消息,電話錄音睹晒,協(xié)作軟件。
  • 媒體: MP3伪很,數(shù)碼照片,音頻和視頻文件锉试。
  • 業(yè)務(wù)應(yīng)用程序: MS Office文檔,生產(chǎn)力應(yīng)用程序拖云。

機器生成的典型非結(jié)構(gòu)化數(shù)據(jù)包括:

  • 衛(wèi)星圖像: 天氣數(shù)據(jù),土地形態(tài)宙项,軍事動向。
  • 科學(xué)數(shù)據(jù): 油氣勘探尤筐,太空勘探,地震影像叔磷,大氣數(shù)據(jù)。
  • 數(shù)字監(jiān)視: 監(jiān)視照片和視頻繁疤。
  • 傳感器數(shù)據(jù): 交通,天氣稠腊,海洋學(xué)傳感器。
結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)

最具包容性的大數(shù)據(jù)分析同時使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)架忌。

結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別是什么我衬?

除了在關(guān)系數(shù)據(jù)庫中存儲與在數(shù)據(jù)庫外部存儲之間存在明顯的區(qū)別外,最大的區(qū)別是分析結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的簡便性挠羔。存在用于結(jié)構(gòu)化數(shù)據(jù)的成熟分析工具,但是用于挖掘非結(jié)構(gòu)化數(shù)據(jù)的分析工具是新生和發(fā)展中的破加。

用戶可以跨文本非結(jié)構(gòu)化數(shù)據(jù)運行簡單的內(nèi)容搜索。但是合是,由于缺乏有序的內(nèi)部結(jié)構(gòu),因此無法達到傳統(tǒng)數(shù)據(jù)挖掘工具的目的聪全,并且企業(yè)無法從潛在有價值的數(shù)據(jù)源(如富媒體,網(wǎng)絡(luò)或博客难礼,客戶互動和社交媒體數(shù)據(jù))獲得任何價值吱七。即使市場上出現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)分析工具踊餐,也沒有哪個供應(yīng)商或工具集是明確的贏家。而且許多客戶都不愿投資具有不確定的發(fā)展路線圖的分析工具吝岭。

最重要的是,非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)要多得多窜管。非結(jié)構(gòu)化數(shù)據(jù)占企業(yè)數(shù)據(jù)的80%以上稚机,并且以每年55%和65%的速度增長。由于沒有用于分析這些海量數(shù)據(jù)的工具赖条,組織將大量有價值的數(shù)據(jù)留在了商業(yè)智能表上。

結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)

傳統(tǒng)上纬乍,大數(shù)據(jù)應(yīng)用程序更容易消化結(jié)構(gòu)化數(shù)據(jù),但如今的數(shù)據(jù)分析解決方案在這一領(lǐng)域取得了長足的進步仿贬。

半結(jié)構(gòu)化數(shù)據(jù)如何適合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)

半結(jié)構(gòu)化數(shù)據(jù)維護用于標識單獨數(shù)據(jù)元素的內(nèi)部標簽和標記,從而可以進行信息分組和層次結(jié)構(gòu)蜓氨。文檔和數(shù)據(jù)庫都可以是半結(jié)構(gòu)化的。此類數(shù)據(jù)僅代表結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)餅的5-10%穴吹,但具有關(guān)鍵的業(yè)務(wù)使用案例。

電子郵件是半結(jié)構(gòu)化數(shù)據(jù)類型的一個非常常見的示例刀荒。盡管對于線程跟蹤棘钞,近乎重復(fù)和概念搜索而言,更高級的分析工具是必需的宜猜;電子郵件的本機元數(shù)據(jù)無需任何其他工具即可進行分類和關(guān)鍵字搜索。

電子郵件是一個巨大的用例姨拥,但是大多數(shù)半結(jié)構(gòu)化開發(fā)中心都在緩解數(shù)據(jù)傳輸問題绅喉。與基于Web的數(shù)據(jù)共享和傳輸一樣柴罐,共享傳感器數(shù)據(jù)正在成為一個日益增長的用例:電子數(shù)據(jù)交換(EDI),許多社交媒體平臺革屠,文檔標記語言和NoSQL數(shù)據(jù)庫。

半結(jié)構(gòu)化數(shù)據(jù)的示例

  • XML 這是一種半結(jié)構(gòu)化文檔語言似芝。XML是一組文檔編碼規(guī)則,這些規(guī)則定義了人類可讀和機器可讀的格式党瓮。(盡管說XML是人類可讀的,但這并沒有帶來什么大的麻煩:任何試圖讀取XML文檔的人都與他們的時間有關(guān)寞奸。)其價值在于其標簽驅(qū)動的結(jié)構(gòu)高度靈活在跳,編碼人員可以對其進行修改以實現(xiàn)Web上的數(shù)據(jù)結(jié)構(gòu),存儲和傳輸?shù)耐ㄓ没?/p>

  • JSON(JavaScript Object Notation) JSON是另一種半結(jié)構(gòu)化數(shù)據(jù)交換格式硬毕。Java的名稱中隱含了Java,但其他類似C的編程語言也可以識別它吐咳。它的結(jié)構(gòu)由名稱/值對(或?qū)ο螅1淼龋┖陀行蛑盗斜恚ɑ驍?shù)組韭脊,序列,列表)組成沪羔。由于該結(jié)構(gòu)可在多種語言之間互換,因此JSON擅長在Web應(yīng)用程序和服務(wù)器之間傳輸數(shù)據(jù)蔫饰。

  • NoSQL 半結(jié)構(gòu)化數(shù)據(jù)也是許多NoSQL(“不僅是SQL”)數(shù)據(jù)庫的重要元素。NoSQL數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫不同篓吁,因為它們不會將組織(架構(gòu))與數(shù)據(jù)分開。這使NoSQL成為存儲不容易適合記錄和表格式的信息(例如長度可變的文本)的更好選擇杖剪。它還使數(shù)據(jù)庫之間的數(shù)據(jù)交換更加容易驰贷。一些較新的NoSQL數(shù)據(jù)庫(例如MongoDBCouchbase)還通過以JSON格式本機存儲它們來合并半結(jié)構(gòu)化文檔洛巢。

在大數(shù)據(jù)環(huán)境中,NoSQL不需要管理員將運營和分析數(shù)據(jù)庫分離到單獨的部署中稿茉。NoSQL是運營數(shù)據(jù)庫,并承載用于商業(yè)智能的本機分析工具城须。在Hadoop環(huán)境中,NoSQL數(shù)據(jù)庫吸收和管理傳入的數(shù)據(jù)并提供分析結(jié)果糕伐。

這些數(shù)據(jù)庫在大數(shù)據(jù)基礎(chǔ)架構(gòu)和實時Web應(yīng)用程序(如LinkedIn)中很常見。在LinkedIn上良瞧,數(shù)億企業(yè)用戶可以自由共享職位,位置褥蚯,技能等;LinkedIn會以半結(jié)構(gòu)化格式捕獲大量數(shù)據(jù)赞庶。當(dāng)求職用戶創(chuàng)建搜索時,LinkedIn會將查詢與其龐大的半結(jié)構(gòu)化數(shù)據(jù)存儲相匹配歧强,將數(shù)據(jù)交叉引用到招聘趨勢中,并與求職者共享所得到的建議摊册。在高級LinkedIn服務(wù)(如Salesforce)中颊艳,對銷售和市場查詢的處理過程相同。亞馬遜還根據(jù)半結(jié)構(gòu)化數(shù)據(jù)庫為其讀者提供建議棋枕。

結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù):下一代工具將改變游戲規(guī)則

新工具可用于分析非結(jié)構(gòu)化數(shù)據(jù),特別是在給定特定用例參數(shù)的情況下戒悠。這些工具大多數(shù)基于機器學(xué)習(xí)舟山。結(jié)構(gòu)化數(shù)據(jù)分析也可以使用機器學(xué)習(xí)卤恳,但是海量數(shù)據(jù)和許多不同類型的非結(jié)構(gòu)化數(shù)據(jù)都需要它。

幾年前突琳,使用關(guān)鍵字和關(guān)鍵短語的分析師可以搜索非結(jié)構(gòu)化數(shù)據(jù),并對數(shù)據(jù)涉及的內(nèi)容有一個體面的認識拆融。電子數(shù)據(jù)展示曾經(jīng)(并且是)這種方法的主要示例。但是镜豹,非結(jié)構(gòu)化數(shù)據(jù)的增長如此之快,以至于用戶需要采用不僅以計算速度運行的分析趟脂,而且還需要從其活動和用戶決策中自動學(xué)習(xí)的分析。自然語言處理(NLP)昔期,模式感測和分類以及文本挖掘算法都是常見的示例,文檔相關(guān)性分析硼一,情感分析和篩選器驅(qū)動的Web收集也是如此。具有機器學(xué)習(xí)智能的非結(jié)構(gòu)化數(shù)據(jù)分析使組織能夠:

  • 分析數(shù)字通信的合規(guī)性般贼。 未能遵守法規(guī)可能會給公司造成數(shù)百萬美元的費用奥吩,訴訟和業(yè)務(wù)損失。模式識別和電子郵件線程分析軟件會搜索大量電子郵件和聊天數(shù)據(jù)圈驼,以查找潛在的不合規(guī)情況。最近的一個例子包括大眾汽車公司的困境绩脆,他們可能會通過使用分析來監(jiān)視可疑消息的通信,從而避免了巨額罰款和聲譽損失靴迫。
  • 在社交媒體上跟蹤大量的客戶對話。 文本分析和情感分析使分析師可以查看營銷活動的正面和負面結(jié)果玉锌,甚至可以識別在線威脅。這種級別的分析是更為復(fù)雜的簡單關(guān)鍵字搜索主守,它只能報告基本信息榄融,例如海報在新廣告系列中多久提及一次公司名稱救湖。新的分析還包括上下文:提及是正面還是負面?海報互相反應(yīng)了嗎鞋既?對高管公告的反應(yīng)基調(diào)是什么?例如邑闺,汽車行業(yè)大量參與社會媒體的分析,因為購車者經(jīng)常轉(zhuǎn)向其他海報來評估他們的購車體驗陡舅。分析師結(jié)合使用文本挖掘和情感分析來跟蹤Twitter和Facebook上與汽車相關(guān)的用戶帖子。
  • 獲得新的營銷情報蹭沛。 機器學(xué)習(xí)分析工具可快速處理大量文檔,以分析客戶行為摊灭。一家主要的雜志出版商對數(shù)十萬篇文章進行了文本挖掘,并根據(jù)主要子主題的受歡迎程度分析了每個單獨的出版物帚呼。然后,他們將分析擴展到所有內(nèi)容屬性煤杀,以查看哪些總體主題受到客戶人口統(tǒng)計的關(guān)注最多。該分析涉及所有出版物中成千上萬的內(nèi)容沈自,并且按細分交叉引用了熱門主題結(jié)果。結(jié)果是進行了豐富的教育枯途,使哪些主題最吸引不同的客戶纺座,以及哪些營銷信息最能引起他們的共鳴粟判。
ediscovery识樱,結(jié)構(gòu)化與非結(jié)構(gòu)化

*在電子數(shù)據(jù)展示中恭陡,數(shù)據(jù)科學(xué)家使用關(guān)鍵字搜索非結(jié)構(gòu)化數(shù)據(jù),并對所涉及的數(shù)據(jù)有一個合理的了解库说。 *

無論您的業(yè)務(wù)特點是什么,今天的目標都是挖掘業(yè)務(wù)價值璃弄,無論數(shù)據(jù)是結(jié)構(gòu)化的還是非結(jié)構(gòu)化的构回。兩種類型的數(shù)據(jù)都可能具有巨大的價值夏块,并且較新的工具可以聚合脐供,查詢,分析和利用所有數(shù)據(jù)類型政己,從而在整個公司數(shù)據(jù)中獲得深入的業(yè)務(wù)洞察力。

參考

Structured vs. Unstructured Data

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末歇由,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子沦泌,更是在濱河造成了極大的恐慌,老刑警劉巖谢谦,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件萝衩,死亡現(xiàn)場離奇詭異,居然都是意外死亡猩谊,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進店門牌捷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人宜鸯,你說我怎么就攤上這事×苄洌” “怎么了?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長陌凳。 經(jīng)常有香客問我,道長合敦,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任充岛,我火速辦了婚禮耕蝉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘垒在。我一直安慰自己,他們只是感情好场躯,可當(dāng)我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著踢关,像睡著了一般。 火紅的嫁衣襯著肌膚如雪耘成。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天瘪菌,我揣著相機與錄音,去河邊找鬼师妙。 笑死,一個胖子當(dāng)著我的面吹牛默穴,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蓄诽,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼仑氛!你這毒婦竟也來了闸英?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤甫何,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后辙喂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡巍耗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年跳芳,在試婚紗的時候發(fā)現(xiàn)自己被綠了竹勉。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片飞盆。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡吓歇,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出票腰,到底是詐尸還是另有隱情城看,我是刑警寧澤杏慰,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站缘滥,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏朝扼。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一擎颖、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧搂捧,春花似錦、人聲如沸允跑。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拌屏。三九已至,卻和暖如春术荤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背瓣戚。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留子库,地道東北人。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓仑嗅,卻偏偏與公主長得像,于是被迫代替她去往敵國和親仓技。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內(nèi)容