結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù)由明確定義的數(shù)據(jù)類型組成揍庄,這些數(shù)據(jù)類型的模式使它們易于搜索;而非結(jié)構(gòu)化數(shù)據(jù)*- “一切” -包括數(shù)據(jù)的通常是不容易搜索沃测,包括格式,如音頻蒂破,視頻和社交媒體帖子。
非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)并不表示兩者之間存在任何實際沖突附迷。客戶選擇一個或另一個不是基于他們的數(shù)據(jù)結(jié)構(gòu)喊儡,而是基于使用它們的應(yīng)用程序:用于結(jié)構(gòu)化的關(guān)系數(shù)據(jù)庫,以及用于非結(jié)構(gòu)化數(shù)據(jù)的大多數(shù)其他類型的應(yīng)用程序艾猜。
但是攀甚,在對結(jié)構(gòu)化數(shù)據(jù)進行分析的簡便性與對非結(jié)構(gòu)化數(shù)據(jù)進行更具挑戰(zhàn)性的分析之間岗喉,存在著越來越大的壓力。結(jié)構(gòu)化數(shù)據(jù)分析是一種成熟的過程和技術(shù)钱床。非結(jié)構(gòu)化數(shù)據(jù)分析是一個新興行業(yè),在研發(fā)方面投入了大量新資金事期,但并不是一項成熟的技術(shù)。公司內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的問題正在決定公司是否應(yīng)該對非結(jié)構(gòu)化數(shù)據(jù)的分析進行投資兽泣,以及是否有可能將兩者整合為更好的商業(yè)智能。
數(shù)據(jù)管理資源:Forrester Wave –主數(shù)據(jù)管理
什么是結(jié)構(gòu)化數(shù)據(jù)唠倦?
結(jié)構(gòu)化數(shù)據(jù)通常駐留在關(guān)系數(shù)據(jù)庫(RDBMS)中涮较。字段存儲長度限定的數(shù)據(jù)電話號碼,社會保險號或郵政編碼狂票。記錄中甚至包含長度可變的文本字符串(如名稱),這都使搜索變得簡單。只要數(shù)據(jù)是在RDBMS結(jié)構(gòu)中創(chuàng)建的周霉,數(shù)據(jù)就可以是人為生成的或機器生成的润匙。既可以通過人工生成的查詢,也可以通過使用數(shù)據(jù)類型和字段名稱(例如字母或數(shù)字孕讳,貨幣或日期)的算法來搜索這種格式。
具有結(jié)構(gòu)化數(shù)據(jù)的常見關(guān)系數(shù)據(jù)庫應(yīng)用程序包括航空公司預(yù)訂系統(tǒng)厂财,庫存控制,銷售交易和ATM活動璃饱。結(jié)構(gòu)化查詢語言(SQL)可以在關(guān)系數(shù)據(jù)庫中對這種類型的結(jié)構(gòu)化數(shù)據(jù)進行查詢。
一些關(guān)系數(shù)據(jù)庫確實存儲或指向非結(jié)構(gòu)化數(shù)據(jù)撩穿,例如客戶關(guān)系管理(CRM)應(yīng)用程序。集成最多可能很尷尬食寡,因為備注字段不會借給傳統(tǒng)的數(shù)據(jù)庫查詢廓潜。盡管如此,大多數(shù)CRM數(shù)據(jù)都是結(jié)構(gòu)化的辩蛋。
什么是非結(jié)構(gòu)化數(shù)據(jù)?
非結(jié)構(gòu)化數(shù)據(jù)本質(zhì)上是其他所有內(nèi)容悼院。非結(jié)構(gòu)化數(shù)據(jù)具有內(nèi)部結(jié)構(gòu),但未通過預(yù)定義的數(shù)據(jù)模型或架構(gòu)進行結(jié)構(gòu)化据途。它可以是文本的也可以是非文本的,并且可以是人為生成的或機器生成的爽醋。它也可以存儲在非關(guān)系數(shù)據(jù)庫(如NoSQL)中。
由人產(chǎn)生的典型非結(jié)構(gòu)化數(shù)據(jù)包括:
- 文本文件: 文字處理蚂四,電子表格,演示文稿遂赠,電子郵件,日志跷睦。
- 電子郵件: 電子郵件由于其元數(shù)據(jù)而具有某種內(nèi)部結(jié)構(gòu),有時我們將其稱為半結(jié)構(gòu)化烂琴。但是,其消息字段是非結(jié)構(gòu)化的奸绷,傳統(tǒng)的分析工具無法對其進行解析层玲。
- 社交媒體: 來自Facebook,Twitter辛块,LinkedIn的數(shù)據(jù)。
- 網(wǎng)站: YouTube润绵,Instagram,照片共享網(wǎng)站授药。
- 移動數(shù)據(jù): 短信呜魄,位置。
- 通訊: 聊天爵嗅,即時消息,電話錄音睹晒,協(xié)作軟件。
- 媒體: MP3伪很,數(shù)碼照片,音頻和視頻文件锉试。
- 業(yè)務(wù)應(yīng)用程序: MS Office文檔,生產(chǎn)力應(yīng)用程序拖云。
機器生成的典型非結(jié)構(gòu)化數(shù)據(jù)包括:
- 衛(wèi)星圖像: 天氣數(shù)據(jù),土地形態(tài)宙项,軍事動向。
- 科學(xué)數(shù)據(jù): 油氣勘探尤筐,太空勘探,地震影像叔磷,大氣數(shù)據(jù)。
- 數(shù)字監(jiān)視: 監(jiān)視照片和視頻繁疤。
- 傳感器數(shù)據(jù): 交通,天氣稠腊,海洋學(xué)傳感器。
最具包容性的大數(shù)據(jù)分析同時使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)架忌。
結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別是什么我衬?
除了在關(guān)系數(shù)據(jù)庫中存儲與在數(shù)據(jù)庫外部存儲之間存在明顯的區(qū)別外,最大的區(qū)別是分析結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的簡便性挠羔。存在用于結(jié)構(gòu)化數(shù)據(jù)的成熟分析工具,但是用于挖掘非結(jié)構(gòu)化數(shù)據(jù)的分析工具是新生和發(fā)展中的破加。
用戶可以跨文本非結(jié)構(gòu)化數(shù)據(jù)運行簡單的內(nèi)容搜索。但是合是,由于缺乏有序的內(nèi)部結(jié)構(gòu),因此無法達到傳統(tǒng)數(shù)據(jù)挖掘工具的目的聪全,并且企業(yè)無法從潛在有價值的數(shù)據(jù)源(如富媒體,網(wǎng)絡(luò)或博客难礼,客戶互動和社交媒體數(shù)據(jù))獲得任何價值吱七。即使市場上出現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)分析工具踊餐,也沒有哪個供應(yīng)商或工具集是明確的贏家。而且許多客戶都不愿投資具有不確定的發(fā)展路線圖的分析工具吝岭。
最重要的是,非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)要多得多窜管。非結(jié)構(gòu)化數(shù)據(jù)占企業(yè)數(shù)據(jù)的80%以上稚机,并且以每年55%和65%的速度增長。由于沒有用于分析這些海量數(shù)據(jù)的工具赖条,組織將大量有價值的數(shù)據(jù)留在了商業(yè)智能表上。
傳統(tǒng)上纬乍,大數(shù)據(jù)應(yīng)用程序更容易消化結(jié)構(gòu)化數(shù)據(jù),但如今的數(shù)據(jù)分析解決方案在這一領(lǐng)域取得了長足的進步仿贬。
半結(jié)構(gòu)化數(shù)據(jù)如何適合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù)維護用于標識單獨數(shù)據(jù)元素的內(nèi)部標簽和標記,從而可以進行信息分組和層次結(jié)構(gòu)蜓氨。文檔和數(shù)據(jù)庫都可以是半結(jié)構(gòu)化的。此類數(shù)據(jù)僅代表結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)餅的5-10%穴吹,但具有關(guān)鍵的業(yè)務(wù)使用案例。
電子郵件是半結(jié)構(gòu)化數(shù)據(jù)類型的一個非常常見的示例刀荒。盡管對于線程跟蹤棘钞,近乎重復(fù)和概念搜索而言,更高級的分析工具是必需的宜猜;電子郵件的本機元數(shù)據(jù)無需任何其他工具即可進行分類和關(guān)鍵字搜索。
電子郵件是一個巨大的用例姨拥,但是大多數(shù)半結(jié)構(gòu)化開發(fā)中心都在緩解數(shù)據(jù)傳輸問題绅喉。與基于Web的數(shù)據(jù)共享和傳輸一樣柴罐,共享傳感器數(shù)據(jù)正在成為一個日益增長的用例:電子數(shù)據(jù)交換(EDI),許多社交媒體平臺革屠,文檔標記語言和NoSQL數(shù)據(jù)庫。
半結(jié)構(gòu)化數(shù)據(jù)的示例
XML 這是一種半結(jié)構(gòu)化文檔語言似芝。XML是一組文檔編碼規(guī)則,這些規(guī)則定義了人類可讀和機器可讀的格式党瓮。(盡管說XML是人類可讀的,但這并沒有帶來什么大的麻煩:任何試圖讀取XML文檔的人都與他們的時間有關(guān)寞奸。)其價值在于其標簽驅(qū)動的結(jié)構(gòu)高度靈活在跳,編碼人員可以對其進行修改以實現(xiàn)Web上的數(shù)據(jù)結(jié)構(gòu),存儲和傳輸?shù)耐ㄓ没?/p>
JSON(JavaScript Object Notation) JSON是另一種半結(jié)構(gòu)化數(shù)據(jù)交換格式硬毕。Java的名稱中隱含了Java,但其他類似C的編程語言也可以識別它吐咳。它的結(jié)構(gòu)由名稱/值對(或?qū)ο螅1淼龋┖陀行蛑盗斜恚ɑ驍?shù)組韭脊,序列,列表)組成沪羔。由于該結(jié)構(gòu)可在多種語言之間互換,因此JSON擅長在Web應(yīng)用程序和服務(wù)器之間傳輸數(shù)據(jù)蔫饰。
NoSQL 半結(jié)構(gòu)化數(shù)據(jù)也是許多NoSQL(“不僅是SQL”)數(shù)據(jù)庫的重要元素。NoSQL數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫不同篓吁,因為它們不會將組織(架構(gòu))與數(shù)據(jù)分開。這使NoSQL成為存儲不容易適合記錄和表格式的信息(例如長度可變的文本)的更好選擇杖剪。它還使數(shù)據(jù)庫之間的數(shù)據(jù)交換更加容易驰贷。一些較新的NoSQL數(shù)據(jù)庫(例如MongoDB和Couchbase)還通過以JSON格式本機存儲它們來合并半結(jié)構(gòu)化文檔洛巢。
在大數(shù)據(jù)環(huán)境中,NoSQL不需要管理員將運營和分析數(shù)據(jù)庫分離到單獨的部署中稿茉。NoSQL是運營數(shù)據(jù)庫,并承載用于商業(yè)智能的本機分析工具城须。在Hadoop環(huán)境中,NoSQL數(shù)據(jù)庫吸收和管理傳入的數(shù)據(jù)并提供分析結(jié)果糕伐。
這些數(shù)據(jù)庫在大數(shù)據(jù)基礎(chǔ)架構(gòu)和實時Web應(yīng)用程序(如LinkedIn)中很常見。在LinkedIn上良瞧,數(shù)億企業(yè)用戶可以自由共享職位,位置褥蚯,技能等;LinkedIn會以半結(jié)構(gòu)化格式捕獲大量數(shù)據(jù)赞庶。當(dāng)求職用戶創(chuàng)建搜索時,LinkedIn會將查詢與其龐大的半結(jié)構(gòu)化數(shù)據(jù)存儲相匹配歧强,將數(shù)據(jù)交叉引用到招聘趨勢中,并與求職者共享所得到的建議摊册。在高級LinkedIn服務(wù)(如Salesforce)中颊艳,對銷售和市場查詢的處理過程相同。亞馬遜還根據(jù)半結(jié)構(gòu)化數(shù)據(jù)庫為其讀者提供建議棋枕。
結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù):下一代工具將改變游戲規(guī)則
新工具可用于分析非結(jié)構(gòu)化數(shù)據(jù),特別是在給定特定用例參數(shù)的情況下戒悠。這些工具大多數(shù)基于機器學(xué)習(xí)舟山。結(jié)構(gòu)化數(shù)據(jù)分析也可以使用機器學(xué)習(xí)卤恳,但是海量數(shù)據(jù)和許多不同類型的非結(jié)構(gòu)化數(shù)據(jù)都需要它。
幾年前突琳,使用關(guān)鍵字和關(guān)鍵短語的分析師可以搜索非結(jié)構(gòu)化數(shù)據(jù),并對數(shù)據(jù)涉及的內(nèi)容有一個體面的認識拆融。電子數(shù)據(jù)展示曾經(jīng)(并且是)這種方法的主要示例。但是镜豹,非結(jié)構(gòu)化數(shù)據(jù)的增長如此之快,以至于用戶需要采用不僅以計算速度運行的分析趟脂,而且還需要從其活動和用戶決策中自動學(xué)習(xí)的分析。自然語言處理(NLP)昔期,模式感測和分類以及文本挖掘算法都是常見的示例,文檔相關(guān)性分析硼一,情感分析和篩選器驅(qū)動的Web收集也是如此。具有機器學(xué)習(xí)智能的非結(jié)構(gòu)化數(shù)據(jù)分析使組織能夠:
- 分析數(shù)字通信的合規(guī)性般贼。 未能遵守法規(guī)可能會給公司造成數(shù)百萬美元的費用奥吩,訴訟和業(yè)務(wù)損失。模式識別和電子郵件線程分析軟件會搜索大量電子郵件和聊天數(shù)據(jù)圈驼,以查找潛在的不合規(guī)情況。最近的一個例子包括大眾汽車公司的困境绩脆,他們可能會通過使用分析來監(jiān)視可疑消息的通信,從而避免了巨額罰款和聲譽損失靴迫。
- 在社交媒體上跟蹤大量的客戶對話。 文本分析和情感分析使分析師可以查看營銷活動的正面和負面結(jié)果玉锌,甚至可以識別在線威脅。這種級別的分析是更為復(fù)雜的簡單關(guān)鍵字搜索主守,它只能報告基本信息榄融,例如海報在新廣告系列中多久提及一次公司名稱救湖。新的分析還包括上下文:提及是正面還是負面?海報互相反應(yīng)了嗎鞋既?對高管公告的反應(yīng)基調(diào)是什么?例如邑闺,汽車行業(yè)大量參與社會媒體的分析,因為購車者經(jīng)常轉(zhuǎn)向其他海報來評估他們的購車體驗陡舅。分析師結(jié)合使用文本挖掘和情感分析來跟蹤Twitter和Facebook上與汽車相關(guān)的用戶帖子。
- 獲得新的營銷情報蹭沛。 機器學(xué)習(xí)分析工具可快速處理大量文檔,以分析客戶行為摊灭。一家主要的雜志出版商對數(shù)十萬篇文章進行了文本挖掘,并根據(jù)主要子主題的受歡迎程度分析了每個單獨的出版物帚呼。然后,他們將分析擴展到所有內(nèi)容屬性煤杀,以查看哪些總體主題受到客戶人口統(tǒng)計的關(guān)注最多。該分析涉及所有出版物中成千上萬的內(nèi)容沈自,并且按細分交叉引用了熱門主題結(jié)果。結(jié)果是進行了豐富的教育枯途,使哪些主題最吸引不同的客戶纺座,以及哪些營銷信息最能引起他們的共鳴粟判。
*在電子數(shù)據(jù)展示中恭陡,數(shù)據(jù)科學(xué)家使用關(guān)鍵字搜索非結(jié)構(gòu)化數(shù)據(jù),并對所涉及的數(shù)據(jù)有一個合理的了解库说。 *
無論您的業(yè)務(wù)特點是什么,今天的目標都是挖掘業(yè)務(wù)價值璃弄,無論數(shù)據(jù)是結(jié)構(gòu)化的還是非結(jié)構(gòu)化的构回。兩種類型的數(shù)據(jù)都可能具有巨大的價值夏块,并且較新的工具可以聚合脐供,查詢,分析和利用所有數(shù)據(jù)類型政己,從而在整個公司數(shù)據(jù)中獲得深入的業(yè)務(wù)洞察力。