近年來出現(xiàn)了大量的新數(shù)據(jù)源耕肩,它們生成了前所未有的龐大輸出量那槽,并且輸出內(nèi)容通常結(jié)構(gòu)化程度不高甚至沒有任何結(jié)構(gòu),這可能是現(xiàn)代數(shù)據(jù)環(huán)境中存在的最大障礙鳞芙。從點擊流、服務(wù)器日志和社交媒體源到機器和傳感器讀數(shù)庸队,來自這些渠道的巨量數(shù)據(jù)簡直令人不知所措积蜻。從經(jīng)濟和性能視角來看,傳統(tǒng)企業(yè)數(shù)據(jù)倉庫 ( EDW ) 根本無法滿足這一波數(shù)據(jù)浪潮帶來的需求彻消。
這促使人們?nèi)嬷匦滤伎紨?shù)據(jù)捕捉和分析策略,最終開發(fā)出新一代數(shù)據(jù)存儲解決方案宙拉,這種解決方案致力于實現(xiàn)無架構(gòu)數(shù)據(jù)捕捉宾尚、硬件可擴展性,以及將計算能力提升到接近(如果無法超越的話)數(shù)據(jù)存儲本身的層級。
IT 團隊除了必須在當(dāng)前任務(wù)中克服重重障礙煌贴,維護一個健康的數(shù)據(jù)環(huán)境之外御板,他們還需要確保用戶可以隨時從云應(yīng)用程序中獲取數(shù)據(jù)。許多組織都將 Google Analytics牛郑、Salesforce怠肋、Netsuite、Zendesk 等云解決方案用作其基礎(chǔ)架構(gòu)的核心部分淹朋。它們生成的數(shù)據(jù)對于組織報告至關(guān)重要笙各。整合來自這些云解決方案的數(shù)據(jù)并使它們可供公司訪問,已然成了一個對 IT 的標(biāo)準(zhǔn)要求础芍。
由于自助式分析已成為各種規(guī)模組織的慣常做法杈抢,越來越多的非技術(shù)用戶(未接受過正式的 It / 數(shù)據(jù)培訓(xùn))將進行數(shù)據(jù)發(fā)現(xiàn)和報告,甚至包括數(shù)據(jù)準(zhǔn)備和高級分析仑性。采取此舉措的企業(yè)通常會看到這樣的結(jié)果:極大地減輕乃至完全去除 IT 團隊開發(fā)分析工具的職責(zé)惶楼。對于采用數(shù)據(jù)驅(qū)動思維模式的組織而言,盡管這一轉(zhuǎn)變對組織的整體成功至關(guān)重要诊杆,但也為 IT 團隊帶來了新的壓力歼捐,因為他們需要提供更廣泛的數(shù)據(jù)訪問。此外晨汹,還需確保技術(shù)滿足業(yè)務(wù)部門需求窥岩,以及 IT 對安全性和管控的需求。
為應(yīng)對這些新的挑戰(zhàn)宰缤,許多 IT 組織都競相采用新技術(shù)和新方法颂翼,大數(shù)據(jù)解決方案、云數(shù)據(jù)集成以及自助式分析都可用來解決更大的技術(shù)難題慨灭,但為了能夠在組織中有效部署這些技術(shù)方案朦乏,IT 需要改變工作方法。
3 大思維轉(zhuǎn)變氧骤,IT負(fù)責(zé)人需要了解這些轉(zhuǎn)變呻疹,才能支持組織制定數(shù)據(jù)驅(qū)動決策。
現(xiàn)代數(shù)據(jù)環(huán)境中的 3 大思維轉(zhuǎn)變
1用“管道”思維代替“數(shù)據(jù)桶”思維
企業(yè)數(shù)據(jù)倉庫并未被棄用筹陵,只是多了一些朋友刽锤。從 Hadoop 群集到NoSQL 數(shù)據(jù)庫,關(guān)系 EDW 不再是獲得正式批準(zhǔn)的唯一數(shù)據(jù)存儲位置朦佩。
這意味著并思,數(shù)據(jù)移動過程不再需要圍繞單一位置集中執(zhí)行。事實上语稠,如今的現(xiàn)代數(shù)據(jù)平臺更像是相互連接的神經(jīng)組織宋彼,它們將組織 “數(shù)據(jù)大腦”的左半腦和右半腦連接在一起弄砍。將此平臺與當(dāng)今無處不在的云解決方案相結(jié)合,基礎(chǔ)架構(gòu)和服務(wù)在幾個小時內(nèi)便可啟動管道/ETL 項目输涕,您只需掌握在組織內(nèi)移動數(shù)據(jù)的方法 - 這是史無前例的事情音婶。
遺憾的是,許多 IT 團隊大多錯過了這個機會莱坎,因為許多組織的數(shù)據(jù)管理手冊都是使用去年的 “萬能單一數(shù)據(jù)桶”思維模式編寫的衣式。
[if !supportLineBreakNewLine]
[endif]
從 “數(shù)據(jù)桶” 思維方式轉(zhuǎn)變?yōu)?“管道” 思維方式,其中的訣竅是接受這樣一個事實:并非組織中的所有數(shù)據(jù)問題都能從任何一個數(shù)據(jù)源中找到答案檐什。深入探索直接從消息服務(wù)器日志中擦掉的為期五年的電子郵件資產(chǎn)碴卧,這種對數(shù)據(jù)粒度的需求是 EDW 可能無法滿足的。而 Hadoop 部署也可能無法根據(jù)實時分析需要對銷售數(shù)據(jù)提供亞秒級的查詢響應(yīng)厢汹。在現(xiàn)實世界中螟深,許多業(yè)務(wù)問題都需要以精細(xì)的粒度快速查詢一個或多個數(shù)據(jù)源,而為了完成一個數(shù)據(jù)項目烫葬,則需要在不同的時段和不同的演替階段進行這些操作界弧。
業(yè)務(wù)用戶如何找到其數(shù)據(jù)答案?大多數(shù) IT 團隊都知道搭综,當(dāng)前在整個組織內(nèi)的電子表格中保存了許多未獲批準(zhǔn)的獨立數(shù)據(jù)存儲庫垢箕。但是,對于這些孤立的兑巾、未經(jīng)監(jiān)管的本地文件數(shù)據(jù)的蔓延条获,IT 團隊感到無力控制和管理。位于業(yè)務(wù)端的員工通常認(rèn)為蒋歌,圍繞企業(yè)數(shù)據(jù)環(huán)境開展工作是唯一切實可行的解決方案 - 這就是他們的工作帅掘。
當(dāng) IT 團隊全面了解業(yè)務(wù)用戶查找、清理堂油、分析和呈現(xiàn)數(shù)據(jù)的方式并為這一過程提供支持(同時就管控提供輔導(dǎo))時修档,才能轉(zhuǎn)變到“管道”思維模式。一旦技術(shù)團隊堅定地認(rèn)為府框,在傳統(tǒng)批處理 IT 層面以及業(yè)務(wù)用戶的即興查詢層面吱窝,數(shù)據(jù)移動比加固數(shù)據(jù)存儲庫更為重要,就會實現(xiàn)關(guān)鍵轉(zhuǎn)變迫靖。
從全球角度來看院峡,掌握所有這些信息并能夠從中發(fā)現(xiàn)見解越發(fā)顯得至關(guān)重要。
2使用基于需求的數(shù)據(jù)停放區(qū)
云應(yīng)用程序數(shù)據(jù)不能始終直接停放在企業(yè)數(shù)據(jù)倉庫中系宜。決策應(yīng)始終反映出組織的需求照激。或者蜈首,更清楚地說实抡,決策應(yīng)反映出需要采取哪些措施才能使數(shù)據(jù)對組織有用欠母。
IT 團隊(甚至那些已經(jīng)接受 “不存在萬能單一數(shù)據(jù)桶”的團隊)有個常見的誤解欢策,即認(rèn)為 Web 應(yīng)用程序數(shù)據(jù)應(yīng)自動直接整合到 EDW中吆寨。這在表面上合乎情理,因為許多成功的企業(yè)云應(yīng)用程序是銷售踩寇、營銷和支持基礎(chǔ)架構(gòu)的必要組成部分啄清。這些數(shù)據(jù)具有較高的指導(dǎo)意義、經(jīng)常被訪問俺孙,且通常具有優(yōu)良結(jié)構(gòu)辣卒。將這些資產(chǎn)放置在 EDW 中的投資報酬率(ROI)(其中,每字節(jié)的價格是最高的)貌似比較合理睛榄。
[if !supportLineBreakNewLine]
[endif]
但是荣茫,IT 團隊需要思考的關(guān)鍵問題是:
[if !supportLists]·?????[endif]是否可以直接從云端分析數(shù)據(jù)?換句話說场靴,數(shù)據(jù)是否整潔啡莉,以及我們應(yīng)不應(yīng)該費力耗神地移動數(shù)據(jù)?
[if !supportLists]·?????[endif]相關(guān)云數(shù)據(jù)的真正價值是否必須在與其他數(shù)據(jù)結(jié)合使用后才能實現(xiàn)旨剥?
[if !supportLineBreakNewLine]
[endif]
根據(jù)這些問題的答案咧欣,IT 團隊將其云數(shù)據(jù)資產(chǎn)放在哪里(如果他們選擇將這些數(shù)據(jù)資產(chǎn)直接放在本地環(huán)境)可能會因組織和應(yīng)用而異,允許將沒有刪除重復(fù)數(shù)據(jù)的機會記錄存放到 EDW 中,將會后患無窮轨帜。從不精確的傭金支出到大幅過度預(yù)計的收益數(shù)字魄咕,當(dāng)處理未妥善清理的銷售數(shù)據(jù)時,這些問題僅是冰山一角蚌父。
最終用戶獲得數(shù)據(jù)后哮兰,便能快速整合自己的基礎(chǔ)報告。最終用戶是產(chǎn)品和應(yīng)用程序變化的最直接感受者苟弛,他們可以快速發(fā)現(xiàn)可能需要調(diào)整的地方喝滞。
——SHARON GRAVES,GODADDY 企業(yè)數(shù)據(jù)拓展專員
同樣嗡午,如果記錄的準(zhǔn)確性不能讓人信服囤躁,那來自 Google Analytics、Eloqua 和 Marketo 等云數(shù)據(jù)源的網(wǎng)站和營銷數(shù)據(jù)可能會干擾組織跟蹤銷售線索流程和計算客戶獲取成本的能力荔睹。
當(dāng)必須合并數(shù)據(jù)源時狸演,此準(zhǔn)確性問題會變得異常糟糕。當(dāng)組織需要描繪完整的客戶漏斗(從第一次網(wǎng)站點擊一直到銷售決策)時僻他,通常會遇到上述情況宵距。雖然幾乎所有 IT 團隊都知道整潔數(shù)據(jù)(無論來自云或其他數(shù)據(jù)源)的重要性,但他們通常不會思考當(dāng)從Web 應(yīng)用程序中下載后吨拗,這些數(shù)據(jù)會首先放在哪里满哪。
但是婿斥,當(dāng)處理在被企業(yè)廣泛信任之前需要繁重和 / 或復(fù)雜處理的Web 應(yīng)用程序數(shù)據(jù)時,IT 團隊可以利用高計算速度哨鸭、低字節(jié)成本的環(huán)境民宿,例如 Hadoop 環(huán)境。借助上述第二種方法像鸡,資源可以在清理和轉(zhuǎn)換數(shù)據(jù)時發(fā)揮最大作用活鹰,而不會影響 EDW 的速度。隨后只估,處理業(yè)務(wù)的 IT 團隊可以決定是否應(yīng)該將清理后的數(shù)據(jù)移動到 EDW 中和 / 或在較大的環(huán)境中直接訪問這些數(shù)據(jù)志群。
最后,請牢記一點:有時可能根本不需要移動云應(yīng)用程序數(shù)據(jù)蛔钙。許多 Web 應(yīng)用程序正在為其后端存儲庫提供簡便的接入點锌云,這意味著業(yè)務(wù)用戶可以使用自助式報告和分析工具,對實時數(shù)據(jù)執(zhí)行各自的調(diào)查工作吁脱。針對這些情形桑涎,部分 IT 組織仍然希望擁有一個中間授權(quán)和管控層。究竟是否迫切需要移動數(shù)據(jù)(以進行清理和獲得其他價值等)豫喧,還是可以將數(shù)據(jù)留在原處并在業(yè)務(wù)用戶級別進行集成石洗?
3從數(shù)據(jù)保護者轉(zhuǎn)變?yōu)閿?shù)據(jù)指導(dǎo)者
應(yīng)將公司內(nèi)的自助式分析舉措視為面向 IT 的握手提議,而非有敵意的接管威脅紧显。那些首先伸出友誼之手的 IT團隊將為贏得一切勝利做好準(zhǔn)備讲衫。
不僅現(xiàn)代數(shù)據(jù)環(huán)境進行了擴展,以便不只包含關(guān)系數(shù)據(jù)存儲孵班;分析環(huán)境同樣得到了改善涉兽,以便包括每天都為業(yè)務(wù)用戶提供巨大價值的工具。此做法與傳統(tǒng)流程背道而馳篙程。在傳統(tǒng)流程中枷畏,所有分析數(shù)據(jù)都由經(jīng)過嚴(yán)格培訓(xùn)的少數(shù)尖端人才進行篩選。
結(jié)果虱饿,具有前瞻性思維的 IT 團隊正在轉(zhuǎn)變?yōu)槠涓笮徒M織內(nèi)的數(shù)據(jù)和分析思維引領(lǐng)者拥诡,并且正在重新定義他們與業(yè)務(wù)團隊的合作方式,從而解決數(shù)據(jù)難題氮发。從“數(shù)據(jù)保護者”到“數(shù)據(jù)指導(dǎo)者”渴肉,這一 IT 思維模式的轉(zhuǎn)變可能是現(xiàn)代數(shù)據(jù)環(huán)境中最重要的轉(zhuǎn)變。此轉(zhuǎn)變是決定組織能否成為真正的數(shù)據(jù)驅(qū)動型企業(yè)的一個關(guān)鍵因素爽冕。
重新定義 IT 與企業(yè)之間的這種關(guān)系仇祭,意味著將默認(rèn)的數(shù)據(jù)管控態(tài)度從“禁止” 調(diào)整為 “允許” 。這個新模式假設(shè)公司任何部門的業(yè)務(wù)用戶都可以訪問任何數(shù)據(jù)資產(chǎn)颈畸,只要其不違反合規(guī)性條例即可乌奇。
通過這種方式來培訓(xùn)業(yè)務(wù)用戶没讲,可有效將整個組織的分析報告能力提升一個量級。此外礁苗,這還可以幫助組織在自助式分析解決方案方面更快地獲得更高的投資回報爬凑。然而最重要的是,使用數(shù)據(jù)來更好地全面了解業(yè)務(wù)已然成為整個組織運營精髓的一部分寂屏。
3問題更難解決贰谣,但并非無計可施
從處理全新的數(shù)據(jù)存儲和處理解決方案娜搂,到了解在何時迁霎、何地以及是否應(yīng)該將云數(shù)據(jù)納入到生態(tài)系統(tǒng)中,負(fù)責(zé)管理組織數(shù)據(jù)流的IT 團隊的責(zé)任突然變得更加艱巨百宇。此外考廉,自助式分析舉措以及這些轉(zhuǎn)變共同實現(xiàn)了更大的成效 - 公司處理數(shù)據(jù)的方式發(fā)生了徹底的轉(zhuǎn)變。
組織需要 IT 來指導(dǎo)它們完成這一轉(zhuǎn)變携御。IT 團隊之所以會感覺到不確定昌粤,大多是因為他們知道問題已不在于是否將新技術(shù)應(yīng)用到現(xiàn)有業(yè)務(wù)流程中。大數(shù)據(jù)啄刹、云技術(shù)和自助式分析模式表明涮坐,IT 團隊需要從根本上改變方式,才能打造現(xiàn)代數(shù)據(jù)環(huán)境誓军。讓繁復(fù)的數(shù)據(jù)回歸簡單的初衷袱讹,Qlik一直在用實踐向人們證明著。