到2021年闷祥,具有智能數(shù)據(jù)探索分析功能的新型BI和分析平臺的用戶數(shù)量將是不具有智能數(shù)據(jù)探索分析功能的產(chǎn)品和平臺的兩倍,并且將創(chuàng)造兩倍的商業(yè)價值凯砍。from 深入解讀《Gartner2017年商業(yè)智能和分析平臺魔力象限報告》**
不在本文的討論范圍之內(nèi)的話題
- 語音識別相關(guān)的工作悟衩。個人理解語音只是輸入與輸出的一種方式,取代人工的文本輸入座泳;按鈕點擊;閱讀镇防。目前的計算機應(yīng)該還是需要把語音轉(zhuǎn)換成語義才能進行下一步計算潮饱。語音輸入與文本輸入唯一的區(qū)別可能就是語氣,在數(shù)據(jù)服務(wù)中可能僅僅用于調(diào)整請求的優(yōu)先級啦扬。
- 數(shù)據(jù)服務(wù)的穩(wěn)定性凫碌,實時性,高性能計算瞄摊。個人覺得這些屬于數(shù)據(jù)分析服務(wù)的基礎(chǔ)設(shè)施枉层,與智能無關(guān)赐写。當然這些是智能的前提。
- 搜索本身揉忘。當然搜索可以是智能服務(wù)的發(fā)起者端铛,搜索也是一種技術(shù)手段。
- 單一數(shù)據(jù)的分析您朽。比如灰度預(yù)測模型,神經(jīng)網(wǎng)絡(luò)預(yù)測几颜,數(shù)據(jù)的統(tǒng)計學(xué)分析等讯屈。
- 實現(xiàn)智能的技術(shù)手段。
為什么寫這篇文字
很快自己在杭州的第二個四年即將結(jié)束谆趾,雖然自己對數(shù)據(jù)分析服務(wù)理解并不透徹叛本,不過還是想跟2010年寫本科畢業(yè)論文那會一樣,拼拼湊湊怜跑,加一點想法吠勘,寫點像樣的文字來總結(jié)過去四年對于數(shù)據(jù)服務(wù)的認知。
下面開始是正文植锉。
已有內(nèi)容的探索發(fā)現(xiàn)
本小節(jié)提到的內(nèi)容包括數(shù)據(jù)源峭拘、數(shù)據(jù)集、分析維度(比如時間辉饱,部門等)拣展、指標(又稱度量,如收入姓惑,利潤按脚,人數(shù))、簡單報表唯沮、復(fù)雜報表(又稱儀表盤)、圖表夯缺、數(shù)據(jù)分析報告等甘耿。
具體的場景包括:
用戶打開你的服務(wù),可以根據(jù)用戶相似性推薦他可能感興趣的內(nèi)容
用戶可以根據(jù)關(guān)鍵字來找到對應(yīng)主題的內(nèi)容
用戶添加了數(shù)據(jù)集后捏境,自動推薦使用了對應(yīng)數(shù)據(jù)集的“上層”內(nèi)容
用戶在閱讀某份報告的時候毁葱,向其推薦類似的報告
用戶可以根據(jù)某個可視化的簡圖或者照片來搜索對應(yīng)的報告
相關(guān)技術(shù):圖像相似性
場景:用戶記得圖的樣子,但是找不到是具體哪個報告里基于地理位置來推薦內(nèi)容
場景:一個會議上筷频,大家同時討論一個對象
已有內(nèi)容的智能排序
不同的時間點前痘,地理位置,數(shù)據(jù)消費者需要根據(jù)不同的報表來進行決策坯癣。
- 每周一早上例會可能需要一份指定的報告
- 每天下班前可能需要確認一份數(shù)據(jù)
- 到門店交流時需要用到一份指定報表
問詢式的數(shù)據(jù)服務(wù)
用戶無需了解是否已經(jīng)存在已有的報表或者圖表最欠,只需要告知引擎他心中的問題,引擎自動去提取合適的分析維度與指標蚜点。結(jié)果可以是一個數(shù)字拌阴,或者一個圖表皮官。
上圖中的例子是用戶想知道某個地區(qū)附近最貴的房子实辑。例子與圖片來自Tableau 2017 - 2020 年的產(chǎn)品規(guī)劃。
微軟的Power BI 已經(jīng)提供類似功能摄乒。
數(shù)據(jù)的自動可視化呈現(xiàn)與解讀
當數(shù)據(jù)加載完畢馍佑,引擎是否可以知道用戶的下一步意圖呢?有數(shù)據(jù)積累的公司拭荤,比如Google舅世,已經(jīng)可以做到了。在Google Spreadsheet上用戶點擊任意一個Cell(最小數(shù)據(jù)單位)缨硝,頁面右側(cè)便有對應(yīng)的可視化呈現(xiàn)與解讀罢低。可視化是一部分网持,解讀更是重要的一部分功舀。
注:可以點擊查看大圖來閱讀Google對于這些數(shù)據(jù)與圖表給出的解讀。
同一份數(shù)據(jù)遣铝,機器可能更知曉最合適的呈現(xiàn)方式莉擒,是基本餅圖、條形圖填硕、折線圖鹿鳖,還是熱圖、樹圖姻檀、數(shù)據(jù)地圖或者散點圖涝滴。
討論一下技術(shù)實現(xiàn)胶台,如果你有大量的數(shù)據(jù)與匹配的可視化樣本诈唬,你可以拿來做深度學(xué)習(xí)缩麸。但是解讀這部分,你可能需要更多互聯(lián)網(wǎng)上的“經(jīng)驗”愚屁,比如財經(jīng)新聞痕檬,科技報道,咨詢報告丘跌。無疑唁桩,Google在這方面的積累遙遙領(lǐng)先。
異常數(shù)據(jù)的監(jiān)測與自動解釋
對于數(shù)據(jù)消費者报辱,看到一條曲線出現(xiàn)突變单山,你肯定會特別留意并需要找到突變的原因。智能的引擎應(yīng)當能夠監(jiān)測標注并給出解釋昼接。比如某產(chǎn)品銷量的下降可能跟以下因素有關(guān)悴晰,
- 惡劣天氣、假期
- 供貨商供貨不及時
- 另外一款產(chǎn)品進行了促銷活動
(圖片來自Tableau Software)
監(jiān)測到異常數(shù)據(jù)告警之類的應(yīng)該不屬于智能服務(wù) :)
咨詢服務(wù)
一個App,一家餐飲連鎖棕硫,一家銀行,不同時期需要關(guān)注的數(shù)據(jù)是哪些复凳? 平臺化的數(shù)據(jù)分析服務(wù)提供者有能力提供此類智能的咨詢服務(wù)灶泵,這可能也是最高級的智能服務(wù)赦邻。
微軟的Power BI上提供了一系列的模板幫助消費者快速分析一個對象,比如一個網(wǎng)站的訪問情況(基于Google Analytics 數(shù)據(jù))惶洲,一個軟件工程的狀態(tài)(基于Github數(shù)據(jù))恬吕。
當然真正值錢的咨詢服務(wù)還是要收費的,預(yù)收費還是后付費的問題渐裂。
數(shù)據(jù)清理
注:本小節(jié)無具體表述钠惩。
其他
我們大刀闊斧地投入人力與財力研發(fā)產(chǎn)品之前篓跛,或許需要思考智能化的服務(wù)可以帶來什么真正的價值,當然帶來商業(yè)價值也是一種價值愧沟。
本文沒有討論技術(shù)手段,但是很多智能都需要基于數(shù)據(jù)與樣本计盒,那么那些服務(wù)部署在企業(yè)私有云上的廠家就要考慮這個問題了芽丹。“借刀殺人”是個不錯的策略咕村。