基本工作流程和數(shù)據(jù)流分析
管理咨詢佑稠、律師、會(huì)計(jì)旗芬、第三方認(rèn)證等等現(xiàn)代服務(wù)行業(yè)舌胶,普遍存在著數(shù)據(jù)的收集、分類疮丛、篩選幔嫂、處理和呈現(xiàn)等基本工作環(huán)節(jié)。
例如傳統(tǒng)管理咨詢中的市場(chǎng)調(diào)查分析模塊誊薄,通過(guò)觀察履恩、實(shí)驗(yàn)、調(diào)查等方法對(duì)市場(chǎng)信息進(jìn)行抽樣預(yù)估暇屋,獲取基本的市場(chǎng)信息似袁,進(jìn)而處理數(shù)據(jù)洞辣,篩選咐刨、過(guò)濾去除昙衅、分類和轉(zhuǎn)化分析市場(chǎng)數(shù)據(jù),進(jìn)行建模和計(jì)算定鸟,評(píng)估市場(chǎng)容量而涉、市場(chǎng)分類、市場(chǎng)趨勢(shì)等信息联予,如果用原始的線下問(wèn)卷調(diào)查方法啼县,如果有上億個(gè)樣本總量,抽樣的時(shí)間和成本將會(huì)非常驚人沸久。
在法律領(lǐng)域季眷,海量的法條、合同卷胯、裁判文書(shū)等法律相關(guān)文本構(gòu)成的數(shù)據(jù)信息子刮,在傳統(tǒng)模式中同樣需要檢索、整理窑睁、分析挺峡、判定等耗時(shí)耗力的工作,在海量的非結(jié)構(gòu)化電子文檔担钮,包括電子郵件橱赠、Office文檔、PDF文檔等等箫津,從數(shù)以TB計(jì)的數(shù)據(jù)中檢索案件相關(guān)文檔簡(jiǎn)直就是律師的噩夢(mèng)狭姨,費(fèi)時(shí)、費(fèi)力而且準(zhǔn)確性差苏遥。
在會(huì)計(jì)領(lǐng)域送挑,每天產(chǎn)生的大量的各種原始會(huì)計(jì)資料、原始憑證及記帳憑證暖眼,需要進(jìn)行確認(rèn)惕耕、計(jì)量、輸入诫肠、儲(chǔ)存司澎、處理、傳遞栋豫、反饋挤安、輸出、發(fā)布等數(shù)據(jù)處理流程丧鸯。尤其是原始憑證的處理蛤铜,如果靠人工進(jìn)行識(shí)別確認(rèn)、計(jì)量和輸入,同樣需要耗時(shí)耗力的基礎(chǔ)性工作围肥。
在認(rèn)證領(lǐng)域剿干,也同樣存在大量的報(bào)告信息輸入、判定穆刻、計(jì)算置尔、核對(duì)、確認(rèn)氢伟、反饋和輸出榜轿、蓋章、發(fā)布等環(huán)節(jié)朵锣,尤其是大量的數(shù)據(jù)處理和判定環(huán)境谬盐,如果靠人工,一份報(bào)告上千條的判定也同樣需要大量的人工智力勞動(dòng)诚些。
大數(shù)據(jù)和人工智能技術(shù)為批量的基礎(chǔ)信息處理工作提供了技術(shù)條件
數(shù)據(jù)采集環(huán)節(jié):
互聯(lián)網(wǎng)设褐、物聯(lián)網(wǎng)的數(shù)據(jù)采集技術(shù),將傳統(tǒng)的門(mén)店實(shí)地考察泣刹、線下問(wèn)卷調(diào)查助析、手動(dòng)識(shí)別和輸入的工作進(jìn)行了革命性的替代。
例如來(lái)訪網(wǎng)站的潛客行為軌跡與畫(huà)像進(jìn)行詳細(xì)的記錄分析椅您,而趨勢(shì)分析和熱詞分析技術(shù)外冀,可以隨時(shí)了解產(chǎn)品品牌、所處行業(yè)掀泳、以及競(jìng)品的口碑與聲量雪隧。如果用傳統(tǒng)的調(diào)查問(wèn)卷方法,數(shù)據(jù)的有效性员舵、及時(shí)性脑沿、準(zhǔn)確性和代表性都會(huì)大打折扣。
例如阿里商旅马僻,通過(guò)電子結(jié)算庄拇、電子發(fā)票等方式,免去了員工出差要收集韭邓、粘貼發(fā)票措近,會(huì)計(jì)要處理發(fā)票核對(duì)發(fā)票的大量繁重工作,解放了勞動(dòng)力女淑,降低了各項(xiàng)相關(guān)成本瞭郑。
例如律師可以使用網(wǎng)絡(luò)分析工具,去分析證人的Twitter聯(lián)系人網(wǎng)絡(luò)和活動(dòng)記錄鸭你,從而大大減少前期部分信息調(diào)查工作量屈张。
例如洛杉磯警察局利用大數(shù)據(jù)分析軟件擒权,獲取和跟蹤犯罪潛在對(duì)象的相關(guān)信息,成功的把轄區(qū)里的盜竊犯罪降低了33%阁谆, 暴力犯罪降低了21%碳抄,財(cái)產(chǎn)類犯罪降低了12%。
檢索環(huán)節(jié):
從最原始的圖書(shū)館文獻(xiàn)檢索笛厦、到互聯(lián)網(wǎng)檢索工具纳鼎、數(shù)據(jù)庫(kù)檢索技術(shù)的推廣應(yīng)用俺夕,信息技術(shù)對(duì)傳統(tǒng)需要大量檢索的工作模式進(jìn)行了顛覆性革新裳凸,而隨著大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)算法的完善,大大提高了對(duì)復(fù)雜的非結(jié)構(gòu)化的數(shù)據(jù)的檢索分析的能力劝贸,提高了法律文檔姨谷、市場(chǎng)信息、會(huì)計(jì)資料等各種數(shù)據(jù)格式的檢索效率映九。
如果傳統(tǒng)的搜索引擎定義為搜索1.0梦湘,它的工作方式是,理解問(wèn)題件甥,并給出大量相關(guān)文檔作為解答捌议;而新的搜索2.0技術(shù)與傳統(tǒng)搜索引擎不同,例如可以用自然語(yǔ)言向IBM Watson提出問(wèn)題引有,Watson則能夠反饋精確的答案瓣颅。從解答的過(guò)程來(lái)看,Watson通過(guò)使用數(shù)以百計(jì)的算法譬正,而非單一算法宫补,來(lái)搜索問(wèn)題的候選答案、并對(duì)每個(gè)答案進(jìn)行評(píng)估打分曾我,同時(shí)為每個(gè)候選答案收集其他支持材料粉怕,并使用復(fù)雜的自然語(yǔ)言處理技術(shù)深度評(píng)估搜集到的相關(guān)材料。當(dāng)越來(lái)越多的算法運(yùn)算的結(jié)果聚焦到某一個(gè)答案時(shí)抒巢,這個(gè)答案的可信度就會(huì)越高贫贝。
分類篩選環(huán)節(jié)
傳統(tǒng)模式是通過(guò)人工檢索到各種格式的文檔,例如郵件蛉谜,word平酿,PDF,EXCEL等悦陋,再進(jìn)行分析蜈彼,篩選,獲取相關(guān)的信息文本俺驶,再按照重要性幸逆、緊急度等指標(biāo)進(jìn)行排序棍辕,從而為下一步的數(shù)據(jù)處理工作做好準(zhǔn)備工作。
在這個(gè)環(huán)節(jié)还绘,如果是快速產(chǎn)生的海量數(shù)據(jù)楚昭,例如上千萬(wàn)app用戶的各種實(shí)時(shí)數(shù)據(jù),GPS定位拍顷、交易時(shí)間抚太、交易類型、交易對(duì)象昔案、付款方式等等尿贫,瞬間產(chǎn)生的大量數(shù)據(jù),要進(jìn)行及時(shí)的快速篩選和分類踏揣,就需要通過(guò)大數(shù)據(jù)技術(shù)進(jìn)行處理庆亡,如果是靠人工是無(wú)法完成的任務(wù)。
從上篇關(guān)于聚類分析的介紹中捞稿,傳統(tǒng)的人工分類技術(shù)可以通過(guò)聚類分析算法實(shí)現(xiàn)自動(dòng)分組又谋,并且通過(guò)抽象距離概念,根據(jù)關(guān)聯(lián)度娱局、相似度等量化指標(biāo)進(jìn)行文件信息進(jìn)行排序和組合彰亥。
對(duì)于非海量數(shù)據(jù),即便是三千個(gè)法律檔案衰齐,要從中快速篩選相關(guān)性高的案例檔案任斋,靠人工實(shí)現(xiàn)也是非常耗時(shí)的工作。例如IBM Watson發(fā)現(xiàn)顧問(wèn)模塊已經(jīng)可以發(fā)現(xiàn)和建立不同數(shù)據(jù)之間的關(guān)系娇斩,通過(guò)收集數(shù)據(jù)仁卷,基于數(shù)據(jù)進(jìn)行學(xué)習(xí),并迅速的提煉洞察犬第,協(xié)助法律工作锦积。
信息處理和輸出環(huán)節(jié)
例如在Watson分析問(wèn)題并確定最佳解答的過(guò)程中,運(yùn)用先進(jìn)的自然語(yǔ)言處理歉嗓、信息檢索丰介、知識(shí)表達(dá)和推理和機(jī)器學(xué)習(xí)技術(shù)。Watson依靠核心的IBMDeepQA技術(shù)鉴分,來(lái)生成假設(shè)哮幢、收集大量證據(jù)、并進(jìn)行分析和評(píng)估志珍。通過(guò)加載數(shù)以百萬(wàn)計(jì)的文件橙垢,包括字典、百科全書(shū)伦糯、網(wǎng)頁(yè)主題分類柜某、宗教典籍嗽元、小說(shuō)、戲劇和其他資料喂击,來(lái)構(gòu)建它的知識(shí)體系剂癌。
Watson會(huì)衡量每個(gè)候選答案的支持證據(jù),來(lái)確認(rèn)最佳的選擇及其可信度翰绊。當(dāng)這個(gè)答案的可信度達(dá)到一定的水平時(shí)佩谷,Watson就會(huì)將它作為最佳答案呈現(xiàn)出來(lái)。
機(jī)遇和挑戰(zhàn)
隨著新的算法技術(shù)的成熟和推廣應(yīng)用监嗜,各個(gè)行業(yè)傳統(tǒng)的工作流程谐檀、模式和人事架構(gòu)會(huì)受到顛覆性的創(chuàng)新,而在這個(gè)過(guò)程中秤茅,因?yàn)閭€(gè)人利益稚补、部門(mén)利益和思維慣性等現(xiàn)實(shí)阻礙因素的客觀存在童叠,使得新技術(shù)的推廣和應(yīng)用并不會(huì)像預(yù)想的摧枯拉朽一般的恐怖框喳,而是會(huì)呈現(xiàn)代際迭代和分階段實(shí)現(xiàn)的特點(diǎn)。
但是這個(gè)趨勢(shì)是在所難免的厦坛,當(dāng)新的技術(shù)和軟件的投資回報(bào)率遠(yuǎn)遠(yuǎn)大于雇傭勞動(dòng)力成本的情況下五垮,從長(zhǎng)遠(yuǎn)來(lái)講,裁員或職業(yè)轉(zhuǎn)型在所難免杜秸。
另一方面放仗,憑借互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)優(yōu)勢(shì)的企業(yè),除了提供橫向服務(wù)軟件和技術(shù)平臺(tái)之外撬碟,和其他服務(wù)行業(yè)的并購(gòu)或降維打擊也會(huì)帶來(lái)新的商業(yè)生態(tài)诞挨。
例如可以從阿里對(duì)傳統(tǒng)物流、基金銀行等金融行業(yè)的帶來(lái)改變的實(shí)際案例分析對(duì)其他行業(yè)進(jìn)行模擬推演呢蛤,新技術(shù)帶來(lái)的機(jī)遇和挑戰(zhàn)只是時(shí)間問(wèn)題惶傻。
其次,還有同業(yè)競(jìng)爭(zhēng)的壓力其障,從短期來(lái)看银室,傳統(tǒng)企業(yè),尤其是傳統(tǒng)巨型企業(yè)往往尾大不掉励翼,在強(qiáng)大的規(guī)模和慣性下蜈敢,在新技術(shù)產(chǎn)生的初期顯得保守,從中長(zhǎng)期來(lái)看汽抚,一旦有同行在這個(gè)領(lǐng)域內(nèi)通過(guò)新技術(shù)進(jìn)行大幅度的效率提升之后抓狭,在激烈的市場(chǎng)競(jìng)爭(zhēng)壓力下,同樣也會(huì)逐步使用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)采集等各個(gè)環(huán)節(jié)的創(chuàng)新和改變造烁,與此同時(shí)否过,也會(huì)促進(jìn)大數(shù)據(jù)技術(shù)的進(jìn)一步成熟和迭代更新狱从。