信息技術(shù)最直接的成果就是產(chǎn)生了更快的計(jì)算,以及更大的數(shù)據(jù)儲存能力藤违。這幾乎成為了技術(shù)的本能浪腐,想必所有人身邊都有一兩個喜歡收集一切信息,爬取所有數(shù)據(jù)的技術(shù)人員顿乒。如果說為什么要這么做的話议街,只會有這樣的回答“因?yàn)閿?shù)據(jù)在那里”。
數(shù)據(jù)儲存
數(shù)據(jù)儲存是最早解決的問題璧榄,從早期的KB級儲存單位到現(xiàn)在的TB級儲存單位特漩,已經(jīng)有了長足的進(jìn)步。與之同時(shí)提高的是數(shù)據(jù)的訪問速度骨杂。但盡管如此涂身,對于
數(shù)據(jù)收集
數(shù)據(jù)收集也不是一個老的話題,從早期的人口統(tǒng)計(jì)搓蚪、地形圖繪制開始蛤售,這也是數(shù)據(jù)控所喜歡的活動。在信息技術(shù)時(shí)代的早期妒潭,數(shù)據(jù)收集是通過將社會活動電子化備份進(jìn)行的悴能,比如除了提供紙質(zhì)收據(jù)之外,系統(tǒng)里有一份電子收據(jù)的留存雳灾。在現(xiàn)在漠酿,很多數(shù)據(jù)收集通過信息技術(shù)本身進(jìn)行,比如消費(fèi)記錄谎亩、瀏覽記錄等等炒嘲,這些數(shù)據(jù)都是通過網(wǎng)站數(shù)據(jù)收集進(jìn)行;而現(xiàn)在已經(jīng)開始通過O2O將一部分線下行為也通過互聯(lián)網(wǎng)進(jìn)行匈庭,比如共享單車的使用記錄》蛲梗現(xiàn)在正在探索的是通過物聯(lián)網(wǎng)將更多的線下物理行為和物流轉(zhuǎn)換的數(shù)據(jù)收集起來。
數(shù)據(jù)結(jié)構(gòu)化
僅僅將所有數(shù)據(jù)都存在硬盤里并不能滿足技術(shù)嚎花。技術(shù)還希望能夠?qū)?shù)據(jù)分門別類放好寸痢,我稱之為數(shù)據(jù)的結(jié)構(gòu)化呀洲。這個實(shí)際上的意義是為了方便數(shù)據(jù)的檢索紊选,但根本上的原因恐怕還是為了滿足技術(shù)的美感啼止。分類學(xué)誕生也比信息技術(shù)要早,早在18世紀(jì)林奈就建立比較完善的植物分類學(xué)兵罢。這是一種樹狀的結(jié)構(gòu)∠追常現(xiàn)在知識圖譜、社交網(wǎng)絡(luò)都在建立一個圖狀的結(jié)構(gòu)來將所以實(shí)體連接起來卖词,并希望能夠從中產(chǎn)生出更智能的應(yīng)用巩那。
數(shù)據(jù)檢索
快速的獲取數(shù)據(jù)在數(shù)據(jù)收集之后成為一個問題。第一點(diǎn)困難在于計(jì)算能力不足以快速掃描上億條數(shù)據(jù)此蜈,這一點(diǎn)通過數(shù)據(jù)庫建立索引表可以一定程度解決即横,但這需要明確的查詢腳本來實(shí)現(xiàn)。第二點(diǎn)困難在于處理模糊的查詢裆赵,這是一個介于人工智能的問答系統(tǒng)和明確的查詢腳本之間的問題东囚,通常的解決方案是將模糊的查詢轉(zhuǎn)換為若干明確的查詢腳本,早期的谷歌搜索引擎就是這樣解決這個問題的战授。
應(yīng)用
技術(shù)的這一本能可能是金融最早應(yīng)用页藻,也是收益最多的,可能也是金融的本能之一植兰。這一本能主要是為了提升估值精度份帐,當(dāng)然也提高了專職于這一功能的金融節(jié)點(diǎn)(如審計(jì)、分析師楣导、監(jiān)管)的效率废境。通過收集更多的信息,對標(biāo)的物爷辙、對行業(yè)和公關(guān)經(jīng)濟(jì)的評估都會更準(zhǔn)確彬坏。征信系統(tǒng)本質(zhì)上也是通過對人的各個數(shù)據(jù)進(jìn)行收集,來判斷此人的信用情況膝晾。
技術(shù)方面也有了大量的實(shí)踐栓始,比如電子賬目、商務(wù)智能血当、搜索引擎等幻赚。但這方面依然有大量的可能性。比如Orbital
Insight通過衛(wèi)星獲得地面圖像臊旭,來獲得物流落恼、農(nóng)業(yè)數(shù)據(jù)。對文本也依然停留在檢索階段离熏,尚未進(jìn)入理解階段佳谦。對人流、交通的數(shù)據(jù)剛進(jìn)入采集階段滋戳。對物流钻蔑、電流的數(shù)據(jù)采集還在物聯(lián)網(wǎng)的試驗(yàn)階段啥刻。