從大數(shù)據(jù)的提出到現(xiàn)在丈屹,已經(jīng)過去將近10年的時(shí)間了,大數(shù)據(jù)的概念在全球范圍內(nèi)也越來越火爆,而2016年、2017年接踵而至的AlphaGo仰禽、各大巨頭的無人駕駛,甚至各個(gè)國家都發(fā)布了的大數(shù)據(jù)戰(zhàn)略等新聞瘸羡,更是讓人覺得大數(shù)據(jù)以及機(jī)器智能已經(jīng)來到我們的生活中了代赁。
吳軍老師《智能時(shí)代》一書中提出,大數(shù)據(jù)對于整個(gè)社會來說不僅僅是一種技術(shù)革命踊兜,更是一種又技術(shù)而引發(fā)的思維革命竿滨。在社會影響力上,只有始于英國的工業(yè)革命、始于德國和美國的二次工業(yè)革命于游、以及“二戰(zhàn)”后以摩爾定律為標(biāo)準(zhǔn)的信息革命能夠與其相比毁葱。而對人類認(rèn)識世界的方法上,只有引發(fā)工業(yè)革命的機(jī)械思維能夠與之相匹配贰剥。
要認(rèn)識有大數(shù)據(jù)而引發(fā)的數(shù)據(jù)思維革命倾剿,首先去看看將人類帶入現(xiàn)在社會,并影響了人類幾個(gè)世紀(jì)的機(jī)械思維是什么蚌成?
機(jī)械思維——人類現(xiàn)代文明的基礎(chǔ)
現(xiàn)在我們在說起機(jī)械思維的時(shí)候前痘,可能會與死板、僵化笑陈、落伍等貶義詞聯(lián)系在一起际度,甚至“機(jī)械”一詞本身都算不上什么好詞。但是在過去的三個(gè)多世紀(jì)里面涵妥,機(jī)械思維可以算得上是人類總結(jié)出的最重要的思維方式乖菱,如同大數(shù)據(jù)思維、互聯(lián)網(wǎng)思維在當(dāng)今的地位蓬网,在當(dāng)時(shí)也是很時(shí)髦的概念窒所,并且它的影響力也一直延續(xù)到今天。
機(jī)械思維是歐洲之所以能夠在科學(xué)上領(lǐng)先于世界的重要原因帆锋,其核心方法論是有笛卡爾建立的“通過正確的證據(jù)吵取、正確的推理、得到正確的結(jié)論”的科研方法锯厢,概括的說就是“大膽假設(shè)皮官,小心求證”。這種思維方式造就了從歐幾里得到托勒密再到牛頓等一位位科學(xué)巨匠实辑,將人類帶入科學(xué)時(shí)代捺氢,讓人們相信世界萬物的運(yùn)動(dòng)遵循著某種確定性的變化規(guī)律,而這些規(guī)律又是可以被認(rèn)知的剪撬,給人類帶來了前所未有的自信摄乒。
機(jī)械思維以及因機(jī)械思維而發(fā)明的各種各樣的機(jī)械,直接導(dǎo)致了人類迄今為止最為偉大的事件——工業(yè)革命残黑,極大的增加了社會的財(cái)富馍佑、延長了人類的壽命,它為人類文明的進(jìn)步帶來了前所未有的進(jìn)步梨水,其核心思想為:
1. 世界變化的規(guī)律是確定的拭荤;
2. 因?yàn)橛写_定性做保證,因此規(guī)律不僅是可以被認(rèn)知的疫诽,而且可以用簡單的公式或者語言描述清楚舅世;
3. 這些規(guī)律應(yīng)該是放之四海皆準(zhǔn)的笼恰,可以應(yīng)用到各種未知領(lǐng)域知道實(shí)踐。
概括的來說歇终,機(jī)械思維就是確定性(可預(yù)測性)和因果關(guān)系。牛頓可以把所有天體運(yùn)動(dòng)的規(guī)律用幾個(gè)定律講清楚逼龟,并且應(yīng)用到任何場合都正確评凝,這就是確定性。類似地腺律,當(dāng)我們給物體施加一個(gè)外力時(shí)奕短,它就獲得一個(gè)加速度,而加速度的大小取決于外力和物體本身的質(zhì)量匀钧,這是一種因果關(guān)系翎碑。
機(jī)械思維為人類帶來了前所未有的進(jìn)步,但它的所有邏輯都是建立在確定性的基礎(chǔ)之上之斯,所以這個(gè)基礎(chǔ)的正確性就決定了機(jī)械思維的適用性日杈。那么這個(gè)世界到底是不是確定的呢?
世界是確定的還是不確定的
愛因斯坦有句名言——“上帝不擲篩子”佑刷,這是他在量子力學(xué)的發(fā)明人波爾等人爭論時(shí)講的話莉擒,其要表達(dá)的意思也和明顯——世界是確定的。但是今天我們知道在這場爭論中瘫絮,波爾等人是正確的涨冀,愛因斯坦錯(cuò)了,上帝是擲篩子的麦萤,這個(gè)世界充滿了不確定性鹿鳖。
對于不確定性最好的例子那就是股市預(yù)測了,如果統(tǒng)計(jì)一下各種專家對于股市的預(yù)測壮莹,就會發(fā)現(xiàn)它們基本上是對錯(cuò)各一半(巴菲特甚至用猴子來比喻這些投資專家)翅帜。這一方面是由于影響股市的因素太多,一個(gè)人或者一個(gè)機(jī)構(gòu)很難將這些因素都研究透徹垛孔。光是美國政府和一些研究所公布的各種經(jīng)濟(jì)數(shù)據(jù)就多達(dá)兩萬藕甩,最好的經(jīng)濟(jì)學(xué)家一輩子能夠研究透的經(jīng)濟(jì)指標(biāo)還不到1%,有太多的不確定因素是他們考慮不到的周荐,因此無法準(zhǔn)確預(yù)測市場狭莱。再加上還有很多因素是目前我們尚未發(fā)現(xiàn)的,或者發(fā)現(xiàn)了但是忽略了的概作,這就使得預(yù)測的準(zhǔn)確率進(jìn)一步下降腋妙。事實(shí)上,美國大部分基金的投資回報(bào)率并沒有市場的平均值高讯榕,這也在很大程度上證明了世界的不確定性骤素。
另一方面匙睹,我們預(yù)測活動(dòng)本身影響了被測量的結(jié)果,當(dāng)有人按照某個(gè)理論買或賣股票時(shí)济竹,其實(shí)給股市帶來了一個(gè)相反的推動(dòng)力痕檬,導(dǎo)致股市在微觀上的走向和理論預(yù)測的方向相反,從而導(dǎo)致了股市的不可預(yù)測性送浊。
其實(shí)這就是世界不確定性的兩個(gè)主要來源梦谜。首先,當(dāng)我們對這個(gè)世界的方方面面了解得越細(xì)致后袭景,會發(fā)現(xiàn)影響世界的變量其實(shí)非常多唁桩,已經(jīng)無法通過簡單的方法或者公式算出結(jié)果,因此我們寧愿采用一些針對隨機(jī)事件的方法來處理耸棒,人為地把它歸為不確定的一類荒澡。
另一個(gè)因素來自客觀世界本身,它是宇宙的一個(gè)特性与殃。在宏觀層面单山,行星圍繞恒星運(yùn)動(dòng)的速度和位置是可以計(jì)算得很準(zhǔn)確的,從而可以畫出它的運(yùn)動(dòng)軌跡奈籽。但是在圍觀世界里饥侵,電子在圍繞原子核做高速運(yùn)動(dòng)時(shí),我們不可能同事準(zhǔn)確的測定出他在某一時(shí)刻的位置和運(yùn)動(dòng)速度衣屏,當(dāng)然也就不能描繪它的運(yùn)動(dòng)軌跡了躏升。
如果世界是不確定的,那么面對世界的不確定性狼忱,我們應(yīng)該以何種方式去處理呢膨疏?或者說我們應(yīng)該怎樣去面對世界的不確定性呢?
解決不確定性問題的思維方式
要解決不確定性問題钻弄,這在過去可能很難解決佃却,因?yàn)椴淮_定性因素太多,如果一一將不確定性因素找出來窘俺,然后將其解決饲帅,這基本上是不可能的,成本太高了瘤泪,而且收益并沒有想象中的那么大灶泵。但是得益于由摩爾定律所帶來的信息革命,從數(shù)據(jù)的產(chǎn)生对途、存儲赦邻、傳輸和處理各個(gè)環(huán)節(jié)的成本都極大的降低,數(shù)據(jù)量呈現(xiàn)出爆炸性增長实檀,使得收集各個(gè)維度的數(shù)據(jù)成為了可能惶洲,也就為解決不確定性問題奠定了基礎(chǔ)按声。
概括的來講即使利用信息來消除不確定性,即用不確定性的眼光看待世界恬吕,再用信息消除不確定性签则,將很多智能問題轉(zhuǎn)化為信息處理問題。具體到操作方法上就是用尋找事物的強(qiáng)相關(guān)性關(guān)系代替原來的尋找因果關(guān)系來解決問題铐料。為了說明這種方法的轉(zhuǎn)變怀愧,吳軍老師舉了Google在搜索算法優(yōu)化的一個(gè)例子。
在2005年之前余赢,Google不斷的使用數(shù)據(jù)來提高搜索質(zhì)量,但是主要的工作方法還是遵循因果關(guān)系哈垢。比如發(fā)現(xiàn)有些搜索結(jié)果相關(guān)性不好妻柒,那么需要先分析原因,在尋找答案耘分。這在網(wǎng)頁搜索質(zhì)量還有很大的提升空間的時(shí)候举塔,這種方法還能降搜索質(zhì)量每年提高3%~5%,但是隨著搜索質(zhì)量接近完美求泰,再按這樣的工作方式每年進(jìn)步連1%都不到央渣。
這個(gè)時(shí)候Google發(fā)現(xiàn)搜索質(zhì)量和很多數(shù)據(jù)特征有很強(qiáng)的相關(guān)性,利用這些特性可以迅速提升搜索結(jié)果的質(zhì)量渴频。而與搜索質(zhì)量相關(guān)性最高的是大量的點(diǎn)擊數(shù)據(jù)芽丹,即對于不同的搜索關(guān)鍵字,用戶們都點(diǎn)擊了哪些搜索結(jié)果卜朗。例如對于“虛擬現(xiàn)實(shí)”這個(gè)查詢拔第,用戶有31000次點(diǎn)擊了網(wǎng)頁A,15000次點(diǎn)擊了網(wǎng)頁B场钉,11000點(diǎn)擊了網(wǎng)頁C......這種情況下網(wǎng)頁A應(yīng)該被排在第一位蚊俺,但是如果搜索引擎排序算法不好,有可能出現(xiàn)它沒有排在第一位的情況逛万。這是搜索引擎的設(shè)計(jì)者就面臨一個(gè)選擇泳猬,是采用通過研究改進(jìn)的排序算法,還是干脆相信用戶的點(diǎn)擊結(jié)果宇植,或者是將它們結(jié)合在一起得封。如果單純的改排序算法,這個(gè)周期特別長当纱;如果相信用戶點(diǎn)擊的結(jié)果呛每,其實(shí)就是用相關(guān)性取代因果關(guān)系。
今天來看坡氯,各個(gè)搜索引擎都有一個(gè)度量用戶點(diǎn)擊數(shù)據(jù)和搜索結(jié)果相關(guān)性的模型晨横,而且在搜索排序中至少占70~80%的權(quán)重洋腮,也就是說在今天的搜索引擎中,因果關(guān)系已經(jīng)沒有數(shù)據(jù)相關(guān)性重要了手形。
大數(shù)據(jù)思維是從大量數(shù)據(jù)中找到直接答案(即使不知道原因)的思維方法啥供。這個(gè)我們尋找解決問題的方法提供了捷徑,也為我們解決不確定性問題提供的方法库糠。但這種找不出原因的答案我們是否敢接受伙狐,也是大數(shù)據(jù)思維的一部分。
數(shù)據(jù)時(shí)代的思維方式
雖然數(shù)據(jù)時(shí)代已經(jīng)到來瞬欧,大數(shù)據(jù)思維在這個(gè)時(shí)代的重要性也越發(fā)突出贷屎,但是大數(shù)據(jù)思維和機(jī)械思維并非完全對立的,他更多的是后者的補(bǔ)充艘虎。
對于能夠找到確定性和因果關(guān)系的事物唉侄,機(jī)械思維依然是最好的方法。但是面對不確定的世界(今天我們面臨的復(fù)雜情況野建,已經(jīng)不是機(jī)械時(shí)代用幾個(gè)定律就能講清楚的了)属划、無法確定因果關(guān)系時(shí),大數(shù)據(jù)思維將為我們提供新的方法論候生。
而隨著人類對世界認(rèn)識得越來越清楚同眯,人們發(fā)現(xiàn)世界本身存在著很大的不確定性;在加上原有的機(jī)械思維尋找因果關(guān)系唯鸭,其難度非常大须蜗,除了靠物質(zhì)條件、努力外目溉,還需要靠靈感和運(yùn)氣唠粥,很多問題難以解決,或者解決的成本太高停做、時(shí)間周期太長晤愧。這就使得大數(shù)據(jù)思維在當(dāng)今這個(gè)時(shí)代顯得越發(fā)重要。
參考資料
1. 吳軍.《智能時(shí)代》.中信出版社蛉腌,2017
2. 吳軍.《文明之光(第二冊)》.人民郵電出版社官份,2015