我理解的這幾個(gè)概念:
無線網(wǎng)絡(luò):無線傳感器網(wǎng)絡(luò)继谚,通過傳感器采集物理信息手负,將物理信息量化為數(shù)字信息豹储,通過無線網(wǎng)絡(luò)傳遞給互聯(lián)網(wǎng)若未。
大數(shù)據(jù):是一個(gè)相對的概念。對于需要分析的對象帽芽,獲取足夠多的信息翅帜。數(shù)據(jù)多是表象怜浅,但是不一定就是多,數(shù)據(jù)豐富是本質(zhì)爽醋。只要對于我們分析的對象蚁署,獲取到了足夠的豐富信息,就是大數(shù)據(jù)蚂四。
- 對于智能車光戈,就是獲取了車的速度,位置遂赠,電壓久妆,賽道等信息。
- 對于智能機(jī)器人跷睦,就要多很多筷弦,機(jī)器人的姿勢(兩條腿,兩條胳膊送讲,身體奸笤,頭,腳哼鬓,手,各個(gè)關(guān)節(jié)等)边灭,外界的環(huán)境情況异希,如果涉及交互就要采集外界的信息(語音,圖像等)绒瘦。
- 對于谷歌的流感預(yù)測称簿,則是使用了50多億的數(shù)據(jù),分析了4億多數(shù)學(xué)模型惰帽,得到了一個(gè)幾乎準(zhǔn)確的流感傳播模型憨降。
- 對于亞馬遜的圖書推薦,則是收集了我們的瀏覽與購買信息该酗,根據(jù)這些給我們推薦相關(guān)的書籍授药。
- 對于淘寶的年度賬單,得出的一些結(jié)論呜魄,是根據(jù)大量的購買信息分析出來的悔叽。
- 還有Farecast機(jī)票預(yù)測,沃爾瑪?shù)娘Z風(fēng)與甜點(diǎn)預(yù)測等爵嗅,這些幾乎都是海量數(shù)據(jù)進(jìn)行的分析娇澎。
(這中間傳感器的使用,方便了我們采集物理信息睹晒,實(shí)現(xiàn)數(shù)字化趟庄,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)化括细。數(shù)據(jù)化給我們提供了豐富的,可分析的信息戚啥。這中間信息將成為分析的關(guān)鍵奋单。數(shù)據(jù)分析也從樣本分析,越來越接近于全體分析)
智能制造:我理解的是指工業(yè)上虑鼎,機(jī)器能夠自主進(jìn)行生產(chǎn)辱匿。如果機(jī)器要做到自主生產(chǎn),這里邊就要隨時(shí)獲取外界信息來調(diào)整自己的工作狀態(tài)炫彩。隨著匾七,外界信息通過傳感器,越來越容易數(shù)字化江兢,數(shù)據(jù)化昨忆。機(jī)器通過這些數(shù)據(jù)化的外界信息,進(jìn)行決策與運(yùn)行杉允。只有足夠豐富的信息邑贴,機(jī)器才會(huì)做到合適的決策與執(zhí)行相應(yīng)的動(dòng)作。這里邊對于機(jī)器而言叔磷,豐富的數(shù)據(jù)化外界信息拢驾,就是大數(shù)據(jù)。我們是以自己的感官來取得信息改基,并根據(jù)所取得的信息來行動(dòng)繁疤,那機(jī)器人又何嘗不是呢(機(jī)器人的器官是傳感器)?(注2)
因果關(guān)系:一件事情(原因)的發(fā)生秕狰,必然導(dǎo)致了另一件事件(結(jié)果)的發(fā)生稠腊。
相關(guān)關(guān)系:一件事件(事件A)的發(fā)生,可能導(dǎo)致另一件事件(事件B)的發(fā)生鸣哀。
對于因果與相關(guān)是按自己的理解來解釋的架忌,與嚴(yán)謹(jǐn)?shù)慕忉尮烙?jì)偏差很大。下文的因果與相關(guān)我衬,都應(yīng)用這個(gè)理解叹放。
在這里,自己理解的因果關(guān)系是相關(guān)關(guān)系的一種特例低飒,即完全相關(guān)许昨。因果關(guān)系,導(dǎo)致了我們在分析問題時(shí)褥赊,簡化了大腦的工作量糕档。而相關(guān),導(dǎo)致了我們分析問題時(shí),要考慮很多可能導(dǎo)致問題的因素速那,會(huì)很費(fèi)腦筋俐银。由于人的特性,導(dǎo)致了希望簡化腦力分析端仰,而因果關(guān)系告訴我們捶惜,如果結(jié)果B發(fā)生了,一定是因?yàn)樵駻的緣故荔烧。而不用去分析很多可能導(dǎo)致B發(fā)生的問題吱七,這樣能節(jié)省很多腦力活動(dòng)。因果關(guān)系鹤竭,是在數(shù)據(jù)少的時(shí)候踊餐,大腦分析跟不上的時(shí)候,一種折中的辦法(這個(gè)在心理學(xué)上有這個(gè)解釋臀稚,小孩子的辨別相似物體的能力吝岭,要高于成年人)。而現(xiàn)在計(jì)算機(jī)的處理速度吧寺,節(jié)省了我們大腦的活動(dòng)窜管,這樣就不必使用近似的方法了,詳細(xì)的分析成為可能稚机。
現(xiàn)在我們的技術(shù)還主要在收集信息(無線傳感網(wǎng))幕帆,對于信息的分析將要(或者正在)進(jìn)入主要視野。谷歌翻譯的準(zhǔn)確度赖条,建立在其強(qiáng)大的語料庫上蜓肆。當(dāng)然算法也很重要,但是這里語料庫大小起到的作用可能會(huì)超過算法谋币。相當(dāng)于在數(shù)據(jù)量小時(shí)的方法,在數(shù)據(jù)量很大時(shí)可能就不是很適用症概。就像牛頓力學(xué)三定律蕾额,超過了其適用范圍,就不適用一樣彼城。
下邊主要說因果與相關(guān)诅蝶。
就像上邊提到的,在數(shù)據(jù)量小的時(shí)候募壕,更可能得出因果關(guān)系调炬。先提出假設(shè),根據(jù)我們觀察到的樣本舱馅,驗(yàn)證假設(shè)缰泡。如果沒有驗(yàn)證假設(shè),則假設(shè)失敗代嗤。重新提出新的假設(shè)棘钞,再繼續(xù)驗(yàn)證缠借,這相當(dāng)于是一個(gè)試錯(cuò)過程。即使是驗(yàn)證了的假設(shè)宜猜,由于觀察的樣本不是足夠大泼返,觀察的可能沒有包含反例。
當(dāng)數(shù)據(jù)量大的時(shí)候姨拥,發(fā)現(xiàn)原來認(rèn)為成立的因果關(guān)系绅喉,也出現(xiàn)了反證(對于光的解釋歷史,可能最能解釋這個(gè))叫乌。當(dāng)然這也是相對大柴罐,相對于之前大了很多。絕對大做不到综芥,因?yàn)橛袦y量極限的存在丽蝎。暫且以電路中的本底噪聲來解釋,電路中的信號如果小于電路的本底噪聲可能就無法檢測到信號的存在膀藐。我們的數(shù)據(jù)測量也一樣屠阻,所以我們看到的數(shù)據(jù)是我們看到的那些。我們沒有看到的肯定還有很多额各,但是我們沒有看到国觉。我們看到的,我們看到了虾啦;我們沒有看到的麻诀,現(xiàn)在沒有看到,以后可能會(huì)看到傲醉。就像以前我們沒有看到細(xì)胞蝇闭,當(dāng)看到細(xì)胞的時(shí)候,以為細(xì)胞就是最小單元硬毕;當(dāng)看到分子的時(shí)候呻引,認(rèn)為細(xì)胞就是最小單元;當(dāng)看到原子的時(shí)候吐咳,認(rèn)為原子就是最小單元逻悠;當(dāng)又出現(xiàn)了夸克,夸克又成了最基本粒子韭脊。那么是不是還有什么我們沒有觀察到的呢童谒?
于是原來的因果關(guān)系成了相關(guān)關(guān)系。在因果關(guān)系成立前沪羔,需要先給出很多前提饥伊,在這個(gè)前提下,因果關(guān)系是成立的。出了這個(gè)前提撵渡,可能就不成立了融柬,只有在外界環(huán)境都滿足的情況下,才可能成立趋距。當(dāng)前的所有(有些絕對粒氧,或者說幾乎全部)科學(xué)定律,科學(xué)發(fā)現(xiàn)节腐,都有成立的前提外盯。出了這個(gè)前提,可能就不成立翼雀,當(dāng)然也可能成立饱苟。引用一句: “我們大多數(shù)人都認(rèn)為數(shù)學(xué)是一切科學(xué)中最最面對事實(shí)的科學(xué),但它卻提出了最為大量的可資想象的隱喻狼渊;人們無論是從智力的角度或是從審美的角度來判斷數(shù)學(xué)箱熬,都不免要以這種隱喻的成就為依據(jù)”(注2)。
由此狈邑,對于很多事情城须,都是由其前提條件決定了因果關(guān)系。如果沒有了這些前提條件米苹,我們?nèi)绾蝸硪罁?jù)因果來做決策糕伐?或許在現(xiàn)在的條件下,超過這些前提的概率很小蘸嘶×记疲可以看做近似于因果關(guān)系(即幾乎完全相關(guān))。因果是相對的训唱,相關(guān)是絕對的褥蚯。就像靜止是相對的,運(yùn)動(dòng)是絕對的况增。當(dāng)然這樣說可能也是正確的遵岩,或者說幾乎是正確的。
在大數(shù)據(jù)時(shí)代巡通,分析事件間的關(guān)系,相關(guān)可能更能說明問題舍哄。統(tǒng)計(jì)學(xué)會(huì)在以后會(huì)更普及宴凉,不論是物理學(xué)、心理學(xué)表悬、電子通信還是其他弥锄,當(dāng)那一方面的研究到達(dá)一定階段的時(shí)候,統(tǒng)計(jì)學(xué)會(huì)逐漸成為理論基礎(chǔ)。因?yàn)橛袝r(shí)候籽暇,我們無法證明其中的因果關(guān)系温治。而找到相關(guān)關(guān)系確是相當(dāng)容易。對于需要因果的地方戒悠,再去嚴(yán)格尋找因果熬荆,尋找因果成立的前提。這個(gè)時(shí)候绸狐,是先有數(shù)據(jù)卤恳,后有結(jié)論。從數(shù)據(jù)中找結(jié)論寒矿。而過去是突琳,現(xiàn)有假設(shè),再去找數(shù)據(jù)符相。而這里邊拆融,都會(huì)出現(xiàn)因?yàn)槠娫斐傻腻e(cuò)誤結(jié)論。我們都會(huì)設(shè)法找有利于我們自身的例證啊终,而忽視對我們不利的例證镜豹。這是由我們的認(rèn)知和心理的自我趨利決定的。
現(xiàn)在各種傳感器孕索,更便利于將各種物理世界信息數(shù)據(jù)化逛艰,以存儲(chǔ)起來,進(jìn)行分析與利用搞旭。當(dāng)然這里不僅僅是指實(shí)際的物理世界散怖,甚至包括我們的心理,我們的情緒肄渗,我們的社會(huì)關(guān)系镇眷,更甚于包括我們的思想。當(dāng)大量的信息被數(shù)據(jù)化翎嫡,是否在不久的將來真的會(huì)出現(xiàn)《黑客帝國》中那樣的假想欠动。有一個(gè)數(shù)據(jù)化的世界存在著。
在如此多的數(shù)據(jù)中尋找因果幾乎是不可能的惑申,這時(shí)候同樣是因?yàn)槲覀儽灸艿淖晕亿吚呶椋瑴p少腦力或者其他資源的消耗,會(huì)將相關(guān)放在第一位圈驼,而忽略了因果人芽。
在目前的觀察范圍內(nèi),可能是這樣的:世界的本質(zhì)是數(shù)據(jù)绩脆,數(shù)據(jù)的關(guān)系是相關(guān)萤厅。
參考的書籍:
- 《大數(shù)據(jù)時(shí)代》
- 《人有人的用處》
- 《暗時(shí)間》
- 《最佳可能的世界》
- 《超越時(shí)空》
- 《判斷與決策》
- 《失敗的邏輯》
- 《控制論》
后記:
發(fā)現(xiàn)以前記得一句話在《最佳可能的世界》是:
“結(jié)果的成立橄抹,遠(yuǎn)不如其成立的前提更有價(jià)值”(注4)。但是在核對的時(shí)候怎么都找不到了惕味。所以放在這里楼誓。
關(guān)于這里寫的是在自己的觀察范圍內(nèi)的理解∶樱可能有自己沒有察覺到的地方疟羹。那樣,可能就需要以后再去補(bǔ)充躺同,或者改正阁猜。
記于:
2013-3-11