大數(shù)據(jù)、預(yù)測(cè)類話題熱門了很久了谭企,各種宏觀微觀的預(yù)測(cè)案例都是媒體喜聞樂(lè)道的話題倔毙。
這就涉及到“預(yù)測(cè)”這件事情的邊界問(wèn)題埃仪。預(yù)測(cè)是否有邊界?有的事情類似牛頓力學(xué)是決定論陕赃、像太陽(yáng)從東方升起一樣不用預(yù)測(cè)卵蛉;有的事情被認(rèn)為至今“不能預(yù)測(cè)”、比如對(duì)地震提前數(shù)月數(shù)天預(yù)測(cè)從古至今都難以做到么库;天氣可以大致預(yù)測(cè)傻丝、精確到城鎮(zhèn)和小時(shí)則很不容易。
那么廊散,事件是可以有方法可以衡量“可預(yù)測(cè)的程度”的嗎桑滩?
為什么有不少事情梧疲,事后人們認(rèn)為“顯而易見(jiàn)”“早有預(yù)示”允睹、卻為什么“沒(méi)早點(diǎn)想到”呢?
“在終極的分析中幌氮,一切知識(shí)都是歷史缭受;在抽象的意義下,一切科學(xué)都是數(shù)學(xué)该互;在理性的基礎(chǔ)上米者,所有的判斷都是統(tǒng)計(jì)學(xué)。”C.R.勞在《統(tǒng)計(jì)與真理——怎樣運(yùn)用偶然性》中這樣說(shuō)蔓搞。
那么胰丁,像第一次登月、第一次核試爆喂分、第一次發(fā)射衛(wèi)星锦庸,這類事情有何“歷史”可“統(tǒng)計(jì)”、來(lái)“預(yù)測(cè)”呢蒲祈?
有沒(méi)有“不是歷史的知識(shí)”的知識(shí)呢甘萧?
像“薛定諤的貓”這類“海森堡測(cè)不準(zhǔn)”的事情和“預(yù)測(cè)”又是什么關(guān)系呢?預(yù)測(cè)一定要有“度量”這個(gè)前提嗎梆掸?
既然抽象的意義下扬卷,一切科學(xué)都是數(shù)學(xué);我們已經(jīng)知道酸钦,“哥德?tīng)柌煌陚涠伞币呀?jīng)證明一切形式邏輯要么不完備怪得、要么內(nèi)部有悖論。那么“度量”卑硫、“預(yù)測(cè)”是不是也需要避開(kāi)“量子糾結(jié)”的場(chǎng)景呢汇恤?
比如,預(yù)測(cè)房?jī)r(jià)漲拔恰,如果這個(gè)預(yù)測(cè)的資訊馬上被潛在購(gòu)房人群吸收的話因谎,那么漲幅和速度可能甚至超過(guò)預(yù)測(cè);又比如颜懊,老師預(yù)測(cè)學(xué)生潛力不凡财岔,對(duì)學(xué)生的影響就會(huì)真的讓學(xué)生愈加超出原本的能力水平;又比如河爹,知名專家在機(jī)構(gòu)內(nèi)部對(duì)于股票的預(yù)測(cè)意外的傳播甚廣之后匠璧,對(duì)于實(shí)際股價(jià)的影響。比如咸这,醫(yī)生對(duì)病情的預(yù)測(cè)夷恍、有的時(shí)候也會(huì)影響患者的心態(tài)和病情,古代有“醫(yī)不自醫(yī)”“關(guān)心則亂”媳维、名醫(yī)自身和關(guān)切的人需要診斷的時(shí)候往往請(qǐng)另外的名醫(yī)幫助酿雪。
那么,“預(yù)測(cè)”的結(jié)果又會(huì)“自返放大”或者“自返縮小”侄刽、從而對(duì)被預(yù)測(cè)對(duì)象的原本發(fā)展趨勢(shì)造成了影響指黎?
“理性的判斷都是基于統(tǒng)計(jì)學(xué)”,但我們的日常經(jīng)驗(yàn)知道州丹,蕓蕓眾生醋安、繁華世界很多的決策和判斷都并不是基于統(tǒng)計(jì)杂彭,那么,我們的工作和生活中的常見(jiàn)“預(yù)測(cè)”有哪些方面是可考慮改進(jìn)的呢吓揪?從統(tǒng)計(jì)學(xué)和數(shù)學(xué)來(lái)看亲怠,現(xiàn)代人的數(shù)學(xué)知識(shí)比古人平均是要多一些了,決策和預(yù)測(cè)有“先見(jiàn)之明”的人柠辞,要不數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)豐富的人要稀有的多赁炎。這又涉及《思考,快與慢》中所說(shuō)的人類決策習(xí)慣的“奧卡姆剃刀”了钾腺。
另外徙垫,即便是規(guī)約到統(tǒng)計(jì)學(xué)和數(shù)學(xué),也還是存在一些問(wèn)題放棒∫霰ǎ《系統(tǒng)化思維》的溫伯格說(shuō),最容易控制的间螟、就是簡(jiǎn)單又有序吴旋,比如機(jī)械系統(tǒng)、牛頓的世界厢破,這是第一層荣瑟;第二層,還有雖復(fù)雜摩泪、但有序笆焰,就是雖然量大,但是所涉及的元素见坑,都是各個(gè)領(lǐng)域內(nèi)已經(jīng)比較有把握的東西嚷掠;但是,模塊內(nèi)已經(jīng)比較靠譜的各個(gè)模塊荞驴、數(shù)量一多不皆、聚在一起、組合到一起熊楼,卻未必靠譜霹娄。第三層,就是最不容易控制的鲫骗,就是量很大犬耻、分解到各個(gè)元素,各個(gè)元素自身都很無(wú)需難以控制挎峦,很難建模香追、或者計(jì)算量大到NP的程度,這種情況就是只能看歷史結(jié)果的統(tǒng)計(jì)了坦胶。
要簡(jiǎn)化給這三個(gè)性質(zhì)不同的情形各給一個(gè)代號(hào)名稱的話,我這里暫時(shí)稱呼第一層叫機(jī)械世界、第二層叫中數(shù)世界顿苇、第三層叫NP世界峭咒。我們?nèi)粘S龅降膱?chǎng)景,第一層已經(jīng)基本都機(jī)器自動(dòng)化了纪岁,第三層里有時(shí)稱“不可抗力”下的概率凑队。
第二層中數(shù)世界是比較常見(jiàn)的情形,就是雖復(fù)雜幔翰、但有序漩氨,就是雖然量大,但是分解后遗增、所涉及的元素叫惊,都是各個(gè)領(lǐng)域內(nèi)已經(jīng)比較有把握的東西。問(wèn)題在于做修,模塊內(nèi)已經(jīng)比較靠譜的各個(gè)模塊霍狰、數(shù)量一多、聚在一起饰及、組合到一起蔗坯,卻未必靠譜。雖然不靠譜燎含,也不必自暴自棄宾濒,不必直接就跳到概率的領(lǐng)域去完全聽(tīng)從概率發(fā)落;這中間屏箍,還有個(gè)叫系統(tǒng)論的學(xué)問(wèn)專治各種不服鼎兽。
通過(guò)對(duì)系統(tǒng)建模,讓我們基于對(duì)機(jī)械世界的確定性的認(rèn)識(shí)铣除,可以幫助到對(duì)中數(shù)世界的預(yù)期谚咬。不斷的提升中數(shù)世界的能力,盡力把NP世界的一些地盤轉(zhuǎn)化為中數(shù)世界的地盤尚粘;于是獲得某些領(lǐng)域的領(lǐng)先地位择卦。
小結(jié)一下零零星星了解的這些,就是郎嫁,人們決策秉继、或者為了決策支持的“預(yù)測(cè)”,有幾個(gè)前提:
一是泽铛,人要意識(shí)到“問(wèn)題”尚辑。
在《精益數(shù)據(jù)分析》中,涉及到人認(rèn)知有兩個(gè)層面盔腔、分出四個(gè)象限杠茬。
兩個(gè)層面月褥,一個(gè)層面是“顯性的”自己有明確意識(shí)的領(lǐng)域,一個(gè)層面是“人的潛意識(shí)”就是人心里隱約感知瓢喉、或者有這個(gè)能力宁赤,但沒(méi)有顯性的認(rèn)識(shí)到可語(yǔ)言表達(dá)的層面,比如栓票,有的高手的好習(xí)慣是下意識(shí)决左、他自己并不一定顯性的認(rèn)識(shí)了這些習(xí)慣在成效中為何能發(fā)揮著作用。
對(duì)于四象限走贪,
1我們知道自己知道的佛猛,可以用于預(yù)測(cè)的知識(shí);這種需要數(shù)據(jù)的檢驗(yàn)坠狡;
2知道自己不知道继找,可以去尋求幫助、或者調(diào)研擦秽,獲取一些知識(shí)码荔,再檢驗(yàn)這些知識(shí);
3不知道自己知道感挥,隱約懵懂缩搅,在決策中存在猶豫核模糊;也可以說(shuō)是直覺(jué)触幼,需要評(píng)估硼瓣、訓(xùn)練、整合置谦,從“隱學(xué)”變?yōu)椤帮@學(xué)”堂鲤。
4不知道自己不知道,就容易遺漏而不自知了媒峡;事情出現(xiàn)時(shí)才覺(jué)得吃驚瘟栖、沒(méi)有準(zhǔn)備、倉(cāng)促應(yīng)對(duì)谅阿。這個(gè)領(lǐng)域需要的是探索半哟。數(shù)據(jù)分析,既有描述型的數(shù)據(jù)分析签餐,也有探索型的數(shù)據(jù)分析寓涨。
如果對(duì)于某個(gè)領(lǐng)域,我們的象限4很大氯檐,那么很可能根本就不知道去發(fā)起“預(yù)測(cè)”這件事戒良、只覺(jué)得驚詫莫名、險(xiǎn)象環(huán)生冠摄。
所以糯崎,很多人都知道用麥肯錫的MECE法來(lái)分析問(wèn)題几缭,但很多問(wèn)題卻MECE執(zhí)行有局限。因?yàn)镸ECE是結(jié)構(gòu)化思維的范疇拇颅、假設(shè)能夠結(jié)構(gòu)化的分解“相互獨(dú)立奏司、窮舉不遺漏”乔询。各因素是不是“相互獨(dú)立”樟插?是否“有遺漏”?這兩件事情都考察著使用MECE的人的“不知道自己不知道”的盲點(diǎn)竿刁。
在傅盛的認(rèn)知升級(jí)論中黄锤,稱之為“認(rèn)知的打怪升級(jí)過(guò)程”:
不知道自己不知道——以為自己什么都知道,自以為是的認(rèn)知狀態(tài)食拜。
知道自己不知道——有敬畏之心鸵熟,開(kāi)始空杯心態(tài),準(zhǔn)備豐富自己的認(rèn)知负甸。
知道自己知道——抓住了事情的規(guī)律流强,提升了自己的認(rèn)知。
不知道自己知道——永遠(yuǎn)保持空杯心態(tài)呻待,認(rèn)知的最高境界打月。
二是,“問(wèn)題”要至少是可度量的蚕捉,無(wú)論是定性還是定量奏篙。度量、預(yù)測(cè)的行為至少在一定時(shí)間和范圍內(nèi)迫淹,需要避免“自返”秘通。比如上文說(shuō)的股價(jià)、房?jī)r(jià)敛熬、教師肺稀、醫(yī)生的例子。
三是应民,“問(wèn)題”自身的復(fù)雜度话原。如果是上文的機(jī)械世界、不需要預(yù)測(cè)瑞妇,要確保一貫的確定性的結(jié)果和表現(xiàn)稿静;如果是NP世界的問(wèn)題,就多從概率層面去預(yù)期辕狰;盡力提高對(duì)于中數(shù)世界的建模水平和計(jì)算能力改备,就是預(yù)測(cè)的主要著力之處。
這就是為什么預(yù)測(cè)要求的精細(xì)度蔓倍、顆粒度悬钳,會(huì)直接影響到預(yù)測(cè)的可行性和工作量盐捷。某個(gè)地區(qū)的氣候常常是可預(yù)期的,某一天是否會(huì)降雨就不那么確定了默勾,未來(lái)48小時(shí)某個(gè)片區(qū)是否降雨預(yù)報(bào)比較有把握碉渡,但精確到點(diǎn)鐘和小鎮(zhèn)就很不容易了∧赴“就好像知道一鍋水十分鐘會(huì)開(kāi)是很好預(yù)測(cè)的滞诺,但要預(yù)測(cè)各個(gè)氣泡先后從哪里冒出則很困難』诽郏”
以上就是我自己“民科”小結(jié)的關(guān)于預(yù)測(cè)的一些架構(gòu)性的問(wèn)題习霹,之后關(guān)于什么樣的中數(shù)問(wèn)題,如何解耦炫隶、系統(tǒng)化淋叶,解耦后的模塊的數(shù)量級(jí),耦合的關(guān)系如何處理伪阶,如何選擇模型煞檩,分解到算法上的可執(zhí)行性如何,這其中的學(xué)問(wèn)更是浩瀚深邃栅贴,且學(xué)且珍惜吧斟湃。