大數(shù)據(jù)與模式識(shí)別
? ? ? 2014年,最熱鬧的概念莫過(guò)于大數(shù)據(jù)蝗茁,大數(shù)據(jù)似乎成為科技和商業(yè)發(fā)展的未來(lái)醋虏。但我個(gè)人認(rèn)為,大數(shù)據(jù)無(wú)論從技術(shù)還是應(yīng)用都不能承載時(shí)代給予的重任哮翘,而模式識(shí)別才是颈嚼。業(yè)界給予大數(shù)據(jù)如此之高的期望,是人們從數(shù)據(jù)匱乏時(shí)代走向數(shù)據(jù)富足時(shí)代忍坷。人們過(guò)去的決策往往是基于數(shù)據(jù)和信息不充分的背景下粘舟,人們期望在信息完整的背景下做出決策,這是大數(shù)據(jù)的根本所在佩研,也是優(yōu)勢(shì)所在柑肴。但這同時(shí)是大數(shù)據(jù)的軟肋所在,優(yōu)勢(shì)同時(shí)也是劣勢(shì)旬薯。有人說(shuō)晰骑,大數(shù)據(jù)分析就是模式識(shí)別,這個(gè)觀點(diǎn)有問(wèn)題绊序。大數(shù)據(jù)分析需要模式識(shí)別支撐硕舆,但是,模式識(shí)別的內(nèi)涵要大于大數(shù)據(jù)分析骤公,模式識(shí)別是獨(dú)立于大數(shù)據(jù)分析的抚官。
? ? ? ?大數(shù)據(jù)的采集和量級(jí)已經(jīng)不是問(wèn)題,最核心的問(wèn)題是數(shù)據(jù)之間的關(guān)系阶捆。那些是有效數(shù)據(jù)凌节,那些是無(wú)效數(shù)據(jù),數(shù)據(jù)之間是如何作用的洒试,這是大數(shù)據(jù)的根本所在倍奢。啤酒和尿布的故事是大數(shù)據(jù)的經(jīng)典案例,通過(guò)大數(shù)據(jù)發(fā)現(xiàn)了數(shù)據(jù)之間的關(guān)系垒棋。但這個(gè)關(guān)系是通過(guò)用戶(hù)信息鉤稽在一起的卒煞,它的是一群年輕爸爸的購(gòu)買(mǎi)數(shù)據(jù)的子集,有了年輕爸爸這個(gè)父集才能將啤酒和尿布這個(gè)子集關(guān)聯(lián)起來(lái)叼架。但由于地球越來(lái)越平畔裕,各種疆界被不斷的打破衣撬,世界的聯(lián)接關(guān)系越來(lái)越復(fù)雜,越來(lái)越碎片化柴钻,我們不知道哪只蝴蝶翅膀的煽動(dòng)引起哪場(chǎng)風(fēng)暴淮韭。我們導(dǎo)入的數(shù)據(jù)越來(lái)越龐大,計(jì)算越來(lái)越復(fù)雜贴届,而數(shù)據(jù)關(guān)系本身也處于變化之中,所以大數(shù)據(jù)給出的結(jié)論是滯后的蜡吧,或者說(shuō)是短命的毫蚓。從哲學(xué)層面來(lái)說(shuō),大數(shù)據(jù)是形而下的昔善,是機(jī)械技術(shù)元潘,而不是生命智慧技術(shù)。
大數(shù)據(jù)自古有之君仆,天文翩概、歷法等都是大數(shù)據(jù)的成果。大數(shù)據(jù)的作用取決于數(shù)據(jù)的時(shí)效性和數(shù)據(jù)關(guān)系穩(wěn)定性?xún)烧咧e返咱,在農(nóng)業(yè)社會(huì)钥庇、工業(yè)社會(huì),數(shù)據(jù)時(shí)效性和穩(wěn)定性都相對(duì)穩(wěn)定咖摹,所以大數(shù)據(jù)適用评姨。但是,到了信息時(shí)代萤晴,這兩類(lèi)特性大大降低吐句,人類(lèi)行為對(duì)空間和時(shí)間的依賴(lài)度大大降低,而通過(guò)技術(shù)我們超越時(shí)間和空間店读。去年微薄還如日中天嗦枢,今年就近黃昏了,用戶(hù)呼啦一聲跑到微信上去了屯断,你按照去年網(wǎng)絡(luò)大數(shù)據(jù)投放微薄的推廣肯定血本無(wú)歸文虏。你通過(guò)大數(shù)據(jù)獲得的模型,很快就失效了裹纳,要求你要不斷的追蹤數(shù)據(jù)的變化和遷移择葡,構(gòu)建動(dòng)態(tài)模型,而這個(gè)層面是模式識(shí)別的事剃氧。對(duì)于決策來(lái)說(shuō)敏储,如果信息完整,關(guān)系確定朋鞍,誰(shuí)都能夠做出準(zhǔn)確的決策已添,也就是所謂的隔離效應(yīng)妥箕。人類(lèi)的智慧和機(jī)會(huì)在于,在信息短缺的背景下做出判斷更舞,這種決策方式在技術(shù)語(yǔ)音上叫模式識(shí)別畦幢。大數(shù)據(jù)和模式識(shí)別是線與面的關(guān)系,數(shù)據(jù)是點(diǎn)缆蝉,大數(shù)據(jù)發(fā)現(xiàn)點(diǎn)與點(diǎn)之間的關(guān)系把它聯(lián)成線宇葱,模式識(shí)別是將這些線連成各種各樣的面。模式識(shí)別是整體識(shí)別模式刊头,是將環(huán)境整體納入識(shí)別體系中黍瞧。我們辨別不同人的方式就是模式識(shí)別,我們可能根本不清楚某人眼睛原杂、鼻子的大小和形狀印颤,但是我們卻能辨別這個(gè)人是不是他。因?yàn)槲覀兪菍?duì)整個(gè)人進(jìn)行記憶的穿肄,他的長(zhǎng)相年局、包括他的聲音、眼神咸产、表情等矢否,通過(guò)對(duì)人整體信息的識(shí)別,進(jìn)一步辨識(shí)是他而不是他的雙胞胎哥哥锐朴。
? ? ? ? 信息不完備環(huán)境下的模式識(shí)別是智慧的內(nèi)核所在兴喂,大數(shù)據(jù)將信息進(jìn)行聯(lián)接,描繪出可能的連接焚志,而模式識(shí)別的任務(wù)是從復(fù)雜的聯(lián)系中找到有用的路徑衣迷,并以此構(gòu)建因果環(huán)境,建立認(rèn)知模型及演進(jìn)模型酱酬。人類(lèi)的知識(shí)體系可以說(shuō)是通過(guò)大數(shù)據(jù)加模式識(shí)別方式建立的壶谒。而科學(xué)則是將模式識(shí)別更加形而上,將模型通過(guò)“數(shù)”來(lái)描述膳沽,是更高層次的模式識(shí)別汗菜。從本質(zhì)上,中國(guó)最神秘的周易是將不可言“道”納入到“數(shù)”這個(gè)可感知的范疇內(nèi)挑社,和西方科學(xué)體系是一致的陨界,只是表現(xiàn)方式和路徑不同而已。中醫(yī)和西醫(yī)的差別也是如此痛阻,中醫(yī)體系納入考量的范疇更大菌瘪,量化方式更加抽象,比西醫(yī)更加高級(jí)。當(dāng)前社會(huì)節(jié)奏飛快俏扩,人們?cè)谧鰶Q策時(shí)往往是處在信息不完備的狀態(tài)下糜工,快速?zèng)Q策依靠的是當(dāng)前信息和過(guò)去所有經(jīng)驗(yàn)所形成的決策模型。在《影響力》一書(shū)中录淡,作者表述了一個(gè)觀點(diǎn)捌木,人們?cè)谧鰶Q策時(shí)往往不是依賴(lài)信息,而是依賴(lài)經(jīng)驗(yàn)嫉戚,也就是說(shuō)人們使用信息時(shí)大多采用的模式識(shí)別刨裆。例如一些募捐者使用互惠原理進(jìn)行募捐。
從技術(shù)層面講彬檀,大數(shù)據(jù)最難的部分是辨識(shí)信息崔拥。除了機(jī)器語(yǔ)言外,人類(lèi)創(chuàng)造的信息都包含多維度信息凤覆,或者說(shuō)人類(lèi)表達(dá)一個(gè)完整的意思都包括多維度的信息。大數(shù)據(jù)如何辨識(shí)這些信息需要通過(guò)模式識(shí)別拆魏,并將其納入不同的格式化數(shù)據(jù)范疇盯桦。其次是構(gòu)建不同數(shù)據(jù)之間的關(guān)系,這個(gè)關(guān)系一種是通過(guò)計(jì)算連接的渤刃,一種是主觀連接的拥峦。
? ? ? ? 所以,大數(shù)據(jù)是果卖子,而模式識(shí)別是因略号。大數(shù)據(jù)解決的是所以然,而模式識(shí)別解決的是之所以然洋闽。之所以要掰扯這兩個(gè)概念是因?yàn)楹芏喙静](méi)有意識(shí)到這個(gè)問(wèn)題玄柠,把兩種混為一談,或者把模式識(shí)別囊括到大數(shù)據(jù)中诫舅,這是錯(cuò)誤的羽利。只是收集數(shù)據(jù)的公司是沒(méi)有什么未來(lái)的,因?yàn)槟悴荒苷加袛?shù)據(jù)刊懈,而在模式識(shí)別上積累才能有未來(lái)这弧。
? ? ? ?對(duì)于模式識(shí)別,重要是思維虚汛,是目的匾浪,數(shù)據(jù)是支撐。我們的通話記錄數(shù)據(jù)代表什么卷哩?計(jì)算機(jī)能夠告訴我們什么蛋辈?電信運(yùn)營(yíng)商已經(jīng)把這些數(shù)據(jù)分析的透透的,并根據(jù)這些誒數(shù)據(jù)設(shè)計(jì)了N多的手機(jī)套餐殉疼。但是梯浪,放到行為分析專(zhuān)家的手中捌年,他可以分析出不同人群的社交特點(diǎn)。而放到社會(huì)管理部門(mén)手中挂洛,他們看到的區(qū)域動(dòng)態(tài)人群流動(dòng)和分布礼预。
: