? ? ? ? 今天我不想聊深度學(xué)習(xí)赦肃,機(jī)器學(xué)習(xí),我想來說大數(shù)據(jù)公浪。人類認(rèn)知的核心一直都保持著穩(wěn)定的流程:在知識的指引下探索他宛,理解,分析欠气,歸納厅各,變成新知識。這個(gè)過程肯定會有很多不同步驟分類的意見预柒,每個(gè)步驟的名稱有不同的叫法队塘,我覺得這不影響我繼續(xù)探討我談?wù)J知這么一個(gè)問題。
? ? ? ? 讓我們從上面這個(gè)認(rèn)知的流程出發(fā)宜鸯,貫穿這個(gè)流程的數(shù)據(jù)憔古,從一個(gè)步驟到下一個(gè)步驟的驅(qū)動則是使用知識“乘以”數(shù)據(jù)的結(jié)果。如果熟悉機(jī)器學(xué)習(xí)的人立刻意識到我在說什么顾翼,這不就是L = W x X + b投放,這個(gè)深度神經(jīng)網(wǎng)絡(luò)的基本公式嗎?W代表我們的知識适贸,X代表數(shù)據(jù)灸芳,b代表我們對于知識偏見的整體認(rèn)知涝桅。那么這個(gè)公式有什么缺陷嗎?有的烙样,這個(gè)公式太武斷了冯遂,X代表了已經(jīng),代表了過去谒获,人類的直覺是我知道你怎么來的蛤肌,很就很容易推斷你怎么去的∨可是裸准,這樣的美好預(yù)測被一件事情打破了,那就是意外赔硫。我們怎么定義意外炒俱,就是從未出現(xiàn)在我們過去的已經(jīng)中間的未知。我們把已經(jīng)用L表示和未知用L_來表示爪膊,還記得交叉熵(cross-entropy)嗎权悟?就是我們用來修正權(quán)值網(wǎng)絡(luò)的CE = 西格瑪L x log(L_),原來我們的知識就是不斷的在評價(jià)我們已知和未知的差距中間不斷的優(yōu)化推盛,那么除了大小差距的概念峦阁,剩下來的幾乎全都是數(shù)據(jù)和知識,而知識本身又是數(shù)據(jù)和之前的知識計(jì)算得到的耘成。當(dāng)我們把這個(gè)過程回朔到最初的那個(gè)點(diǎn)榔昔,我們發(fā)現(xiàn),除了數(shù)據(jù)凿跳,就是第一推動力的那個(gè)初始W件豌,一切都是從此開始疮方。當(dāng)我們找到這個(gè)初始的第一推動力控嗜,得到交叉熵概念之后,整個(gè)世界都可以推演下去骡显,因此我們得到第一個(gè)結(jié)論疆栏,一切認(rèn)知的起點(diǎn)是初始權(quán)值網(wǎng)絡(luò)W,但是一切都是數(shù)據(jù)惫谤。
? ? ? ? 當(dāng)我們意識到數(shù)據(jù)的時(shí)候壁顶,我們是在說一種類型的數(shù)據(jù)。而我們說大數(shù)據(jù)的時(shí)候溜歪,我們是在針對一種場景若专。當(dāng)我們把數(shù)據(jù)分類的時(shí)候,偏見由此產(chǎn)生蝴猪,大數(shù)據(jù)把各種偏見放到一起來消除调衰,產(chǎn)生有條理的膊爪,完備的場景描述和觀點(diǎn)。我反復(fù)分析數(shù)據(jù)和大數(shù)據(jù)的時(shí)候嚎莉,希望能夠找到與之匹配的分析工具米酬。數(shù)據(jù)觸點(diǎn)把各種數(shù)據(jù)接入,離線趋箩,流式赃额,碎片還是其它形式;數(shù)據(jù)存儲讓數(shù)據(jù)分析可以輕易訪問叫确;數(shù)據(jù)分析直接把觀點(diǎn)和描述用人最喜歡的可視化方式展現(xiàn)跳芳。這是多么Hortonworks的一件事情。
? ? ? ? ?其實(shí)竹勉,最后不管是深度學(xué)習(xí)筛严,不管是大數(shù)據(jù),最后一件事情是我們最關(guān)心的饶米,就是數(shù)據(jù)下面的實(shí)質(zhì)是什么桨啃?或者說,未來是什么檬输?這一切從數(shù)據(jù)中來照瘾,最后回到數(shù)據(jù)中去,深度學(xué)習(xí)只是分析并且產(chǎn)生對未來數(shù)據(jù)預(yù)測的中間步驟丧慈,如果你覺得這些都是空洞無物的析命,那么我們現(xiàn)在給出非常實(shí)際的預(yù)測:
1. 一切都是數(shù)據(jù),深度學(xué)習(xí)和大數(shù)據(jù)緊密結(jié)合逃默,最后能夠產(chǎn)生的可作用于這個(gè)世界的知識或者認(rèn)知會是商業(yè)追逐的關(guān)鍵鹃愤,而不是數(shù)據(jù),也不是算法完域,比如:自動駕駛技術(shù)商用化之后的關(guān)鍵是給汽車操控系統(tǒng)下達(dá)指令的智能指令庫软吐,這個(gè)庫的條理,完備和成熟決定了玩家在市場上的競爭力吟税。
2. 達(dá)成這個(gè)目的的成本消耗在于構(gòu)建數(shù)據(jù)捕獲凹耙,存儲,分析和抽取認(rèn)知和知識的架構(gòu)肠仪,以及供給這個(gè)架構(gòu)的大數(shù)據(jù)和計(jì)算力肖抱。這個(gè)成本是目前大玩家防止中小玩家進(jìn)入市場的主要門檻。
3. 預(yù)測這種事情的突破不會是總是從已知到未知的推理和邏輯异旧,更會是量子物理意述,相對論還有經(jīng)典物理對于這個(gè)世界認(rèn)知革命性的突破,也就是參透時(shí)間。否則荤崇,就是純粹的比拼信息不對稱和計(jì)算力強(qiáng)橫程度而已镐依,數(shù)據(jù)和算法到了最后都不是個(gè)事。
我回到大數(shù)據(jù)來看深度學(xué)習(xí)是因?yàn)樯疃葘W(xué)習(xí)在對于動物大腦神經(jīng)網(wǎng)絡(luò)的仿真和神經(jīng)網(wǎng)絡(luò)自身發(fā)展都已經(jīng)走到了一個(gè)新的瓶頸天试,網(wǎng)絡(luò)的結(jié)構(gòu)隨著需要解決問題的難度和深入程度變得越來越復(fù)雜槐壳,也就越來越和生物大腦的構(gòu)成大相徑庭。這一點(diǎn)喜每,我們可以從飛機(jī)的發(fā)明和進(jìn)步和飛鳥不同找到安慰我們自己的先例务唐,但是依然不能讓我們看到深度學(xué)習(xí)的未來,所以我們是時(shí)候放手深度學(xué)習(xí)带兜,還是回到大數(shù)據(jù)來梳理枫笛,深度學(xué)習(xí)的未來可能在于大數(shù)據(jù)本身,而不是神經(jīng)網(wǎng)絡(luò)的進(jìn)步和演化刚照,因?yàn)榭讨矍髣κ降陌l(fā)展神經(jīng)網(wǎng)絡(luò)一直沒有停止刑巧,無關(guān)大神,無關(guān)學(xué)派无畔,無關(guān)巨頭啊楚。