大數(shù)據(jù)是一場以數(shù)據(jù)為基礎(chǔ)的,改造各種行業(yè)的一場革命蛇尚。真正意義上的大數(shù)據(jù)要符合三種特征,大量的顾画,多維度的(相關(guān)的數(shù)據(jù)模型)取劫,完備性。當(dāng)同事滿足這三種狀態(tài)研侣,通過各種設(shè)備終端大量采集的數(shù)據(jù)谱邪,構(gòu)建機(jī)器學(xué)習(xí)的模型,在某個(gè)特定的領(lǐng)域可以實(shí)現(xiàn)更智能义辕,比如翻譯虾标,adwords廣告寓盗,自動(dòng)駕駛(自動(dòng)駕駛其實(shí)是在采集過的道路上行駛時(shí)沒有問題的灌砖,但是在沒有采集的路段是無法行駛的)等。
機(jī)器學(xué)習(xí)
已google搜索為例子:
- 第一:根據(jù)網(wǎng)頁確定哪些用戶在谷歌未過的復(fù)雜問題傀蚌,可以回答那些回答不了基显,我們大約漲到了70%到80%的問題,在谷歌第一頁都能找到正確答案善炫。
- 第二撩幽,把位體和網(wǎng)頁中的每一句話做一匹配,消除那些可能是男的片段,至于怎么調(diào)就是機(jī)器學(xué)習(xí)的東西了窜醉。
- 第三宪萄,就是利用自然語言處理技術(shù),把答案的片段合成一個(gè)完整的段落榨惰。
在智能機(jī)器拜英,它背后是數(shù)據(jù)中心強(qiáng)大的服務(wù)器集群,從數(shù)據(jù)中學(xué)習(xí)信息和知識(shí)琅催,這次技術(shù)革命的特點(diǎn)是機(jī)器的智能化居凶,我們稱之為智能革命。因?yàn)橛辛舜罅康臄?shù)據(jù)藤抡,機(jī)器智能就從量變到質(zhì)變到學(xué)習(xí)變成了可能侠碧。
思維的革命
在無法確定因果時(shí),數(shù)據(jù)為我們提供了解決問題的新方法缠黍,數(shù)據(jù)中所包含的信息可以幫助我們消除不確定性而數(shù)據(jù)之間的相關(guān)聯(lián)弄兜,而數(shù)據(jù)之間的相關(guān)聯(lián)性在某種程度上可以取代原來的因果關(guān)系,幫助我們得到我們想知道的答案瓷式,這邊是大數(shù)據(jù)思維的核心挨队。
所謂的機(jī)械思維就是,從確定中推導(dǎo)一切蒿往,有一定的因果關(guān)系盛垦。正因?yàn)檫^去兩百年之間的,牛頓瓤漏、愛斯坦推等科學(xué)家了世界腾夯,時(shí)間,空間蔬充,地球運(yùn)動(dòng)等都是有規(guī)律的蝶俱,所以人們的思維固定在,所有的事物都會(huì)有規(guī)律的饥漫,有因果關(guān)系上榨呆。牛頓通過自己偉大的成就,宣告科技科學(xué)時(shí)代的來臨庸队,作為思想家积蜻,他讓人類相信,世界萬物的運(yùn)動(dòng)規(guī)律是可以被認(rèn)識(shí)的彻消,他告訴認(rèn)為世界萬物是運(yùn)動(dòng)的竿拆,而且這些運(yùn)動(dòng)規(guī)律,有著確定性的規(guī)律宾尚,這些規(guī)律又是可以被認(rèn)識(shí)的丙笋。
牛頓的方法論可以概括為機(jī)械思維谢澈,其核心思想可概括為以下三個(gè)方面:
- 因世界變化的規(guī)律是確定的。
- 因?yàn)橛写_定性做保障御板,因此規(guī)律不僅可以被認(rèn)識(shí)锥忿,也可以通過簡單的公式或者語言描述清楚
- 這些規(guī)律應(yīng)該是放之四海而皆誰的,可以用到各種未知的領(lǐng)域做指導(dǎo)怠肋。
這些其實(shí)是機(jī)械思維中積極的本質(zhì)缎谷。
整個(gè)歷史進(jìn)程起是:理論,規(guī)律灶似,發(fā)明列林,實(shí)踐,爆發(fā)酪惭。也提醒我們希痴,在一個(gè)行業(yè)里面的經(jīng)驗(yàn)規(guī)律,其實(shí)可以應(yīng)用到其他行業(yè)的春感。
世界發(fā)展到今天砌创,大的東西被我們發(fā)現(xiàn)的差不多的時(shí)候,當(dāng)印因果關(guān)系不能解決鲫懒,我們身邊中很多其他的問題時(shí)候嫩实,對(duì)一個(gè)事物了解的越多越細(xì)致就會(huì)發(fā)現(xiàn),夢(mèng)想世界的變量其實(shí)非常多窥岩,不能通過簡單的辦法甲献,或者公式來計(jì)算出來,人們把他們歸為不確定的一類颂翼。當(dāng)不確定的問題無法解決的時(shí)候大數(shù)據(jù)晃洒,大數(shù)據(jù)就提供了我們一種思路。其實(shí)想想中醫(yī)以后就可以通過大數(shù)據(jù)來查找那些藥品朦乏,對(duì)我們?nèi)祟愂且粋€(gè)很有益處的球及。中醫(yī)往往可以治得了某些人病,但是某些人卻吃不了呻疹,其中吃引,肯定會(huì)有某個(gè)藥物對(duì)人類卵細(xì)胞是一次有規(guī)律的,如果通過大數(shù)據(jù)到計(jì)算能力刽锤,而不是通過人來镊尺,相信中醫(yī)會(huì)有一個(gè)更好的發(fā)展。
不需要知道為什么只需要知道怎么辦就好姑蓝。
科學(xué)方法論的思想 : 大膽假設(shè)鹅心,小心求證
。包括整個(gè)說服科學(xué)纺荧,行為科學(xué),都是建立在大量的,實(shí)驗(yàn)對(duì)比宙暇,驗(yàn)證的输枯,實(shí)踐基礎(chǔ)上,總結(jié)出來的規(guī)律占贫。
香農(nóng)理論(最初是用在信息類的上面桃熄,他把世界的不確定性和信息聯(lián)系了起來。)
- 我們對(duì)某件事情一無所知的時(shí)候型奥,就需要大量的信息
- 如果我們對(duì)某件事情已經(jīng)有足夠多的了解瞳收,那么就不需要太多的信息,我們就能把它搞清楚厢汹。
信息的度量就等于不確定性的多少螟深,這樣香濃就把熵和信息量聯(lián)系了起來,要想去除系統(tǒng)中的不確定性烫葬,就要引入大量信息界弧。信息論是完全建立在不確定性的基礎(chǔ)之上。
信息時(shí)代的方法論搭综,誰掌握了信息就誰就能獲得財(cái)富垢箕。
就像在工業(yè)時(shí)代,誰掌握了資本兑巾,誰就獲取了財(cái)富条获。
大數(shù)據(jù)的特征,量大蒋歌,多維度月匣,完備性。數(shù)據(jù)的完備性的重要奋姿,當(dāng)兩個(gè)數(shù)據(jù)源完全一致時(shí)锄开。他們的交叉熵等于0,當(dāng)它們相差較大時(shí)称诗,它們的交叉熵也很大萍悴。所有采用數(shù)據(jù)驅(qū)動(dòng)的方法,建立模型作用的數(shù)據(jù)和使用模型的數(shù)據(jù)之間需要一致的寓免,否則這種方法就會(huì)失效癣诱,而交叉熵,就是對(duì)這種代表性或者一致性的一種精確的量化度量袜香。從而避免出現(xiàn)黑天鵝效應(yīng)(以前沒有到澳大利亞之前撕予,都是白天鵝,但是到澳大利亞之后就有了蜈首,黑天鵝实抡,這之前的猜測(cè)都是錯(cuò)的)欠母。
所以大數(shù)據(jù)源的量大其實(shí)是為了消除信息的不確定性。
從因果關(guān)系到強(qiáng)關(guān)聯(lián)關(guān)系吆寨,從機(jī)械思維到大數(shù)據(jù)思維
比如谷歌的赏淌,adwords點(diǎn)擊模型。搜索排序占70%到80%的權(quán)重啄清,英關(guān)系已經(jīng)變成相關(guān)聯(lián)性的六水。所以后面的商業(yè)邏輯都是圍繞了,建立獲取相關(guān)性而展開辣卒。
總結(jié):
機(jī)械思維和大數(shù)據(jù)思維并非對(duì)立的掷贾,如果我們能找到,確定性和因果關(guān)系荣茫,機(jī)械思維依然是最好的結(jié)果想帅。如果我們想消除信息中的不確定性,數(shù)據(jù)之間的 相關(guān)性在某種特殊程度上可以取代原來的因果關(guān)系计露,幫助我們得到我們想要的答案博脑,這便是大數(shù)據(jù)思維,后者更多是對(duì)前者的補(bǔ)充票罐,在新的時(shí)代叉趣,一定要有新的方法論,也一定會(huì)產(chǎn)生新的方法論该押。
大數(shù)據(jù)與商業(yè)
總的思想是在新的居住環(huán)境下把那些人疗杉,過去不確定性,不好解決的蚕礼,用大數(shù)據(jù)的思維解決掉烟具。李子這里講了一個(gè)美國偷稅漏稅的例子,查看用電量就可以知道奠蹬,和種植毒品的例子朝聋。
巨大的商業(yè)利好相關(guān)性,時(shí)效性囤躁,個(gè)性化的重要性
商品直接蓋章推介商品冀痕,推薦新聞,個(gè)性化是笑話狸演,最重要的一個(gè)例子就是一個(gè)父親不知道一個(gè)少女懷孕的例子言蛇。
很多產(chǎn)業(yè)都可以通過一個(gè),IFID芯片宵距,來搜集數(shù)據(jù)腊尚,從而來獲得數(shù)據(jù),改善用戶體驗(yàn)满哪。
窮舉法依靠大量的數(shù)據(jù)婿斥,來無限逼近事實(shí)的真相劝篷,從而解決我們生活中的問題。
這里有一個(gè)谷歌汽車的例子受扳,無人駕駛携龟,其實(shí)整個(gè)道路都被掃描了一遍數(shù)據(jù)兔跌,其中一個(gè)例子啊勘高,只是道路上多了一個(gè)黑色狀物,谷歌汽車卻不知道怎么走了坟桅,其實(shí)就是在之前的掃描數(shù)據(jù)之前沒有個(gè)東西华望,從而不知道該如何處理。如果說是技術(shù)不達(dá)標(biāo)仅乓,其實(shí)不如說是數(shù)據(jù)缺失的問題赖舟。
大數(shù)據(jù)智能革命的挑戰(zhàn)。
從技術(shù)存儲(chǔ)夸楣,接收宾抓,處理,時(shí)時(shí)豫喧,還有很多機(jī)器學(xué)習(xí)的算法石洗,比如人工神經(jīng)網(wǎng)絡(luò)算法,最大熵模型紧显,邏輯自回歸讲衫。
機(jī)器學(xué)習(xí)的過程是一個(gè)不斷迭代,不斷進(jìn)步的過程孵班,只要事先制定出一個(gè)學(xué)習(xí)的目標(biāo)涉兽,這樣雙方就會(huì)不斷的優(yōu)化模型,讓它越來越接近真實(shí)的情況篙程,可以說機(jī)器學(xué)習(xí)學(xué)的算法迭代次數(shù)越多枷畏,學(xué)習(xí)的越深入,得到數(shù)據(jù)模型就越好虱饿。
- 數(shù)據(jù)量大拥诡,采用比較簡單的模型,而比較少的地段成熟郭厌,也就是說用大量的數(shù)據(jù)做一個(gè)虔誠的機(jī)器學(xué)習(xí)袋倔,
- 數(shù)據(jù)量小,就采用比較復(fù)雜的模型折柠,而且經(jīng)過很多迭代次數(shù)宾娜,訓(xùn)練出準(zhǔn)確的模型參數(shù)。
未來的智能化產(chǎn)業(yè)
未來的農(nóng)業(yè)
以色列的沙漠種植的例子扇售,將滴水管線直接送水和肥料到植物的根系前塔,節(jié)約了大量的水和肥料嚣艇。
未來的體育業(yè)
你如果風(fēng)險(xiǎn)投資人好工程師,男隊(duì)勇士隊(duì)华弓,打法食零,從24英尺外的,三分線投籃寂屏。通過數(shù)據(jù)分析贰谣,和統(tǒng)計(jì),最有效的進(jìn)攻是眼花繚亂的傳球和準(zhǔn)確的投籃迁霎,而不是彰顯個(gè)人能力吱抚,勇士隊(duì)隊(duì)員苦練投籃神器。
未來的制造業(yè)
個(gè)人定制化考廉,c2b的過程秘豹。把自己作為一個(gè),利用大數(shù)據(jù)給客戶提供個(gè)性化服務(wù)的定位昌粤。
未來的醫(yī)療
根據(jù)不同人的基因既绕,不同人的身體素質(zhì),用不同的藥涮坐,而且對(duì)人體進(jìn)行監(jiān)控凄贩,把疾病那個(gè)殺在搖籃中。
未來的媒體膊升。
對(duì)于簡單的怎炊,股票類的新聞都可以達(dá)到機(jī)器來自動(dòng)編寫。
智能社會(huì)
這是最好的時(shí)代廓译,也是最好的時(shí)代评肆,這是英國文豪狄更斯在著名的《雙城記》開篇的一句話。智能革命無疑將給我們帶來一個(gè)更美好的社會(huì)非区,它是智能的瓜挽,精細(xì)化的,人性化的征绸。同時(shí)社會(huì)資源的利用率極大提高久橙,就要做到社會(huì)的精細(xì)化。
區(qū)塊鏈技術(shù)
區(qū)塊鏈?zhǔn)俏覀兠恳还P交易都會(huì)被追蹤它無法被偽造管怠,是一串由隨機(jī)算法產(chǎn)生的隨機(jī)數(shù)淆衷,被存儲(chǔ)在區(qū)塊中。
從標(biāo)準(zhǔn)化服務(wù)到個(gè)性化服務(wù)
最切合實(shí)際的就是用醫(yī)療資源為每個(gè)人做病人服務(wù)渤弛,一方面一個(gè)人都積累了完整的你自己健康狀況相關(guān)的數(shù)據(jù)祝拯,另一方面醫(yī)院有,完備的數(shù)據(jù)。
關(guān)于隱私
很多隱私其實(shí)都是我們自己泄露的佳头,建立在鹰贵,別人的善意上,根本靠不住康嘉。如果保險(xiǎn)公司能獲取到每個(gè)人都得了什么病碉输,從而拒絕,給其提供保險(xiǎn)亭珍,那將是很可怕的敷钾。
機(jī)器搶掉人的飯碗
從前三次的工業(yè)革命有一個(gè)共同特點(diǎn),它會(huì)對(duì)社會(huì)块蚌,產(chǎn)生了巨大沖擊闰非,它需要經(jīng)過大約半個(gè)世紀(jì)甚至更長的時(shí)間膘格,才能背會(huì)消化掉峭范。我們這代人要經(jīng)過幾個(gè)時(shí)期,嬰兒需要瘪贱,我們必須有快速的學(xué)習(xí)能力才能生存纱控。
智能革命的沖擊
智能革命對(duì)社會(huì)的沖擊是巨大的,它會(huì)影響到上至國家菜秦,中到企業(yè)甜害,下至個(gè)人的命運(yùn)。
- 首先信息革命本身帶來的影響還沒有消化完球昨。
- 其次尔店,今天和兩百年前已經(jīng)不同,消化掉技術(shù)革命的影響要比工業(yè)革命來得多
- 最后也是最重要的一點(diǎn)主慰,智能革命所要期待的是人類最值得自豪的部分--大腦嚣州。
到了智能革命后归苍,任何簡單的腦力工作都會(huì)消失挪略,甚至那些現(xiàn)在從事所謂高大上的職業(yè)也會(huì)失去工作喇嘱。
爭當(dāng)2%的人
在歷次技術(shù)革命中掀淘,一個(gè)人鲁森,一家企業(yè)抡砂,甚至一個(gè)國家挑围,可以選擇的道路抱究,只有兩條雏蛮,要么進(jìn)入前2%的行列涎嚼,要么被淘汰,抱怨是沒有用的挑秉。
大家要接受一個(gè)新的法梯,所謂方式,利用好大數(shù)據(jù)和機(jī)器智能衷模,首先受益的是和那些產(chǎn)業(yè)相關(guān)的善于利用新技術(shù)的人鹊汛。
思路例子:
在電子商品上加電商的入口功能蒲赂,從而就變成了一家服務(wù)的企業(yè)(冰箱上增加購物的入口,或者在內(nèi)部裝一個(gè)檢測(cè)器刁憋,需要什么東西)滥嘴。
賣茶葉,從而記錄每天進(jìn)來多少人至耻?沒來過的什么茶若皱?什么時(shí)候來?什么時(shí)候完成交易尘颓?你是否有回頭客走触?他們是誰?如果顧客買了一次不來了疤苹?我是為什么常年客每年消費(fèi)多少茶葉互广?男人經(jīng)常消費(fèi)的是哪種茶葉價(jià)位多少?店面外每天的人流情況是如何卧土?你所要做的事惫皱,就是找到他們經(jīng)常買茶葉的人,和他們建立長期的供貨需求尤莺,這樣就會(huì)有一個(gè)穩(wěn)定的收入旅敷,而且渠道成本很低。
寫在最後
在智能革命到來之際颤霎,每個(gè)人都有兩種選擇媳谁,要么觀望徘徊,最后被淘汰友酱,要么加入晴音,到這2%的人,做愿意吃螃蟹的人粹污,成為這2%的收益者段多。
首發(fā)地址: https://changyuan.github.io/2016/10/16/big-data-time/