好吧斋扰,第一次在簡(jiǎn)書(shū)上寫(xiě)文谴仙,這大概是從初中畢業(yè)后寫(xiě)的第一篇讀后感,支持我來(lái)到這里寫(xiě)文的原因有兩個(gè):一是自覺(jué)大學(xué)以來(lái)便沒(méi)有過(guò)系統(tǒng)的將想法梳理實(shí)現(xiàn)成文章默伍,導(dǎo)致思維的惰性大大增加欢嘿,沒(méi)能培養(yǎng)起系統(tǒng)性思考的習(xí)慣,非逞惭椋可惜际插;二是簡(jiǎn)書(shū)采用了Markdown的書(shū)寫(xiě)排版方式,我也是最近才了解到這種書(shū)寫(xiě)方式的優(yōu)點(diǎn)显设,想借此機(jī)會(huì)學(xué)習(xí)框弛。
那么今后,爭(zhēng)取在這里捕捂,養(yǎng)成記錄思維的習(xí)慣吧瑟枫。
言歸正傳,如果你是一名文科生指攒,建議你有空嘗試閱讀這本書(shū)慷妙,它不單屬于工程師,這個(gè)世界不光有有風(fēng)花雪月和雞湯狗血允悦,還有一些值得沉思探索的事物膝擂。
大學(xué)時(shí)期,我對(duì)股票投機(jī)產(chǎn)生了濃厚的興趣隙弛,天天琢磨著如何在這個(gè)近乎零和游戲的市場(chǎng)中一夜暴富架馋,翻查了大量不知名人士的各種錦囊妙計(jì),結(jié)果你們也能猜到全闷,毫無(wú)卵用叉寂。這一切直到我閱讀到了幾本講述美國(guó)對(duì)沖基金如何運(yùn)作的書(shū)籍,才恍然大悟:臥槽总珠!
世界上最牛逼的股票市場(chǎng)參與者早已不再單純依賴(lài)人腦對(duì)信息的攝取和判斷來(lái)做出投資決策屏鳍,他們依賴(lài)的是先進(jìn)的計(jì)算機(jī)及交易模型來(lái)攫取利潤(rùn)勘纯,如果你也對(duì)這個(gè)領(lǐng)域有所涉獵,應(yīng)該聽(tīng)聞過(guò)“文藝復(fù)興技術(shù)公司”的鼎鼎大名钓瞭,而這種先進(jìn)交易方式的核心就是:數(shù)學(xué)驳遵。或者更貼近時(shí)代一點(diǎn)山涡,叫大數(shù)據(jù)超埋。
吳軍先生結(jié)合自身深厚的數(shù)學(xué)功底以及長(zhǎng)期在Google、騰訊等一線(xiàn)互聯(lián)網(wǎng)公司的項(xiàng)目開(kāi)發(fā)經(jīng)驗(yàn)佳鳖,用極其簡(jiǎn)約的語(yǔ)言講述了我們?nèi)粘V惺褂玫乃阉骰襞埂⒎g、導(dǎo)航系吩、語(yǔ)音識(shí)別来庭、網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)頁(yè)排名與反作弊等互聯(lián)網(wǎng)功能的數(shù)學(xué)原理穿挨,將那些在平常人眼里只屬于工程師和科學(xué)家的工作進(jìn)行了一次平易近人的科普月弛,往往只用一個(gè)數(shù)學(xué)方程便揭示了很多我們?nèi)粘8杏X(jué)高大上的名詞,比如“人工神經(jīng)網(wǎng)絡(luò)”科盛、“信息熵”帽衙、“貝葉斯網(wǎng)絡(luò)"等等。
于我而言贞绵,一開(kāi)始是抱著發(fā)掘興趣的心態(tài)來(lái)看的厉萝,卻不想歪打正著讀到了一些跟自動(dòng)化交易相關(guān)的內(nèi)容。
論及投資榨崩,人們場(chǎng)所不要把所有的雞蛋放在一個(gè)籃子里谴垫,這樣可以降低風(fēng)險(xiǎn)。在信息處理中母蛛,這個(gè)原理同樣適用翩剪。在數(shù)學(xué)上,這個(gè)原理稱(chēng)為最大熵原理彩郊。最大熵原理指出前弯,對(duì)一隨機(jī)事件的概率分布進(jìn)行預(yù)測(cè)時(shí),我們的預(yù)測(cè)應(yīng)當(dāng)滿(mǎn)足全部已知的條件秫逝,而對(duì)未知的情況不要做任何假設(shè)恕出。(不做主觀(guān)假設(shè)很重要)在這種情況下,概率分布最均勻筷登,預(yù)測(cè)的風(fēng)險(xiǎn)最小剃根。因?yàn)檫@時(shí)概率分布的信息熵最大哩盲。不要把所有的雞蛋放在一個(gè)籃子里前方,其實(shí)就是最大熵原理的一個(gè)樸素說(shuō)法狈醉,因?yàn)楫?dāng)我們遇到不確定性時(shí),就要保留各種可能性惠险。
和最大熵模型同樣對(duì)如今的自動(dòng)化交易貢獻(xiàn)巨大的還有馬爾科夫鏈苗傅、貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò),這些數(shù)學(xué)模型與思想從上世紀(jì)90年代起逐漸進(jìn)入美國(guó)的投資市場(chǎng)班巩,而他們?nèi)〉玫某煽?jī)就連伯克希爾哈撒韋這樣的公司也望塵莫及渣慕。
一個(gè)人腦能處理的信息終歸太過(guò)有限,即使是幾名傳統(tǒng)基金經(jīng)理的共同智慧抱慌,也難以和整個(gè)市場(chǎng)的能量相匹配逊桦。但是,借助于數(shù)學(xué)抑进,以及如今強(qiáng)大的數(shù)據(jù)獲取與計(jì)算能力强经,我們就可能將數(shù)之不盡的影響因素進(jìn)行量化,從而準(zhǔn)確判斷寺渗。
另外一個(gè)讓我思考的問(wèn)題匿情,是如何在沒(méi)有數(shù)據(jù)或僅有少量數(shù)據(jù)的情況下,訓(xùn)練數(shù)學(xué)模型的參數(shù)信殊,以及用數(shù)據(jù)促進(jìn)功能迭代炬称。因?yàn)樽罱ぷ髦信龅搅艘粋€(gè)的問(wèn)題,我們手中的一個(gè)產(chǎn)品開(kāi)發(fā)已接近完成涡拘,但是這個(gè)產(chǎn)品的核心功能需要一批數(shù)據(jù)玲躯,如果我們有足夠的用戶(hù)流量,我們就可以基于用戶(hù)的數(shù)據(jù)反饋來(lái)不斷迭代產(chǎn)品的核心功能鳄乏,但是府蔗,由于我們產(chǎn)品的設(shè)計(jì)問(wèn)題,如果完全依賴(lài)用戶(hù)貢獻(xiàn)內(nèi)容(UGC)會(huì)嚴(yán)重影響用戶(hù)體驗(yàn)汞窗,這是一個(gè)冷啟動(dòng)的問(wèn)題姓赤。我們自己充當(dāng)?shù)谝慌脩?hù)(或雇人)去在相應(yīng)場(chǎng)景下做UGC,成本又太大仲吏。這就迫使我思考如何在數(shù)據(jù)較少的情況下不铆,有沒(méi)有可能利用某些算法去盡快改進(jìn)產(chǎn)品」簦《數(shù)學(xué)之美》也給出了一些“無(wú)中生有”的案例誓斥,比如幫助Google一戰(zhàn)成名的PageRank算法。
對(duì)大部分用戶(hù)的查詢(xún)许帐,今天的搜索引擎都會(huì)返回成千上萬(wàn)的結(jié)果劳坑,那么應(yīng)該如何排序,把用戶(hù)最想看到的結(jié)果排在前面呢成畦?Google的做法是"PageRank"距芬,其實(shí)簡(jiǎn)單地說(shuō)就是民主表決涝开。打個(gè)比方,加入我們要找李開(kāi)復(fù)博士框仔,有100個(gè)人舉手說(shuō)自己是李開(kāi)復(fù)舀武。那么誰(shuí)是真的呢?也許有好幾個(gè)都是真的离斩,但即使如此誰(shuí)有事大家真正想找的呢银舱?如果大家都說(shuō)在創(chuàng)新工場(chǎng)的那個(gè)是真的,那么他就是真的跛梗。在互聯(lián)網(wǎng)上寻馏,如果一個(gè)網(wǎng)頁(yè)被很多其它網(wǎng)頁(yè)所連接,說(shuō)明它收到普遍的承認(rèn)和信賴(lài)核偿,那么它的排名就高操软。這就是PageRank的核心思想。現(xiàn)在舉一個(gè)例子宪祥,我們知道一個(gè)網(wǎng)頁(yè)Y的排名應(yīng)該來(lái)自所有只想這個(gè)網(wǎng)頁(yè)的其他網(wǎng)頁(yè)X1,X2,......Xn的權(quán)重之和聂薪,接下來(lái)的問(wèn)題是X1,X2,......Xn的權(quán)重分別是多少,如何度量蝗羊。拉里佩奇認(rèn)為藏澳,應(yīng)該是這些網(wǎng)頁(yè)本身的網(wǎng)頁(yè)排名。現(xiàn)在麻煩來(lái)了耀找,計(jì)算搜索結(jié)果的網(wǎng)頁(yè)排名過(guò)程需要用到網(wǎng)頁(yè)本身的排名翔悠,這不成了“先有雞還是先有蛋”的問(wèn)題了嗎?破解這個(gè)怪圈的方法是:先假定所有網(wǎng)頁(yè)的排名是相同的野芒,并且根據(jù)這個(gè)初始值蓄愁,算出各個(gè)網(wǎng)頁(yè)的第一次迭代排名(每個(gè)網(wǎng)頁(yè)的被連接數(shù)已知),并根據(jù)這個(gè)初始值狞悲,算出各個(gè)網(wǎng)頁(yè)的第一次迭代排名撮抓,然后在根據(jù)第一次迭代排名算出第二次迭代排名,并且摇锋,無(wú)論初始值如何選取丹拯,這種算法都能保證網(wǎng)頁(yè)排名的估計(jì)值能收斂到排名的真實(shí)值。
最后記述兩個(gè)簡(jiǎn)單的概念荸恕。什么是編碼和解碼乖酬?在剛參加工作的那段時(shí)間里,文科生出身的我對(duì)這兩個(gè)概念及其相關(guān)的問(wèn)題非常頭痛融求,在這本書(shū)里我找到了答案咬像。舉個(gè)通俗的例子,我們將腦海中所想的東西用語(yǔ)言表達(dá)出來(lái),這就是編碼县昂,一個(gè)聽(tīng)我們說(shuō)話(huà)的人將我們說(shuō)的話(huà)吸收并在腦袋中理解肮柜,就是解碼∑甙牛可能大家看起來(lái)這是一個(gè)很平常的過(guò)程,這不是很自然的事情嗎蔑赘?仔細(xì)想想狸驳,大腦中所思考的東西為什么可以通過(guò)語(yǔ)言說(shuō)出來(lái),或者可以通過(guò)文字寫(xiě)出來(lái)缩赛,說(shuō)出來(lái)的話(huà)和寫(xiě)在紙上的文字所存信息和腦海中所存信息的存在形式是完全不同的耙箍,這一套轉(zhuǎn)化規(guī)則其實(shí)就是編碼和解碼,而英語(yǔ)和漢語(yǔ)酥馍,就是兩套不同的編碼解碼規(guī)則辩昆。同樣的,我們?cè)诖螂娫?huà)時(shí)旨袒,發(fā)出的聲學(xué)信息需要轉(zhuǎn)化成電信號(hào)汁针,通過(guò)無(wú)線(xiàn)電傳輸至另一方,然后再轉(zhuǎn)化成人能明白的聲信號(hào)砚尽,這也是一次編碼和解碼的過(guò)程施无。而對(duì)所有形式信息的編碼與解碼,在本質(zhì)上也都是數(shù)學(xué)工作必孤。更直接的表現(xiàn)是猾骡,我們通過(guò)計(jì)算機(jī)鍵入信息時(shí),最常見(jiàn)的方式就是打字敷搪,然而這些信息經(jīng)過(guò)編碼交給計(jì)算機(jī)時(shí)兴想,都是以二進(jìn)制來(lái)存儲(chǔ)和傳輸?shù)摹?/p>
總體而言,數(shù)學(xué)在我們世界中的作用非常非常之大赡勘,我們?nèi)粘5乃泄ぷ鞫茧x不開(kāi)數(shù)學(xué)嫂便,這是我近期工作和讀書(shū)很大的一個(gè)體會(huì),慢慢學(xué)會(huì)培養(yǎng)自己的數(shù)學(xué)的興趣闸与,積累數(shù)學(xué)的理論和知識(shí)顽悼,大概是這一輩子都要認(rèn)真做的事情了。