大一和廈大金融的朋友一起做外匯痊乾,做股票介评,到了大二順理成章的成為了自己學(xué)校創(chuàng)業(yè)與風(fēng)險(xiǎn)投資協(xié)會(huì)的會(huì)長(zhǎng)更米,順應(yīng)當(dāng)時(shí)大學(xué)生熱潮就組了一個(gè)設(shè)計(jì)工作室給創(chuàng)業(yè)的朋友提供logo、海報(bào)設(shè)計(jì)抄罕。對(duì)于自己的專(zhuān)業(yè)機(jī)械設(shè)計(jì)也沒(méi)有落下太多允蚣,但這兩年卻很混亂,因?yàn)橐恢睕](méi)找到自己感興趣的點(diǎn)呆贿,可以ALL IN 的那個(gè)點(diǎn)嚷兔。直到接觸了一門(mén)學(xué)科概率論與數(shù)理統(tǒng)計(jì),一個(gè)很有魅力的老師把我?guī)нM(jìn)了統(tǒng)計(jì)的世界做入。
那個(gè)時(shí)候我花了兩個(gè)月的時(shí)間寫(xiě)了篇 文章《以小見(jiàn)大之樣本方差的無(wú)偏性》冒晰,進(jìn)入了一種我向往的狀態(tài)那種ALL IN 的狀態(tài)。我通過(guò)樣本方差這個(gè)點(diǎn)母蛛,把統(tǒng)計(jì)學(xué)的邏輯梳理了一遍翩剪,而數(shù)據(jù)分析的工具就是統(tǒng)計(jì)學(xué)。統(tǒng)計(jì)學(xué)是什么:design彩郊,設(shè)計(jì)前弯,數(shù)據(jù)的收集、埋點(diǎn)秫逝,比如通過(guò)GA恕出,talkingdata, 友盟這些工具或者抽樣調(diào)查的方式來(lái)獲取數(shù)據(jù)违帆;description,描述浙巫,從均值方差偏度峰度異常值這些到同比環(huán)比定基比移動(dòng)平均去分析數(shù)據(jù),尋找趨勢(shì)tipping point,去發(fā)現(xiàn)問(wèn)題的畴;之后則是inference渊抄,統(tǒng)計(jì)推斷,用機(jī)器學(xué)習(xí)算法去建立模型丧裁,做出預(yù)測(cè)推斷护桦。
當(dāng)時(shí)讓我困惑的點(diǎn),是為什么樣本可以去估計(jì)總體煎娇?他們差別那么大二庵,怎么可能會(huì)沒(méi)有偏差?數(shù)據(jù)所收集到的基本都是總體的一個(gè)部分缓呛,或者說(shuō)用短時(shí)期的數(shù)據(jù)去推測(cè)長(zhǎng)時(shí)期的趨勢(shì)催享,他何以可能去做到這點(diǎn)?從理論層面上哟绊,這個(gè)問(wèn)題可以追溯到大數(shù)定律因妙、中心極限定理、概率票髓。
在理清楚這個(gè)原理后兰迫,那么又如何去做到更加精確地去描述這個(gè)總體?這便到了數(shù)理統(tǒng)計(jì)的三大核心:參數(shù)估計(jì)炬称、假設(shè)檢驗(yàn)汁果、非參數(shù)估計(jì)。
而無(wú)偏性就是由于參數(shù)估計(jì)所引起的玲躯,樣本的方差的公式是用RSS/n-1,這個(gè)n-1的自由度保證了估計(jì)的沒(méi)有偏差据德。而無(wú)偏估計(jì)又有很多個(gè),從這個(gè)概念也就有了MSE,mean sum of error跷车,用來(lái)選擇到底用哪個(gè)無(wú)偏估計(jì)棘利。這就有了機(jī)器學(xué)習(xí)一個(gè)非常關(guān)鍵的調(diào)參指標(biāo)---test MSE或者說(shuō)validate MSE。在選擇機(jī)器學(xué)習(xí)算法的關(guān)鍵是方差偏差的均衡朽缴。像SVM LR LDA LASSO RIDGE 這些算法本質(zhì)區(qū)別是因考慮到方差偏差均衡善玫,loss function 的不同所引起的。
所以正是因?yàn)檫@篇文章密强,才慢慢打通了我的一些概念茅郎。在運(yùn)用統(tǒng)計(jì)去做數(shù)據(jù)分析時(shí),它是建立在一個(gè)概率基礎(chǔ)上的或渤。數(shù)據(jù)分析是什么系冗,收集數(shù)據(jù),發(fā)現(xiàn)問(wèn)題薪鹦,提出目標(biāo)掌敬,建立模型惯豆,調(diào)參,驗(yàn)證測(cè)試改版奔害,然后又收集數(shù)據(jù)楷兽,這樣不斷循環(huán)的一個(gè)過(guò)程。
其實(shí)我考慮過(guò)去考研华临,統(tǒng)計(jì)或者CS方向拄养,但后來(lái)放棄了。因?yàn)槲抑酪眨瑪?shù)據(jù)分析它的關(guān)鍵點(diǎn)并不是嚴(yán)格的數(shù)學(xué)證明或者說(shuō)強(qiáng)悍的編程能力,更多的是一種思維跛梗,一種能夠把業(yè)務(wù)寻馏,產(chǎn)品,后端都結(jié)合起來(lái)的一種能力核偿,甚至要TO C诚欠,而這些技能,讀研并不能給我漾岳。所以我特別渴望轰绵,能夠找到一個(gè)實(shí)習(xí),找到一個(gè)團(tuán)隊(duì)尼荆,不斷的去學(xué)習(xí)去成長(zhǎng)左腔,去創(chuàng)造一些有價(jià)值的東西,真正的去解決一個(gè)業(yè)務(wù)問(wèn)題捅儒。這就是我目前最大的目標(biāo)液样。
觸動(dòng)我的有兩點(diǎn),一個(gè)是在學(xué)習(xí)樸素貝葉斯算法時(shí)有個(gè)例子巧还,它說(shuō)鞭莽,對(duì)于一條女生內(nèi)褲,機(jī)器學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù)去不斷地學(xué)習(xí)才能判別出麸祷,這是一個(gè)女生內(nèi)褲澎怒,而人卻能夠立馬判別,也就是它最大的缺點(diǎn)就是不能很好的去解釋或者預(yù)測(cè)有大量噪聲和特征值的數(shù)據(jù)阶牍。
第二個(gè)是今日頭條的一個(gè)黑科技讓我感觸很深喷面,他新聞的推薦機(jī)制通過(guò)讀取用戶(hù)微信公眾號(hào)的logo來(lái)推測(cè)你的偏好。這個(gè)算法更多的是一種思維走孽,而不是算法本身乖酬。