寫作目的:
之前報(bào)班學(xué)習(xí)DataScience已經(jīng)差不多有一年多的時(shí)間苏遥,但一直沒有什么輸出暂雹,學(xué)習(xí)起來也比較一知半解不同,所以這次以倒逼自己輸出為目的寫一系列自己學(xué)習(xí)的總結(jié)和思考泡一。不一定都正確颤殴,但希望能和大家有互動(dòng)交流,我會(huì)虛心接收大家的批評(píng)指教~謝謝鼻忠。
數(shù)據(jù)科學(xué)最大的一塊就是在Machine learning models這一塊涵但,我從以下四個(gè)角度來總結(jié)了我所學(xué)過的內(nèi)容。將來希望能對(duì)具體的模塊進(jìn)行更詳細(xì)的輸出帖蔓。
這四個(gè)角度分別是:模型的種類矮瘟,數(shù)據(jù)分析的流程,模型理解的基本角度和概念塑娇,機(jī)器學(xué)習(xí)的概念澈侠。
以下是四個(gè)總結(jié)的思維導(dǎo)圖:
機(jī)器學(xué)習(xí)的概念
機(jī)器學(xué)習(xí)的底層基礎(chǔ)是找到自變量X與因變量Y之間的關(guān)系,在現(xiàn)實(shí)中埋酬,我們往往會(huì)獲得多個(gè)觀測值來進(jìn)行預(yù)測哨啃,所以大部分的機(jī)器學(xué)習(xí)模型都是over determined equation.
Model的重大作用之一就是它的可解釋性,所以我們需要關(guān)注對(duì)于已有數(shù)據(jù)建立模型后奇瘦,模型對(duì)現(xiàn)實(shí)的解釋性棘催,比如公司利潤與銷售量,成本之間的關(guān)系耳标。
而在確定一個(gè)模型后醇坝,我們需要找到一個(gè)標(biāo)準(zhǔn)來衡量什么才是最佳模型,此時(shí),我們可以通過自己定義loss function呼猪,預(yù)測值與觀測值的差距來評(píng)價(jià)模型画畅,同時(shí)通過求loss function的最小值來尋找最佳的模型。
模型的種類宋距,
目前有很多不同的模型轴踱,他們都針對(duì)不同的場景解決不同的問題。Machinelearning models 屬于監(jiān)督學(xué)習(xí)谚赎,即我們對(duì)輸入模型的所有樣本都有明確的預(yù)期的輸出淫僻,即所有的data都有相應(yīng)的標(biāo)簽(label).
在其中,我們最了解的就是線性回歸模型壶唤,它的特點(diǎn)是自變量之間只有線性關(guān)系雳灵。我們知道的y=ax+b就是最簡單的線性回歸模型,另外lasso & ridge regression 都是在加入了為了解決模型過度擬合的問題上加入了額外的正則化的方法形成的模型闸盔。
在非線性模型中悯辙,最基礎(chǔ)的有邏輯回歸模型,而由于邏輯回歸很容易過度擬合迎吵,為了解決這個(gè)問題躲撰,我們引入了集中學(xué)習(xí)模型(ensemble learning model)。其中击费,random forest是最有代表性的拢蛋。
數(shù)據(jù)分析的流程,
從數(shù)據(jù)分析流程的角度荡灾,當(dāng)我們拿到數(shù)據(jù)之后瓤狐,其實(shí)80%的時(shí)間都是在做數(shù)據(jù)清洗和數(shù)據(jù)處理的工作,這可以極大程度讓你了解你的數(shù)據(jù)批幌。在特征處理中础锐,我們需要解決類型變量的問題,因?yàn)橹挥袛?shù)值類數(shù)據(jù)能夠輸入在機(jī)器學(xué)習(xí)中荧缘。所以皆警,我們需要用encoding來解決這一類數(shù)據(jù),如性別截粗,地理位置等信息信姓。
另外為了解決多重共線性,我們也可以用PCA來做feature selection绸罗,以及正則化意推,pearson等其他方法。
在選擇模型的過程中珊蟀,我們優(yōu)先選擇哪一種類型的模型菊值,再進(jìn)行參數(shù)調(diào)節(jié),其中我們可以參考的指標(biāo)可以是MSE,confusion matrix腻窒,ROC等等昵宇,這些可以根據(jù)不同的數(shù)據(jù)類型和模型的種類選擇來決定。
模型理解的基本角度和概念
最后總結(jié)的是學(xué)習(xí)一個(gè)模型需要掌握的幾個(gè)要點(diǎn)儿子,我以后介紹模型也會(huì)盡量根據(jù)這幾個(gè)點(diǎn)來介紹瓦哎。
另外,誤差也是一個(gè)很重要的概念柔逼,包括如何理解模型的誤差蒋譬,他的種類,在模型出現(xiàn)overfitting愉适,underfitting的時(shí)候應(yīng)該如何處理等等羡铲。
今天就分享到這里了,希望大家喜歡儡毕。