實際問題抽象成數(shù)學(xué)問題
這里的抽象成數(shù)學(xué)問題当悔,指的我們明確我們可以獲得什么樣的數(shù)據(jù),目標(biāo)是一個分類還是回歸或者是聚類的問題脉执,如果都不是的話疼阔,如果劃歸為其中的某類問題。獲取數(shù)據(jù)
獲取數(shù)據(jù)包括獲取原始數(shù)據(jù)以及從原始數(shù)據(jù)中經(jīng)過特征工程從原始數(shù)據(jù)中提取訓(xùn)練半夷、測試數(shù)據(jù)婆廊。機(jī)器學(xué)習(xí)比賽中原始數(shù)據(jù)都是直接提供的,但是實際問題需要自己獲得原始數(shù)據(jù)巫橄√粤冢“ 數(shù)據(jù)決定機(jī)器學(xué)習(xí)結(jié)果的上限,而算法只是盡可能的逼近這個上限”湘换,可見數(shù)據(jù)在機(jī)器學(xué)習(xí)中的作用宾舅。總的來說數(shù)據(jù)要有具有“代表性”彩倚,對于分類問題筹我,數(shù)據(jù)偏斜不能過于嚴(yán)重,不同類別的數(shù)據(jù)數(shù)量不要有數(shù)個數(shù)量級的差距署恍。不僅如此還要對評估數(shù)據(jù)的量級崎溃,樣本數(shù)量、特征數(shù)量盯质,估算訓(xùn)練模型對內(nèi)存的消耗袁串。如果數(shù)據(jù)量太大可以考慮減少訓(xùn)練樣本概而、降維或者使用分布式機(jī)器學(xué)習(xí)系統(tǒng)。特征工程
特征工程包括從原始數(shù)據(jù)中特征構(gòu)建囱修、特征提取赎瑰、特征選擇。特征工程做的好能發(fā)揮原始數(shù)據(jù)的最大效力破镰,往往能夠使得算法的效果和性能得到顯著的提升餐曼,有時能使簡單的模型的效果比復(fù)雜的模型效果好。數(shù)據(jù)挖掘的大部分時間就花在特征工程上面鲜漩,是機(jī)器學(xué)習(xí)非吃雌基礎(chǔ)而又必備的步驟。數(shù)據(jù)預(yù)處理孕似、數(shù)據(jù)清洗踩娘、篩選顯著特征、摒棄非顯著特征等等都非常重要喉祭。訓(xùn)練模型养渴、診斷、調(diào)優(yōu)
模型診斷中至關(guān)重要的是判斷過擬合泛烙、欠擬合理卑,常見的方法是繪制學(xué)習(xí)曲線,交叉驗證蔽氨。通過增加訓(xùn)練的數(shù)據(jù)量藐唠、降低模型復(fù)雜度來降低過擬合的風(fēng)險,提高特征的數(shù)量和質(zhì)量孵滞、增加模型復(fù)雜來防止欠擬合中捆。診斷后的模型需要進(jìn)行進(jìn)一步調(diào)優(yōu),調(diào)優(yōu)后的新模型需要重新診斷坊饶,這是一個反復(fù)迭代不斷逼近的過程泄伪,需要不斷的嘗試,進(jìn)而達(dá)到最優(yōu)的狀態(tài)匿级。模型驗證蟋滴、誤差分析
通過測試數(shù)據(jù),驗證模型的有效性痘绎,觀察誤差樣本津函,分析誤差產(chǎn)生的原因,往往能使得我們找到提升算法性能的突破點孤页。誤差分析主要是分析出誤差來源與數(shù)據(jù)尔苦、特征、算法。模型融合
提升算法的準(zhǔn)確度主要方法是模型的前端(特征工程允坚、清洗魂那、預(yù)處理、采樣)和后端的模型融合稠项。在機(jī)器學(xué)習(xí)比賽中模型融合非常常見涯雅,基本都能使得效果有一定的提升。上線運(yùn)行
這一部分內(nèi)容主要跟工程實現(xiàn)的相關(guān)性比較大展运。工程上是結(jié)果導(dǎo)向活逆,模型在線上運(yùn)行的效果直接決定模型的成敗。 不單純包括其準(zhǔn)確程度拗胜、誤差等情況蔗候,還包括其運(yùn)行的速度(時間復(fù)雜度)、資源消耗程度(空間復(fù)雜度)埂软、穩(wěn)定性是否可接受琴庵。
值得注意的是,以上流程只是一個指導(dǎo)性的機(jī)器學(xué)習(xí)流程經(jīng)驗仰美,并不是每個項目都包含完整的流程。
原文:https://blog.csdn.net/huangfei711/article/details/79850989
BAT面試題精選:https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/78771867