推薦算法的第二節(jié)課特征工程是有廣告組的同學(xué)講诵肛,還是比較基礎(chǔ)并且淺顯易懂(可能我之前有學(xué)過統(tǒng)計學(xué)的緣故吧)。我會總結(jié)一下特征工程的知識點。
這張圖很好總結(jié)了如何從0開始構(gòu)建機器學(xué)習(xí)模型的過程水援。做一個機器學(xué)習(xí)項目魄鸦,可能要花大量的時間在理解問題宴杀,把問題轉(zhuǎn)化為現(xiàn)有的AI問題,然后通過特征工程技術(shù)選擇好的特征進行學(xué)習(xí)拾因。學(xué)過深度學(xué)習(xí)的同學(xué)可能覺得深度學(xué)習(xí)可以解決特征工程旺罢,但深度學(xué)習(xí)的黑箱原理無法解釋模型旷余。
特征工程
特征設(shè)計(是否可能得到有用并且部署在線上的特征)
- 頭腦風(fēng)暴
- 詢問有項目經(jīng)驗的專家
特征轉(zhuǎn)化
1.離散特征(男女)(one-hot編碼,multi-hot編碼)
2.數(shù)值特征(年齡)(使用歸一化或者標準化扁达,讓模型更好收斂并且把所有特征轉(zhuǎn)成同一量綱)
3.時間特征(早上正卧,下午)
4.文字特征(NLP)
- 統(tǒng)計類特征(方差)
特征選擇(選擇和最后結(jié)果最相關(guān)的特征)
1.過濾(通過皮爾遜系數(shù),開森檢驗跪解,找到相關(guān)性最強的N個特征)
2.包裝法(通過AIC炉旷,BIC刪除一些不重要的特征)
3.向量化(增加正則化L1等)
注意:如果發(fā)現(xiàn)特征太強的話,可能會發(fā)生信息泄露叉讥,那同樣不是一個好的特征窘行。信息泄露包含特征泄露和數(shù)據(jù)泄露兩種。數(shù)據(jù)泄露指訓(xùn)練集可能包含未來做預(yù)測的數(shù)據(jù)节吮。解決數(shù)據(jù)泄露的手段是嘗試不同的數(shù)據(jù)劃分抽高。
通過樹模型做特征選擇
Facebook 提出了GBDT加LR的算法,GBDT做特征工程透绩,讓LR訓(xùn)練翘骂。
為什么特征工程還是很重要
1.模型的準確性(模型的交叉可能會導(dǎo)致噪音)
2.模型的高效性(簡單模型可能高效地服務(wù)化)
3.模型的可解釋性(深度學(xué)習(xí)模型提取的特征太過抽象,可解釋性不強)