筆記
一. 常用算法
分類(lèi):聚類(lèi)嗓节、決策樹(shù)荧缘、羅輯回歸、支持向量機(jī)
預(yù)測(cè):決策樹(shù)拦宣、羅輯回歸截粗、線性回歸、神經(jīng)網(wǎng)絡(luò)鸵隧、樸素貝葉斯桐愉、關(guān)聯(lián)分析(Apriori、時(shí)序分析)
變維:主成分分析掰派、支持向量機(jī)
二. 常見(jiàn)場(chǎng)景
用戶特征分析
用戶行為預(yù)測(cè)
用戶等級(jí)劃分
轉(zhuǎn)化路徑分析
三. Crisp-DM方法論
Business understanding
Data understanding
Data prepare
·變量選取从诲,少而精,衍生變量
1)先主觀靡羡,根據(jù)變量含義選取對(duì)目標(biāo)變量有潛在影響的因變量
2)后客觀系洛,相關(guān)性分析/PCA降維/決策樹(shù)/回歸分析
-判斷因變量之間的相關(guān)性俊性,剔除部分共線性變量
-判斷因變量對(duì)目標(biāo)變量的影響,剔除作用不大的變量
·抽樣/異常值/缺失值/分布轉(zhuǎn)換/類(lèi)別轉(zhuǎn)換
Modeling
·多嘗試幾種
·關(guān)注性價(jià)比
Evaluation
·離線檢測(cè)描扯,在線檢測(cè)
·精度/召回率/ROC曲線/KS值/Lift值(響應(yīng)率定页、捕獲率)
Deployment
·跟蹤落地效果,修正
·跟蹤模型穩(wěn)定性绽诚,修正
四. 其他
業(yè)務(wù)互動(dòng)
能力推及
分析品質(zhì)
商業(yè)意識(shí)
雙線考核
感受
作者經(jīng)驗(yàn)豐富典徊,術(shù)道兼修
不知寫(xiě)這書(shū)時(shí)作者是P幾,但“專(zhuān)家”級(jí)別應(yīng)以之為楷模
方法講究融會(huì)貫通