最近在學(xué)習(xí)用python運(yùn)算機(jī)器學(xué)習(xí)次乓,順便開(kāi)始系統(tǒng)的學(xué)習(xí)機(jī)器學(xué)習(xí)蚣驼。
暫時(shí)通過(guò)教學(xué)視頻和阿里音樂(lè)比賽的總結(jié)博客得到幾點(diǎn)以前忽略的重點(diǎn)偿警。
1.關(guān)于數(shù)據(jù)分析的目的望艺,要明確業(yè)務(wù)方向苛秕,比如銀行信用卡調(diào)查問(wèn)卷,是要去明確找到會(huì)辦理信用卡的潛在客戶(hù)的特征找默,而不是那些不辦信用卡的艇劫。往往目標(biāo)人數(shù)是少數(shù)。
2. 關(guān)于數(shù)據(jù)清洗惩激,以前總喜歡選擇刪除一些outliers店煞,或者特征值不全的數(shù)據(jù)。其實(shí)不應(yīng)該刪除风钻,missing value 可以用-999之類(lèi)的無(wú)意義值去填充顷蟀,數(shù)據(jù)不能少,否則其他特征值就損失了骡技。
3. one hot在建立特征時(shí)還是應(yīng)用挺多的鸣个。比如阿里音樂(lè)比賽中,先把用戶(hù)用kmeans聚類(lèi)布朦,得到十個(gè)類(lèi)以后囤萤,把類(lèi)轉(zhuǎn)化成特征one hot。這個(gè)是個(gè)很好的用法是趴,比我們當(dāng)時(shí)分類(lèi)以后按照每個(gè)類(lèi)再進(jìn)行預(yù)測(cè)的方法好涛舍。基本特征值最后會(huì)是一個(gè)極大的稀疏矩陣右遭。
4. 歸一化和標(biāo)準(zhǔn)化做盅。特征值之間的數(shù)值還是要保持在一個(gè)數(shù)量級(jí)上,否則模型會(huì)打破每個(gè)特征值是同等重要的原則窘哈。比如收入和年齡吹榴,收入遠(yuǎn)比年齡數(shù)值大,這時(shí)候就要標(biāo)準(zhǔn)化特征滚婉。
5.模型選取上svm图筹, rf, adaboost,xgboost等远剩。得學(xué)習(xí)扣溺。
6. 模型評(píng)估還是很重要的。 一般通過(guò)f1評(píng)估瓜晤。 像阿里音樂(lè)比賽锥余,那大神用的就是評(píng)估函數(shù)的極值加到每個(gè)播放量上進(jìn)行預(yù)測(cè),分?jǐn)?shù)提高很多痢掠。
7. supervised—labled well
unsupervised- cluster well
reinforcement- behavior well