????關(guān)于本次智慧海洋特征構(gòu)建分為時(shí)間類特征诗箍、分箱特征(x杨拐、y祈餐、v)、DataFrame特征(計(jì)數(shù)特征和偏移量特征)哄陶、統(tǒng)計(jì)特征(聚合)帆阳、embedding特征(word2vec、NMF)這幾方面進(jìn)行考慮的。????
分箱特征的重要性:
一般在建立分類模型時(shí)蜒谤,需要對(duì)連續(xù)變量離散化山宾,特征離散化后,模型會(huì)更穩(wěn)定鳍徽,降低了模型過擬合的風(fēng)險(xiǎn)资锰。離散特征的增加和減少都很容易,易于模型的快速迭代阶祭;稀疏向量?jī)?nèi)積乘法運(yùn)算速度快绷杜,計(jì)算結(jié)果方便存儲(chǔ),容易擴(kuò)展濒募;離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性:比如一個(gè)特征是年齡>30是1鞭盟,否則0。如果特征沒有離散化瑰剃,一個(gè)異常數(shù)據(jù)“年齡300歲”會(huì)給模型造成很大的干擾齿诉;邏輯回歸屬于廣義線性模型,表達(dá)能力受限晌姚;單變量離散化為N個(gè)后粤剧,每個(gè)變量有單獨(dú)的權(quán)重,相當(dāng)于為模型引入了非線性挥唠,能夠提升模型表達(dá)能力抵恋,加大擬合;離散化后可以進(jìn)行特征交叉宝磨,由M+N個(gè)變量變?yōu)镸*N個(gè)變量馋记,進(jìn)一步引入非線性,提升表達(dá)能力懊烤;特征離散化后,模型會(huì)更穩(wěn)定宽堆,比如如果對(duì)用戶年齡離散化腌紧,20-30作為一個(gè)區(qū)間,不會(huì)因?yàn)橐粋€(gè)用戶年齡長(zhǎng)了一歲就變成一個(gè)完全不同的人畜隶。當(dāng)然處于區(qū)間相鄰處的樣本會(huì)剛好相反壁肋,所以怎么劃分區(qū)間是門學(xué)問;特征離散化以后籽慢,起到了簡(jiǎn)化了邏輯回歸模型的作用浸遗,降低了模型過擬合的風(fēng)險(xiǎn)∠湟冢可以將缺失作為獨(dú)立的一類帶入模型跛锌。將所有變量變換到相似的尺度上。
摘自鏈接:http://www.reibang.com/p/6f2ee13cf1ea
分箱方法:https://blog.csdn.net/u013421629/article/details/78416748
Embedding特征:上分秘籍
還未搞懂届惋。髓帽。菠赚。