在模型訓(xùn)練過程中,對于sparse input的特征來說硫嘶,每個(gè)特征值(feasign)出現(xiàn)的概率有高有低。對于高頻的特征梧税,其參數(shù)得到更新的幾率較大沦疾,而低頻特征更新幾率較小。
使用出現(xiàn)次數(shù)作為其gradient scale參數(shù)第队,對高頻特征進(jìn)行打壓:gradient = gradient / show哮塞。提升低頻特征的預(yù)估擬合能力。
PS:當(dāng)然凳谦,如果低頻特征過多忆畅,會(huì)導(dǎo)致整個(gè)參數(shù)量過大。(特別是對于一些長尾分布的特征)參數(shù)量過大則容易造成過擬合尸执,所以對這些低頻特征也應(yīng)當(dāng)進(jìn)行適當(dāng)?shù)南鳒p家凯。