1. 萬物可嵌入: embeddings本質(zhì)反映了一種狀態(tài)轉(zhuǎn)移的概率,所以任何離散诚啃、會同時出現(xiàn)的模式都可以用嵌入后預(yù)測的方法解決。 2. 為什么不使用one-hot? 不能表...
1. 為什么權(quán)值初始化是個問題笛粘? 反向傳播算法中乔妈,費(fèi)用函數(shù)對于權(quán)值矩陣的梯度決定了更新的速率: 如果要避免梯度消失外莲,首先即某一層的激活函數(shù)輸出值不能為0队贱; 其次, 則激活函數(shù)...
在線性模型中废酷,為了預(yù)防overfitting過度擬合瘟檩,添加了懲罰項 但是為何要加入這一懲罰項令人困惑。 預(yù)防過擬合這個答案給出了解釋: 當(dāng)過擬合的時候澈蟆,為了匹配測試集里的所有...