這個(gè)最常見于GradientDescentOptimizer優(yōu)化中彻亲。
原因是loss過大拆魏,導(dǎo)致訓(xùn)練困難。
如圖宵膨,這里batch_size是1000摇邦,reduce_sum則是reduce_mean的1000倍召烂。
導(dǎo)致nan
這個(gè)最常見于GradientDescentOptimizer優(yōu)化中彻亲。
原因是loss過大拆魏,導(dǎo)致訓(xùn)練困難。
如圖宵膨,這里batch_size是1000摇邦,reduce_sum則是reduce_mean的1000倍召烂。
導(dǎo)致nan