倒數(shù)第二段符衔,應為“TF的word2vec實現(xiàn)里柑司,詞頻越大藕漱,詞的類別編號越小,被采樣到的概率越大臀稚×吡耄”
![240](https://cdn2.jianshu.io/assets/default_avatar/9-cceda3cf5072bcdd77e8ca4f21c40998.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
IP屬地:北京
倒數(shù)第二段符衔,應為“TF的word2vec實現(xiàn)里柑司,詞頻越大藕漱,詞的類別編號越小,被采樣到的概率越大臀稚×吡耄”
確實Q[5,5]=0,樓上的看成R[5,5]=100了。
另外樓主的第二次episode公式有誤苍碟,結果倒是正確的酒觅,應該是手誤寫錯了撮执,應該是Q(3,1) = R(3,1)+ 0.8 * max(Q(1,3)微峰,Q(1,5))=0 + 0.8 * max(0,100) = 80
增強學習 Q-learning對于小白菜來說,首先是了解Q-learning的基本原理抒钱,最好是像學習bp蜓肆,學習CNN一樣可以將一條計算走通,這里分享比較好理解的兩個博客谋币,英文原版:http://mnems...