![240](https://cdn2.jianshu.io/assets/default_avatar/5-33d2da32c552b8be9a0548c7a4576607.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
Windows 下的zip文件 方法Ubuntu下亂碼树姨。 讓Ubuntu支持gbk字符集 查看系統(tǒng)支持的字符集 cat /usr/share/i...
本節(jié)主要介紹 Model-free prediction浪慌。從一個未知的MDP中估計出值函數笨触。 1. Monte-Carlo Reinforcem...
這節(jié)主要講了動態(tài)規(guī)劃在強化學習中的用法蕉扮。 引入兩個問題的定義,Prediction篙螟,Control芹扭。Prediction: 預測問題,MDP的信...
問題:同樣的問題脓匿,不同的表述淘钟,生成的回復就不一致。 方法:在seq2seq的的decoder 加入了用戶向量亦镶,類似詞向量日月,利用用戶帳號信息,如性...
這節(jié)課同樣講的一些基礎概念缤骨,為之后的課程做鋪墊爱咬。 馬爾科夫過程(Markov Processes) S是一個有限的狀態(tài)集合P是state之間的轉...
這節(jié)課主要講了一些基本概念。 強化學習的特點 非監(jiān)督绊起,只需要一個獎勵R 獎勵是非即時的 agent 的actions 影響它后續(xù)的數據 1. R...
Pointer Networks 論文地址:https://arxiv.org/abs/1506.03134 因為上一篇博客CopyNet引用了...
Incorporating Copying Mechanism in Sequence-to-Sequence Learning 作者來自香港大...
首先是ubuntu的安裝 制作U盤啟動(windows下UltralSO工具制作)精拟。 開機狂按F12(不同的機器,快捷鍵不同),進入BIOS界面...