背景:只專注于單個模型可能會忽略一些相關任務中可能提升目標任務的潛在信息叠骑,通過進行一定程度的共享不同任務之間的參數(shù),可能會使原任務泛化更好削茁。廣義...
強化學習 元素:actor(我們可以控制宙枷,決策我們的行為)掉房,Env,Reward(我們不能控制環(huán)境)主要方法:model-baed(對Env建模...
Unspervised learning主要任務目標是發(fā)掘數(shù)據(jù)潛在有價值的結構慰丛,主要分為clustering卓囚,dimentionality re...
神經(jīng)網(wǎng)絡構建好,訓練不出好的效果怎么辦诅病?明明說好的擬合任意函數(shù)(一般連續(xù))(為什么哪亿?可以參考Neural Network and Deep Le...
David Silver說,AI = RL + DL = Deep Reinforcement Learning他的課程:RL Cource b...
這次給大家介紹一下GAN的generalized framework贤笆。其實很多研究都是這樣蝇棉,先找到一個比較直觀好理解方法,然后去研究他的框架芥永,發(fā)...
為了后面介紹seqGAN + RL的應用篡殷,先來介紹一下這個很火的GAN,火到似乎女媧上帝都是“干”出來的...稍提一點背景恤左。統(tǒng)計機器學習中贴唇,這個...
Seq2Seq的資料很多,這里就簡單介紹下吧飞袋。顧名思義戳气,它就是一個sequence來預測另一個sequence的模型,主要是一個encoder-...