大多數(shù) RL 是由 reward 導向的 qlearning的原理就是一個數(shù)學公式: 2-1-1.png Screen Shot 2017-09-21 at 17.06.20.png