s - state, a - action, r - reward
長期持有(或持有多頭, holding long)是一種狀態(tài), 告訴我們股票是否是長期持有的, 也可能是持有空頭(holding short)
每日回報既可以作為狀態(tài)作為參考, 也可以作為獎勵
馬爾科夫決策問題包含:
- 一組潛在狀態(tài)S
- 一組潛在行動A
- 轉移函數(shù)T[s, a, s'] # s'概率分布之和必須是1, 代表下一個狀態(tài), 其概率分布能帶來有用的信息.
- 獎勵函數(shù)R[s, a]
強化學習屬于馬爾科夫決策問題, 其任務是找出使獎勵最大化的策略π(s), 最優(yōu)策略稱為π*(s), 其中兩個算法是策略迭代和值迭代
當轉移函數(shù)和獎勵函數(shù)未知時:
稱為一個體驗元組(experience tuple)
有兩種方法得到策略π:
- 模型相關的強化學習
通過查看轉移統(tǒng)計數(shù)據(jù)構建模型T[s, a, s'], 以及對獎勵求均值構建模型R[s, a], 獲得這些模型后通過策略迭代或值迭代解決問題 - 模型無關的強化學習
Q-Learning
折扣回報
考慮到1美元的未來價值(貨幣貶值), 無窮步數(shù)的回報是逐漸減少的, 要乘系數(shù)λ, 系數(shù)λ和利率類似, 表示回報是折扣的.
無限步數(shù)后可以獲取, 有限步數(shù)10步也可以獲取, 設置折扣回報仍可以獲取