今天要讀一篇 Amy Greenwald 的論文《Correlated-Q Learning》,先記一下論文中的基礎(chǔ)概念柒竞,然后再去深入解讀。
這篇論文的目標(biāo)是:在 general-sum 馬爾可夫博弈中學(xué)習(xí)均衡策略
納什均衡:
- 不同的 action 服從獨(dú)立概率分布
- 所有的 agents 都針對(duì)另一個(gè)概率進(jìn)行優(yōu)化
相關(guān)均衡:
- agents 的概率分布之間存在依賴
- 可以用線性規(guī)劃來計(jì)算
Correlated-Q:
- 在 general-sum 博弈中,相關(guān)均衡包含納什均衡
- 在 constant-sum 博弈中有额,相關(guān)均衡包含極小極大
馬爾可夫博弈:
- I,一組 players
- S彼绷,狀態(tài)
- Ai(s)巍佑,其中 s 屬于S,i 屬于 I寄悯,第 i 個(gè)玩家在狀態(tài) s 可用的 actions
- P萤衰,概率轉(zhuǎn)移函數(shù)
- R(i),第 i 個(gè)玩家的獎(jiǎng)勵(lì)
馬爾可夫博弈中的Q:
- 用 State-action 向量猜旬,而不是 State-action 對(duì)
- Qi(s, a) = (1-gamma) * Ri(s, a) + gamma * sum(P(s' given s,a) * Vi(s'))
Friend Q:
- 所有 players 的獎(jiǎng)勵(lì)函數(shù)是一樣的
- Vi(s) = max Qi(s, a)
CE-Q:
- 功利主義:最大化所有玩家的獎(jiǎng)勵(lì)總和-argmax sum of players rewards
- 平等主義:最大化所有玩家獎(jiǎng)勵(lì)的最小值-argmax min
- 共和主義:最大化所有玩家獎(jiǎng)勵(lì)的最大值-argmax max
- 自由主義:最大化每個(gè)玩家的最大獎(jiǎng)勵(lì)-argmax rewards where result is a Correlated Equlibrium