通過(guò)上一節(jié)的zhihu鏈接明白了從這開(kāi)始講ee运悲,以及后面講rl的原因,都是源自這個(gè)zhihu專(zhuān)欄:https://zhuanlan.zhihu.com/p/32311522?group_id=928419100960485376
這一節(jié)繼續(xù)講linUCB(Contextual Bandits)末早,其實(shí)思想和UCB差不多(雖然公式和推導(dǎo)復(fù)雜很多)卵惦,UCB是每一次新的實(shí)驗(yàn)來(lái)都選當(dāng)前概率上界最大的那個(gè)歉备,獲取or不獲取到reward逊彭,然后去更新它的概率上界(概率和delta都更新)咸灿;
linUCB也是每一次新的實(shí)驗(yàn)都選概率上界最大的那個(gè),但是這個(gè)概率上界的計(jì)算和UCB不同侮叮,是用一個(gè)預(yù)估概率+相應(yīng)的delta避矢;預(yù)估概率的得到是通過(guò)線性模型,特征是菜的葷素囊榜、人的年齡等审胸,根據(jù)一些reward先學(xué)習(xí)一波參數(shù),然后再來(lái)一個(gè)用戶就可以得到概率和對(duì)應(yīng)的delta卸勺,于是就得到上界砂沛,根據(jù)上界作為概率去ee。
theta即特征系數(shù)孔庭,是矩陣得到尺上,theta*x是預(yù)估概率,delta是這個(gè)復(fù)雜的根號(hào)圆到;根據(jù)最大概率得到要上的菜然后根據(jù)reward更新theta的矩陣怎抛。
最后補(bǔ)充一下為什么在UCB的基礎(chǔ)上要弄一個(gè)linUCB,是因?yàn)閁CB每次都只是試芽淡,沒(méi)有去考慮Contextual的信息马绝。
最后的最后再說(shuō)一下如果Thompson采樣也想用Context的信息要怎么做,如果像UCB一樣得到theta*x是固定的值是不行的挣菲,這里Thompson的做法是把每一個(gè)theta都做一個(gè)多維分布富稻,每次采樣得到一組值去*x作為每個(gè)老虎機(jī)的概率;theta的分布是用到了正態(tài)分布&共軛分布啥的:https://zhuanlan.zhihu.com/p/32429623