目前對(duì)因果推斷學(xué)的一知半解的阶冈,不是很看的明白解藻,看了個(gè)論文做下筆記孝治,有問題的希望指正
摘要:
因果有能力構(gòu)建推薦系統(tǒng)中的因果性损痰,處理混淆因子的影響以及反事實(shí)問題(離線策略評(píng)估和數(shù)據(jù)增強(qiáng))福侈。但目前對(duì)推薦的分類都集中實(shí)際應(yīng)用的問題上,這種分類方法會(huì)分散和分割單一的因果理論卢未》玖荩考慮到因果性,綜述從因果的角度上來對(duì)推薦方法進(jìn)行分類辽社,將因果性融合進(jìn)推薦系統(tǒng)當(dāng)中伟墙。從因果理論角度對(duì)最新文章進(jìn)行一個(gè)系統(tǒng)性概括,并跟蹤了同一因果策略下推薦系統(tǒng)的發(fā)展滴铅。1)提出因果推斷的概念戳葵;2)提出因果的分類法,潛在結(jié)果框架(PO)汉匙,結(jié)構(gòu)因果模型(SCM)以及反事實(shí)方法拱烁。3)因果在推薦領(lǐng)域中的前景研究
介紹:
因果推斷現(xiàn)在應(yīng)用在學(xué)術(shù)和工業(yè)領(lǐng)域,例如藥物噩翠,氣候戏自,在線廣告評(píng)估等。因果在推薦領(lǐng)域的使用集中在uplift模型當(dāng)中伤锚,作為政策效用的評(píng)估擅笔,目前研究?jī)A向于模型的訓(xùn)練。因果可以使用在推薦的各個(gè)方面屯援,例如數(shù)據(jù)收集剂娄,用戶和項(xiàng)目的表達(dá)學(xué)習(xí),目標(biāo)優(yōu)化玄呛,在線政策評(píng)估。
因果推薦的優(yōu)點(diǎn):
- 模型因果和二,目前的機(jī)器學(xué)習(xí)都研究變量之間的相關(guān)性徘铝,但是在實(shí)際應(yīng)用過程中更注重因果關(guān)系,比如推薦過程中,用戶很可能因?yàn)榱餍卸冗x擇了一項(xiàng)物品惕它,并不是因?yàn)橛脩舻呐d趣愛好選擇的怕午,這種用戶興趣和物品種類混淆相關(guān),會(huì)降低用戶的體驗(yàn)感淹魄。因果推薦系統(tǒng)可以分別學(xué)習(xí)用戶的興趣和流行度相互作用的結(jié)果郁惜。基于因果的推薦系統(tǒng)1)用戶交互偏差的因果效應(yīng)甲锡,偏差的原因是因?yàn)榱餍卸群捅┞墩捉叮瑪?shù)據(jù)的去偏是目前的一個(gè)研究方向;2)對(duì)變量因果效應(yīng)的分解和推理缤沦,利用一定偏差的因果效應(yīng)來提高推薦準(zhǔn)確性虎韵。
-
反事實(shí)推理,與真實(shí)數(shù)據(jù)有所不同缸废,其問題主要集中在數(shù)據(jù)增強(qiáng)包蓝,分布外數(shù)據(jù)泛化,政策評(píng)估企量。1)數(shù)據(jù)增強(qiáng)問題测萎,作為觀察數(shù)據(jù)的一個(gè)補(bǔ)充資源; 2)OOD問題指的是訓(xùn)練集和測(cè)試集不滿足于獨(dú)立同分布(IID),傳統(tǒng)的推薦系統(tǒng)會(huì)學(xué)習(xí)到用戶和物品之間的一種虛假相關(guān)届巩,而因果推薦用反事實(shí)的方法找到不變量或者不變的變量硅瞧,或者因果關(guān)系,并在數(shù)據(jù)分布變化的時(shí)候泛化姆泻。3)uplift模型評(píng)估增長(zhǎng)
現(xiàn)有的研究
- 目前的研究集中在三種類型:潛在結(jié)果(PO)框架零酪,結(jié)構(gòu)因果模型(SCM)以及反事實(shí)。PO和SCM-based方法利用特定的因果推斷技術(shù)拇勃,但是前者沒有明確的使用結(jié)構(gòu)信息四苇;另一方面,反事實(shí)方法沒有特定的方法
-
推薦中因果方法的演化:
PO-based框架
早期研究集中在po框架方咆,主要將po框架應(yīng)用到深度學(xué)習(xí)的優(yōu)化函數(shù)中月腋,或者強(qiáng)化學(xué)習(xí)的方法獎(jiǎng)勵(lì)中。這個(gè)方法又可以分成兩個(gè)類別瓣赂,傾向分?jǐn)?shù)和因果效應(yīng)榆骚。前者利用評(píng)估的傾向分?jǐn)?shù)進(jìn)行重新分配權(quán)重,因果效應(yīng)集中處理和控制下的po之間的差異煌集。
- 傾向分?jǐn)?shù)策略:
協(xié)變量X(用戶商品特征妓肢,時(shí)間等信息),決策方法苫纤,決定了是否要一個(gè)有效的手段碉钠,因此潛在結(jié)果po為纲缓,作為一種“獎(jiǎng)勵(lì)”的觀察數(shù)據(jù),的有有效性可以被評(píng)估喊废,作為一種評(píng)估策略祝高,通常使用A/B測(cè)試,但成本太高污筷,因此一個(gè)代替的方案工闺,計(jì)算評(píng)估作為采用策略的獎(jiǎng)勵(lì),但是這種方法面臨著非隨機(jī)缺失問題(MNAR)瓣蛀。
為處理這個(gè)問題陆蟆,1)早期的處理方法是直接預(yù)測(cè)缺失值,但是會(huì)有巨大的數(shù)據(jù)偏差問題揪惦。2)當(dāng)前采用傾向分?jǐn)?shù)e(x)來處理數(shù)據(jù)分布遍搞。傾向分?jǐn)?shù)的作用:糾正暴露偏差,克服混淆問題器腋,用暴露模型計(jì)算傾向分?jǐn)?shù)溪猿,并估計(jì)未觀察到的混雜因素;學(xué)習(xí)未觀察到的混淆因素的低秩嵌入纫塌,學(xué)了individual 嵌入從暴露中獲得PO信息诊县,尋找隱藏關(guān)系;3)對(duì)比學(xué)習(xí)與傾向分?jǐn)?shù)的結(jié)合解決噪聲數(shù)據(jù)措左,比如CCL框架依痊,使用傾向分?jǐn)?shù)生成信息正樣本對(duì)作為對(duì)比學(xué)習(xí)。
傾向分?jǐn)?shù)可分為逆傾向分?jǐn)?shù)IPS和doubly robust(DR)怎披, 克服數(shù)據(jù)的有偏性和模型的不可知性胸嘁。
MNAR
隨機(jī)缺失NAR可導(dǎo)致有偏預(yù)測(cè)和次優(yōu)策略,1)選擇偏差:在預(yù)測(cè)任務(wù)中出現(xiàn)凉逛,通承院辏可分為模型選擇偏差和用戶自選偏差,模型選擇偏差指的是系統(tǒng)沒有考慮綜合因素而推薦的偏差状飞,由隨機(jī)推薦消除這個(gè)偏差毫胜,通常為流行度和暴露偏差;用戶自選偏差诬辈,不能隨機(jī)化消除酵使,優(yōu)先排除樣本數(shù)據(jù)造成的,通常是從眾性偏差和點(diǎn)擊偏差焙糟。2)混淆偏差口渔,能夠影響到T和Y,定義為統(tǒng)計(jì)相關(guān)的概率分布不等同于干預(yù)分布穿撮,例如缺脉,用戶歷史數(shù)據(jù)訓(xùn)練的系統(tǒng)會(huì)過度推薦用戶過去喜歡的項(xiàng)目瞧哟,用戶也會(huì)收到歷史數(shù)據(jù)的影響影響其決策。
這兩種偏差會(huì)導(dǎo)致因果的無效估計(jì)枪向,選擇偏差并沒有明確的因果關(guān)系
IPS或者IPW或者IPTW
是一種反事實(shí)類別里邊的技術(shù),通常用于數(shù)據(jù)去偏和無偏學(xué)習(xí)咧党。
給定協(xié)變量X引起治療T的概率秘蛔,并為每個(gè)樣本賦值一個(gè)w的值,IPS調(diào)整日志數(shù)據(jù)集中背景特征的分布傍衡,使得測(cè)試數(shù)據(jù)集分布一致深员。
IPS-based算法側(cè)重于用戶交互中的數(shù)據(jù)去偏,主要是選擇偏差蛙埂,傾向分?jǐn)?shù)可以有樸素貝葉斯或者邏輯回歸得到倦畅,主要模型有DLCE,unbiased IPS-based uplift,UR-IPW绣的。 IPS方法并不需要有明確的因果結(jié)構(gòu)圖叠赐,但有些工作也會(huì)組合結(jié)構(gòu)圖和IPS,模型有DENC屡江,拆解了3個(gè)影響outcome的因素芭概,及內(nèi)部因素,社交網(wǎng)絡(luò)混雜因素以及暴露因素惩嘉。
還有各種IPS的變種罢洲,來解決其他的問題,比如在求解IPS過程中引起的高方差問題文黎,提出了一些IPS的變種來解決這類問題惹苗,比如clipped IPS(CIPS),interaction IPS(RIPS序列推薦)耸峭,self-normalized inverse propensity scoring(SNIPS)
DR
另一種解決非隨機(jī)缺失問題的方法桩蓉,direct method(DM)通過回歸模型對(duì)缺失值進(jìn)行預(yù)測(cè),監(jiān)督學(xué)習(xí)優(yōu)勢(shì)方差較低抓艳,但是因?yàn)椴粷M足IID而存在的高偏差触机。DR方法的優(yōu)點(diǎn)是能夠評(píng)估outcome來減輕IPS的方差,控制由于IPS引起的高方差問題玷或。
causal effect strategy
- uplift
目前使用最主要的方法儡首,uplift模型,因果效應(yīng)通常描述成一個(gè)直接或者間接的優(yōu)化目標(biāo)偏友,最大化利益蔬胯。treatment(T)可以代表別的一些應(yīng)用,能夠提升這個(gè)uplift模型的位他。
由推薦引起的因果效應(yīng)的提升氛濒,但是研究表明在沒有建議的情況下仍然有75%的點(diǎn)擊率的產(chǎn)生产场,因此在投資回報(bào)率的角度來說,這些部分的建議不是必要的舞竿。
uplift是個(gè)反事實(shí)的問題京景,在其模型中,引入了因果概念(ATE和CATE)骗奖。因果與傳統(tǒng)機(jī)器學(xué)習(xí)的結(jié)合對(duì)于uplift的評(píng)估包含兩種方法:transformed outcome和uplift tree确徙。推薦系統(tǒng)中,A/Btest的uplift評(píng)估由于用戶自我選擇的偏差造成的高花費(fèi)和大波動(dòng)执桌,各種偏差可能會(huì)導(dǎo)致MNAR鄙皇,解決這個(gè)問題,提出了一些方案來提升uplift的評(píng)估仰挣,比如SNIPS-base ATE伴逸, CATE-based uplift 模型。此外CausCF模型對(duì)MF模型進(jìn)行張量分解成三個(gè)維度(用戶膘壶,物品以及Treatment effect)以此來達(dá)到更好的uplift效果错蝴。CF-MTL模型【107】對(duì)用戶進(jìn)行細(xì)粒度的分類,并評(píng)估每種用戶的概率香椎。 - beyond uplift
采用貝葉斯模型來推斷新曲發(fā)布的因果影響【118】漱竖,【65】最小化注意力機(jī)制的權(quán)重和ITE之間的距離來反映特征對(duì)交互的真實(shí)影響,【119 22】利用大樣本偏差數(shù)據(jù)的ITE和小樣本無偏數(shù)據(jù)來消除數(shù)據(jù)偏差的問題
SCM-based方法
與PO框架相比畜伐,構(gòu)建因果結(jié)構(gòu)圖非常的直觀明了馍惹,根據(jù)結(jié)構(gòu)分為三類:對(duì)撞結(jié)構(gòu),中間結(jié)構(gòu)玛界,混雜結(jié)構(gòu)
對(duì)撞結(jié)構(gòu) collider structure
對(duì)撞結(jié)構(gòu)最基本的的情況會(huì)是C=A+B的形式万矾,目前的工作有DICE【66】這個(gè)模型,從用戶的角度來跟蹤流行性慎框,降低流行偏差良狈,把用戶和項(xiàng)目embedding分離興趣和從眾embedding,在碰撞效應(yīng)的驅(qū)動(dòng)下笨枯,使用特定的從眾性和興趣數(shù)據(jù)進(jìn)行分離薪丁,如果用戶交互一個(gè)非流行的項(xiàng)目,那么就表明用戶是根據(jù)興趣來選擇這個(gè)物品的馅精。CIGC(causal incremental graph convolution)【123】提出碰撞效應(yīng)蒸餾算法有效地再訓(xùn)練基于GCN的推薦模型严嗜,通過計(jì)算不活躍點(diǎn)和新數(shù)據(jù)點(diǎn)之間的距離。
中介結(jié)構(gòu)
當(dāng)一個(gè)變量導(dǎo)致另一個(gè)變量洲敢,可能不是直接導(dǎo)致漫玄,而是通過一組中介變量來做。
混淆結(jié)構(gòu)
混淆結(jié)構(gòu)的問題處理方法可分為四類:后門方法,變量工具(IVs)睦优,前門調(diào)整渗常,深度學(xué)習(xí)干預(yù)。
- 后門路徑方法
后門路徑的定義:給定一個(gè)T->Y汗盘,連接T到Y(jié)的一個(gè)路徑滿足皱碘,1)沒有個(gè)直接路徑,2)沒有碰撞
后門路徑可以確認(rèn)混淆元素隐孽,是后門路徑上的一個(gè)分叉節(jié)點(diǎn)尸执。例如再評(píng)估T->Y的效應(yīng),有一條后門路徑T<-A->
Y缓醋,A為混淆因子,需要控制A阻止后門路徑消除混淆偏差
基于反事實(shí)的方法
一個(gè)并不存在但可以用一些基本規(guī)律和人類直覺來推理的世界绊诲,相關(guān)策略送粱,包括領(lǐng)域自適應(yīng),數(shù)據(jù)增強(qiáng)掂之,公平性和解釋抗俄。
領(lǐng)域自適應(yīng)
數(shù)據(jù)通常會(huì)存在選擇偏差和混淆偏差,導(dǎo)致訓(xùn)練目標(biāo)和實(shí)際之間的差距世舰,為解決偏差問題动雹,收集無偏數(shù)據(jù)來進(jìn)行評(píng)估,但是統(tǒng)一分布的數(shù)據(jù)非常的小跟压,收集方法昂貴胰蝠,因此為了利用這部分統(tǒng)一數(shù)據(jù),會(huì)用少量的無偏數(shù)據(jù)和大量的有偏數(shù)據(jù)對(duì)推薦進(jìn)行訓(xùn)練震蒋,能夠?qū)W習(xí)到有偏數(shù)據(jù)的反事實(shí)分布茸塞,這不僅是個(gè)反事實(shí)的問題,也是個(gè)領(lǐng)域自適應(yīng)問題查剖〖嘏埃【22】訓(xùn)練一個(gè)無偏歸因模型,計(jì)算有偏和無偏數(shù)據(jù)中觀察到和未觀察到的事件標(biāo)簽笋庄⌒ǎ【156】提出一個(gè)KDCRec模型,反事實(shí)推薦的知識(shí)蒸餾框架直砂,教師網(wǎng)絡(luò)以無偏數(shù)據(jù)作為輸入菌仁。
數(shù)據(jù)增強(qiáng)
工作集中在將反事實(shí)融到數(shù)據(jù)增強(qiáng)的過程中,大致通過一些方法生成反事實(shí)的數(shù)據(jù)哆键,從而達(dá)到數(shù)據(jù)增強(qiáng)的功能掘托。【156】在用戶特征偏好生成數(shù)據(jù)新的數(shù)據(jù)樣本籍嘹,生成更有效的數(shù)據(jù)闪盔,利用反事實(shí)中的最小化數(shù)據(jù)弯院,學(xué)習(xí)用戶特征偏好的最小變化,在給定項(xiàng)目對(duì)上逆轉(zhuǎn)偏好排名泪掀。例如給一個(gè)蘋果用戶略微提升價(jià)格關(guān)注听绳,可能小米更有吸引力,這就是個(gè)有效的反事實(shí)樣本异赫。CASA【16】通過用戶歷史化數(shù)據(jù)最小調(diào)整生成物品的反事實(shí)序列椅挣,CauseRec【157】在用戶歷史序列中確認(rèn)必需要素,例如用戶興趣塔拳,噪聲行為在表達(dá)用戶興趣的時(shí)候就不是必要的鼠证。因此替換原始用戶中不可或缺的特征會(huì)導(dǎo)致用戶表達(dá)的偏差】恳郑【152】用戶影響用戶興趣分成兩種類型量九,內(nèi)原因和外原因,然后生成反事實(shí)數(shù)據(jù)樣本颂碧。