今天讀論文遇到了用KL divergence來估計density ratio的方法球恤,被原論文一筆帶過,特意找來reference,感覺想法很不錯皂岔,整理如下:
首先估計density ratio在許多方面有重要應(yīng)用,比如change point detection, transfer learning等展姐,以change point detection為例躁垛,主要目的在于檢驗相鄰的兩個狀態(tài)是否發(fā)生重大變化剖毯,進而檢測出發(fā)生變化的點。如果用random variable表示所在狀態(tài)教馆,那這時候逊谋,具體的density并不是特別需要,只要能比較相鄰兩個狀態(tài)之間的變化差土铺,就足夠detect出哪個點發(fā)生變化了胶滋。而如果先分別估計兩個狀態(tài)的density,進而計算它們的ratio悲敷,那么可能會因為中間多估計了一個不必要的統(tǒng)計量究恤,導(dǎo)致最后估計的ratio不準(zhǔn)。
具體的formulation如下:
假設(shè)我們有一組 i.i.d. 的 reference sample 后德,以及另外一組i.i.d. 的training sample?
部宿,(原論文用了training set 以及 test set,但是此處這兩個sets和傳統(tǒng)機器學(xué)習(xí)中的set并不一樣探遵,所以暫且叫做reference sample窟赏,training sample以作區(qū)分)密度函數(shù)分別為
及
,其ratio記為
:
?. ? ? ? ? ? ? ? ? ? ? ? (1)
問題的目的為在不直接估計及
的情況下估計
箱季。
常用的方法為涯穷,假設(shè)可以用以下的線性模型表示:
, ? ? ? ? ? ?(2)
為basis function藏雏,一般來講Gaussian kernel function就可以拷况,
為要估的參數(shù),b為自己決定的掘殴,可以依賴于sample赚瘦。根據(jù)(1)可以得到
. ? ? ? ? ? ? ? ?(3)
作為
的估計,我們當(dāng)然希望二者越近越好奏寨,而二者的接近程度用KL divergence來刻畫:
.
其中第二個等號右邊第一項與要估的參數(shù)無關(guān)起意,所以要使KL divergence最小,只需要讓最大即可病瞳。
的empirical version可以寫為:
.
目標(biāo)函數(shù)中并不含有reference sample,但是reference sample并非無用套菜,而是被用作constraint.
因為為density function亲善,所以要滿足
,
而根據(jù)(3)逗柴,我們可以得到的empirical的形式蛹头,進而得出
.
所以最后要優(yōu)化的函數(shù)為:
subject to ??and?
.
目標(biāo)函數(shù)為凸函數(shù)屠尊,所以很容易求解出的值,代入(2)即可得出density ratio.
原文鏈接:
http://www.ms.k.u-tokyo.ac.jp/2008/KLIEP.pdf