learning to rank

title:learning to rank
date:2014-09-12
category:機(jī)器學(xué)習(xí)

歷史階段

  1. Optimizing search engines using clickthrough data, T Joachims, KDD 02——ranksvm的提出。
  2. Efficient algorithms for ranking with SVMs, O Chapelle——提出primal SVM提升效率斤吐。
  3. Person Re-Identification by Support Vector Ranking, BMVC2010——提出Ensemble RankSVM解決memory consumption問題和措。

svm算法描述

svm求解的目標(biāo)是能夠正確劃分?jǐn)?shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面蜕煌, 與感知機(jī)的求解誤分類最小的策略有所不同。我們這里僅以線性svm為例進(jìn)行介紹颁褂。

對于超平面(w, b), 樣本點(diǎn)$(x_i, y_i)$, 幾何間隔定義為:

$\gamma_i = y_i (\frac{w}{||w||} \cdot x_i + \frac傀广{||w||})$

超平面(w, b)對于訓(xùn)練數(shù)據(jù)集T的幾何間隔定義為:

$\gamma = min(\gamma_i)$

幾何間隔最大化直觀的解釋是伪冰,以充分大的確信度對訓(xùn)練數(shù)據(jù)進(jìn)行分類, 也就是說靠柑, 不僅能將正負(fù)實(shí)例點(diǎn)分開歼冰, 而且對最難分的實(shí)例點(diǎn)(離超平面最近的點(diǎn))也有足夠大的確定度將它們分開耻警, 這樣的超平面對未知的新實(shí)例有很好的分類與猜測能力。
具體的腮恩, 這個(gè)問題可以表述為:
$max \ \gamma$

$s.t. y_i (\frac{w}{||w||} \cdot x_i + \frac温兼{||w||}) \ge \gamma$

經(jīng)過變化后, 問題等價(jià)位求如下的最優(yōu)化問題:

$min \frac {1}{2}||w||^2$

$s.t. y_i(w \cdot xi + b) - 1 \ge 0$

現(xiàn)實(shí)中的問題很少能完全做到線性可分荡含, 必然存在一些奇異點(diǎn)的干擾, 我們對每個(gè)樣本點(diǎn)引進(jìn)一個(gè)松弛變量$\xi$, 相應(yīng)的钧排, 問題等價(jià)為:
$min \frac{1}{2}||w||^2 + C\sum{\xi}$

$s.t. y_i(w \cdot xi + b) \ge 1 - \xi$

ranksvm算法描述

如上所述均澳,在svm中是要找到分類超平面使正負(fù)例的幾何間隔最大化,在ranking問題中不存在絕對的正負(fù)例糟袁,而是要使得正確匹配的得分$x_{s}{+}$大于錯(cuò)誤匹配的得分$x_{s}{-}$躺盛,即
$(x_{s}{+}-x_{s}{-})>0$,并且使得$(x_{s}{+}-x_{s}{-})$最大化槽惫。

定義查詢樣本x對于樣本xi匹配的得分$x_{s}: x_{s}=w^{T}|x-x_{i}| $; $|x-x_{i}|$表示每一維特征都對應(yīng)相減,得到差值向量仿耽,預(yù)測階段基于差值做出預(yù)測和排序项贺。

訓(xùn)練過程

為了獲得$w^{T}$峭判,我們定義:

  • 訓(xùn)練集$X={(xi,yi)}林螃,i=1,2治宣,……m;$
  • $xi$為特征向量
  • yi為+1或者-1
  • 對于每一個(gè)訓(xùn)練樣本xi,X中與xi匹配的正例樣本構(gòu)成集合$d_{i}^{+} = \lbrace x_{i,1}{+},x_{i,2}{+}...x_{i,m{+}}{+} \rbrace$
  • X中與xi匹不配的負(fù)例樣本構(gòu)成集合$d_{i}^{-}= \lbrace x_{i,1}{-},x_{i,2}{-}...x_{i,m}^{-} \rbrace绊茧;m{+},m{-}$分別為正負(fù)樣本數(shù)量打掘,存在關(guān)系$m{+}+m{-}=m$。

歸納起來亡笑,就是對訓(xùn)練樣本集中每個(gè)樣本xi,都存在若干正負(fù)例的score pairwise百拓,把訓(xùn)練集中所有score pairwise的集合用P表示晰甚,即$P={(x_{s}{+},x_{s}{-})}$,作為訓(xùn)練階段的輸入;

綜合之前講述的svm最優(yōu)化表述厕九,RankSVM就可得到如下形式:
$ MAX w{T}(x_{s}{+}-x_{s}^{-}); $

$s.t. w{T}(x_{s}{+}-x_{s}^{-})>0$

即:
$ min \frac{1}{2}||w||^{2}+C\sum\xi _{s} $

$ s.t. w{T}(x_{s}{+}-x_{s}^{-})\geq 1-\xi _{s}。 $

以上就是RankSVM的基本思想俊鱼,ranksvm目前廣泛用于pair wise的訓(xùn)練方式畅买。

優(yōu)化

在實(shí)際應(yīng)用中, postive和negative的數(shù)量都比較巨大的情況下焙蚓, ranksvm幾乎不可用购公, 按照工業(yè)界以能夠處理所有的數(shù)據(jù)優(yōu)先于設(shè)計(jì)精巧的模型原則雁歌, 我們修改了ranksvm的loss,使得他做到線性的復(fù)雜度靠瞎。

  • PairWise Loss:
    $ L_{rank} (f;S) = \frac {1} {mn} \sum_{j=1}{m}\sum_{i=1}{n} 1{\hskip -2.5 pt}\hbox{I}(f(x_i)^+ \le (f(x_j^-)) $

  • Down Sampling PairWise Loss:
    $ L_{rank} (f;S) = \frac {1} {n} \sum_{i=1}^{n} 1{\hskip -2.5 pt}\hbox{I}(f(x_i)^+ \le rand(f(x^-)) $

通過這種方式, 能將復(fù)雜度從 $ 2 \cdot n \cdot m $ 下降到 $2 \cdot n$佳窑。
同時(shí)在實(shí)踐中表明, 由于能夠處理的數(shù)據(jù)樣本數(shù)目和維度大大提升父能, down sampling的方式表現(xiàn)優(yōu)于標(biāo)準(zhǔn)的ranksvm神凑。

tips

  • L1范數(shù): ||x|| 為x向量各個(gè)元素絕對值之和溉委。公式:$|X|=\sum{|x_i|}$
  • L2范數(shù): ||x||為x向量各個(gè)元素平方和的1/2次方瓣喊,L2范數(shù)又稱Euclidean范數(shù)或者Frobenius范數(shù)。公式:$||X||=\sqrt{\sum{x_i^2}})$
  • 幾何間隔:
  • 樣本點(diǎn)幾何間隔:超平面(w, b)和樣本點(diǎn)(xi, yi)的距離$|w \cdot x_i + b|$表示分類預(yù)測的確信程度洪橘, 而$w \cdot x_i + b$符號(hào)是否一致表示了分類是否正確趴酣, 做歸一化之后表示為:$\gamma_i = y_i (\frac{w}{||w||} \cdot x_i + \frac岖寞{||w||})$
  • 平面幾何間隔: 超平面(w, b)關(guān)于訓(xùn)練數(shù)據(jù)集T的幾何間隔定義為: $\gamma = min(\gamma_i)$
  • 支持向量:樣本點(diǎn)中與超平面距離最近的點(diǎn)仗谆。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末隶垮,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子勉耀,更是在濱河造成了極大的恐慌便斥,老刑警劉巖枢纠,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件晋渺,死亡現(xiàn)場離奇詭異木西,居然都是意外死亡户魏,警方通過查閱死者的電腦和手機(jī)叼丑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進(jìn)店門鸠信,熙熙樓的掌柜王于貴愁眉苦臉地迎上來星立,“玉大人绰垂,你說我怎么就攤上這事火焰〔颍” “怎么了纯赎?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長念恍。 經(jīng)常有香客問我峰伙,道長音同,這世上最難降的妖魔是什么权均? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任恋沃,我火速辦了婚禮囊咏,結(jié)果婚禮上梅割,老公的妹妹穿的比我還像新娘户辞。我一直安慰自己,他們只是感情好底燎,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布枢希。 她就那樣靜靜地躺著苞轿,像睡著了一般呕屎。 火紅的嫁衣襯著肌膚如雪秀睛。 梳的紋絲不亂的頭發(fā)上蹂安,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天,我揣著相機(jī)與錄音缴阎,去河邊找鬼。 笑死述暂,一個(gè)胖子當(dāng)著我的面吹牛畦韭,可吹牛的內(nèi)容都是我干的艺配。 我是一名探鬼主播,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼鳞芙!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起镶苞,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤茂蚓,失蹤者是張志新(化名)和其女友劉穎聋涨,沒想到半個(gè)月后负乡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抖棘,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡最岗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了驯用。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片晨汹。...
    茶點(diǎn)故事閱讀 39,722評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡淘这,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出钠怯,到底是詐尸還是另有隱情晦炊,我是刑警寧澤断国,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布稳衬,位于F島的核電站薄疚,受9級(jí)特大地震影響街夭,放射性物質(zhì)發(fā)生泄漏板丽。R本人自食惡果不足惜檐什,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一乃正、第九天 我趴在偏房一處隱蔽的房頂上張望瓮具。 院中可真熱鬧名党,春花似錦传睹、人聲如沸欧啤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽炫贤。三九已至系宜,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背汰寓。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留毛好,地道東北人肌访。 一個(gè)月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓吼驶,卻偏偏與公主長得像蟹演,于是被迫代替她去往敵國和親酒请。 傳聞我的和親對象是個(gè)殘疾皇子羞反,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評論 2 353

推薦閱讀更多精彩內(nèi)容