多樣性問題(施工中)

問題起源

編程語言
咖啡
爪哇島

??多樣性問題,最早誕生于信息檢索任務當中状勤,因為在信息檢索的過程中,可能輸入的查詢會存在多種意思双泪。比如搜索java持搜,可能會有不同類型的結果。它可以是一種編程語言焙矛、可以是咖啡也可以指爪哇島葫盼。再比如兩三年前我想在京東買一箱蘋果,但是在搜索蘋果之后出來的全是手機以及配件村斟。面對這種檢索詞有歧義的情況多樣性的結果列表能夠較快的了解用戶的真正目的剪返。隨著推薦系統(tǒng)的發(fā)展多樣性也成為對推薦系統(tǒng)的重要評價指標之一。中多樣行的提升一方面可以提升冷門項目特別是長尾項目的曝光率邓梅,另一方面也可以挖掘興趣廣泛用戶的潛在興趣點脱盲。

建模與度量

Individual Diversity:

??多樣性的度量與建模一共有兩種層面,第一種層面上的多樣性是指個體的多樣性日缨,這是在衡量當前列表中物品的新穎程度钱反,即該類型的物品,在之前的推薦列表中出現的次數較少匣距。

1.Alpha-nDCG:

在保證新穎性的同時保證多樣性面哥。
Query-Topics Dictionary(每個query中所包含的topic):
{"85.1", "85.2", "85.3", "85.4", "85.5", "85.6"};

Doc-Topics Dictionary(每個文檔中所包含的topic):
docDict["a"] = {"85.2", "85.4"};
docDict["b"] = {"85.2"};
docDict["c"] = {"85.2"};
docDict["d"] = {};
docDict["e"] = {"85.1", "85.6"};
docDict["f"] = {"85.1"};
docDict["g"] = {"85.3"};
docDict["h"] = {"85.1"};
docDict["i"] = {};
docDict["j"] = {};

Ranking Query-Doc Dictionary(關于某個query的文檔排序)
{"a", "e", "g", "b", "f", "c", "h", "i", "j", "d"};

增益的計算方式:
G[k]=\sum_{m}^{i=1}J(d_{k},i)(1-\alpha )^{r_{i,k-1}}

新穎性:當前的話題之前出現過的次數ri,k-1
多樣性:當前項目中是否包含query中的話題J(dk,i)

例子:
當前輸入的query為{1,2,3,4,5}
當前的ranking dict為{ a,b,c }
docdict: a{1,2}
b{3,6,7}
c{3,4,5}

alpha-dcg:
a: ((1-α)0+(1-α)0)/log2(1+1);
b: ((1-α)0+0+0)/log2(1+2);
c: ((1-α)1+(1-α)0+(1-α)0)/log2(1+3);

ideal-dcg:
c: ((1-α)0+(1-α)0+(1-α)0)/log2(1+1);
a: ((1-α)0+(1-α)0)/log2(1+2);
b: ((1-α)1+0+0)/log2(1+3);
idcg的產生方式:

先選取序為0的樣本,以此計算每個樣本當前的增益毅待,選取使當前位置增益最大的樣本放在第一位尚卫。再從剩下的序中選取序為1的樣本以此類推。

0: a:((1-α)0+(1-α)0)
b:((1-α)0+0+0)
c:((1-α)0+(1-α)0+(1-α)0)

whoisbest = "c";
bestvalue = (1-α)0+(1-α)0+(1-α)0);
doc_candidates.erase("c");
nDCG = DCG/iDCG

參考論文:novelty and diversity in information retrieval evaluation
鏈接:https://dl.acm.org/doi/10.1145/1390334.1390446

參考代碼:alpha-ndcg-cpp
鏈接:https://github.com/Pabfigueira/alpha-NDCG-cpp/blob/master/alpha_nDCG.cpp

2.ILS(Intra List Similarity):根據推薦列表內文檔對的相似程度來度量
Diversity(c_{1},...c_{n}) = \frac{\sum_{i=1...n}^{}\sum_{j=1...n}^{}(1-Similarity(c_{i},c_{j}))}{\frac{n}{2}*(n-1)}
Similarity(t,c) = \frac{\sum_{}^{i=i...n}w_{i}*sim_i(t_i,c_i)}{\sum_{}^{i=1...n}w_i}

對一個存在n個樣本的列表而言有C(n,2) 一共n(n-1)/2個pair尸红。

simi為第i項屬性的相似程度吱涉,wi為各屬性的權重

參考論文:Improving recommendation diversity

鏈接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.8.5232&rep=rep1&type=pdf
sim_{actor}(i_1,i_2) = \frac{\bigcap_{actors}}{\bigcup_{actors}}
參考論文:When Diversity Is Needed... But Not Expected!
鏈接:https://hal.inria.fr/hal-00931805/document

因相似度的評價方式而異刹泄,不同的評價方式可能會呈現出不同的結果。其中特征的各種距離也常被用來評價相似度怎爵。

參考論文:Improving recommendation lists through topic diversification
鏈接:https://dl.acm.org/doi/10.1145/1060745.1060754

Aggregate Diversity:

??而第二種層面的多樣性算法是指特石,總體的多樣性或者說是系統(tǒng)層面上的多樣性。這個層面上的多樣性可以看作是對個體的列表進行匯總而得到的一個結果鳖链,如果所有人的列表中包含的內容都是相似的那么系統(tǒng)多樣性就較差姆蘸,這種評價更加照顧在長尾中的物品。

??值得注意的是:雖然總體多樣性是個體多樣性匯總得到的結果芙委,但是個體多樣性的提升和總體多樣性的提升并不是同步的逞敷,比如只從5個類里選熱門的東西進行推薦,這樣的個體多樣性評價是很高的灌侣,但是總體多樣性的評價卻比較低推捐。

??對總體多樣性的評價方式而言主要有三種方式。首先是絕對長尾數值的評價方法顶瞳,該方法利用在推薦系統(tǒng)中低于某個流行度排名的物品所被推薦的頻次對物品的流行度進行評估玖姑。頻次越高說明多樣性越好,另一種對應的方式是慨菱,相對長尾數值的評價方法焰络,該方法利用在推薦系統(tǒng)中低于某個流行度排名的物品在推薦系統(tǒng)中所占的比例,來評價符喝,同理所占比例越高則證明多樣性就越好闪彼。


洛倫茲曲線

??另一種方法是基于基尼系數的評價,該方法是把用在經濟學領域的洛倫茲曲線用在了對推薦系統(tǒng)多樣性的評價方式上协饲,對物品所被推薦對頻率在橫軸上進行一個升序的排列畏腕,縱軸表示物品被推薦的概率分布,導數代表概率密度茉稠,曲線的彎曲程度越大說明后半段導數就越大描馅,相對熱門的物品被推薦的就過多。當曲線變成直線時而线,就說明每個位置上的物品被推薦出去的 可能性是相同的铭污,這時在多樣性的評價上是最好的。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末膀篮,一起剝皮案震驚了整個濱河市嘹狞,隨后出現的幾起案子,更是在濱河造成了極大的恐慌誓竿,老刑警劉巖磅网,帶你破解...
    沈念sama閱讀 211,423評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異筷屡,居然都是意外死亡涧偷,警方通過查閱死者的電腦和手機簸喂,發(fā)現死者居然都...
    沈念sama閱讀 90,147評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來嫂丙,“玉大人娘赴,你說我怎么就攤上這事规哲「。” “怎么了?”我有些...
    開封第一講書人閱讀 157,019評論 0 348
  • 文/不壞的土叔 我叫張陵唉锌,是天一觀的道長隅肥。 經常有香客問我,道長袄简,這世上最難降的妖魔是什么腥放? 我笑而不...
    開封第一講書人閱讀 56,443評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮绿语,結果婚禮上秃症,老公的妹妹穿的比我還像新娘。我一直安慰自己吕粹,他們只是感情好种柑,可當我...
    茶點故事閱讀 65,535評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著匹耕,像睡著了一般聚请。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上稳其,一...
    開封第一講書人閱讀 49,798評論 1 290
  • 那天驶赏,我揣著相機與錄音,去河邊找鬼既鞠。 笑死煤傍,一個胖子當著我的面吹牛,可吹牛的內容都是我干的嘱蛋。 我是一名探鬼主播蚯姆,決...
    沈念sama閱讀 38,941評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼浑槽!你這毒婦竟也來了蒋失?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,704評論 0 266
  • 序言:老撾萬榮一對情侶失蹤桐玻,失蹤者是張志新(化名)和其女友劉穎篙挽,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體镊靴,經...
    沈念sama閱讀 44,152評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡铣卡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,494評論 2 327
  • 正文 我和宋清朗相戀三年链韭,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片煮落。...
    茶點故事閱讀 38,629評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡敞峭,死狀恐怖,靈堂內的尸體忽然破棺而出蝉仇,到底是詐尸還是另有隱情旋讹,我是刑警寧澤,帶...
    沈念sama閱讀 34,295評論 4 329
  • 正文 年R本政府宣布轿衔,位于F島的核電站沉迹,受9級特大地震影響,放射性物質發(fā)生泄漏害驹。R本人自食惡果不足惜鞭呕,卻給世界環(huán)境...
    茶點故事閱讀 39,901評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望宛官。 院中可真熱鬧葫松,春花似錦、人聲如沸底洗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽枷恕。三九已至党晋,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間徐块,已是汗流浹背未玻。 一陣腳步聲響...
    開封第一講書人閱讀 31,978評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留胡控,地道東北人扳剿。 一個月前我還...
    沈念sama閱讀 46,333評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像昼激,于是被迫代替她去往敵國和親庇绽。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,499評論 2 348