無意看到一篇中文文章季稳,并且寫出了多種算法作媚,這里總結(jié)一下差购。
1 得到的數(shù)據(jù)分三種情況
1 完全列表(full list, FL): 得到的各結(jié)果為完整SNP列表(并且每個(gè)為1個(gè)排序),但是生物信息領(lǐng)域一般不會這樣班利,一般只選擇top的SNP研究侨把。
2 平局列表(full list with ties, TL): 得到的各結(jié)果為完整SNP列表,但有的兩個(gè)SNP排序相同
3 不完全列表(incomplete list, IL): 得到不完整的列表妹孙,這個(gè)在生物信息領(lǐng)域最常見
文獻(xiàn)的例子如下:
2 經(jīng)典方法依據(jù)及其缺點(diǎn)
在評價(jià)指標(biāo)的選擇上, 大多數(shù)工作使用斯皮爾曼等級相關(guān)系數(shù)或肯德爾 距離. 這兩個(gè)經(jīng)典量只適
用于排名列表包含所有對象的情況, 不能應(yīng)用在IL 數(shù)據(jù)中, 同時(shí)它們也沒有考慮不同排名位置的
不同權(quán)重. 在真實(shí)場景中, 靠前的排名應(yīng)比靠后的排名具有更高的權(quán)重, 例如第1 名和第2 名秋柄、第
50 名與51 名之間均只相差1 個(gè)排位, 但前者的排名差距權(quán)重比后者更大.
3 方法講解
作者將排名聚合方法分為啟發(fā)式方法和優(yōu)化類方法兩類
3.1 啟發(fā)式方法
主要有: KwikSort, FaginSmall蠢正, BioConsert骇笔,PageRank
BordaCount(波達(dá)計(jì)數(shù)法),MedRank, MC3(馬爾科夫鏈方法)笨触,
3.2 優(yōu)化類方法
上述啟發(fā)式方法盡管在運(yùn)算速度上有優(yōu)勢, 但是并不能在理論上保證最終排名的性能最優(yōu)性. 針對這一不足, 一些學(xué)者提出了優(yōu)化類方法, 通過優(yōu)化基于某一性能指標(biāo)的目標(biāo)函數(shù), 獲得聚合排名.在衡量兩個(gè)排名之間一致性情況下, 采用不同的性能指標(biāo)(如距離函數(shù)懦傍、等級相關(guān)系數(shù)和違例數(shù)等) 會得到不同的優(yōu)化方法。
主要有:FAST(分支定界方法)芦劣,MVR(最少違例數(shù)方法)粗俱,
4 評價(jià)指標(biāo)
一個(gè)合理的相似性度量指標(biāo)需要能夠處理對象未同時(shí)出現(xiàn)在排名中的情況, 即列表不等長; 賦予高排名對象比低排名對象更多的權(quán)重; 同時(shí)相似度取值隨著排名列表長度的增長而最終收斂.。
FL數(shù)據(jù):
TL與IL數(shù)據(jù)
5 結(jié)果
整體而言, 基于距離優(yōu)化的分支定界方法(FAST) 優(yōu)于其他各類算法, 在不同類型的排序列表中表現(xiàn)非常穩(wěn)定, 能夠很好地完成少量長列表的排名聚合.
參考文獻(xiàn):陳玟宇,朱章黔, 王曉蒙和賈韜虚吟。2020. 排名聚合算法在少量長列表聚合中的性能比較分析寸认。(DOI: 10.7498/aps.69.20191584)