Faiss學(xué)習(xí):一

在多個GPU上運行Faiss以及性能測試

一、Faiss的基本使用

1.1在CPU上運行

Faiss的所有算法都是圍繞index展開的欲诺。不管運行搜索還是聚類,首先都要建立一個index鸵隧。

import faiss
# make faiss available
index = faiss.IndexFlatL2(d)
# build the index
# d is the dimension of data

在運行上述代碼后鹃两,就可以添加數(shù)據(jù)并運行搜索了。

index.add(xb)
# xb is the base data
D, I = index.search(xq, k)
# xq is the query data
# k is the num of neigbors you want to search
# D is the distance matrix between xq and k neigbors
# I is the index matrix of k neigbors

1.2在單個GPU上運行

在單個GPU上運行的語法基本與在GPU上運行類似驶兜。但是需要申明一個GPU資源的標(biāo)識.

res = faiss.StandardGpuResources()
# we need only a StandardGpuResources per GPU
flat_config = 0
# flat_config is an ID. if you have 3 GPUs, flat_configs maybe 0, 1, 2
index = faiss.GpuIndexFlatL2(res, d, flat_config)
# build the index
index.add(xb)
D, I = index.search(xq, k)

1.3在多個GPU上運行

在多個GPU上運行時便有所不同扼仲, 我們需要將數(shù)據(jù)集分割給多個GPU以完成并行搜索。

在Faiss中提供了兩種方法實現(xiàn):IndexProxy和IndexShards抄淑。

下面著重介紹IndexProxy屠凶。

res = [faiss.StandardGpuResources() for i in range(ngpu)]
# first we get StandardGpuResources of each GPU
# ngpu is the num of GPUs

indexes = [faiss.GpuIndexFlatL2(res[i], i, d, useFloat16)
           for i in range(ngpu)]
# then we make an Index array
# useFloat16 is a boolean value

index = faiss.IndexProxy()
for sub_index in indexes:
    index.addIndex(sub_index)
# build the index by IndexProxy

二、kmeans測試

1.jpg

如圖所示數(shù)據(jù)為1M個肆资,中心點為1K個矗愧。

在不同數(shù)據(jù)維度以及GPU數(shù)目下迭代20次所需要的時間。

三郑原、暴力搜索測試

數(shù)據(jù)集為sift1M唉韭, 該數(shù)據(jù)集共1M個,128維犯犁。(運行在兩個K40M GPU上)

2.jpg
3.jpg

可以看到在每次查詢10K個數(shù)據(jù)的1024個最近鄰居時平均每個查詢只需360ns属愤。當(dāng)需要查詢的鄰居數(shù)下降時,查詢時間能夠降至100ns酸役。

四住诸、IVFPQ搜索測試

數(shù)據(jù)集同上,運行環(huán)境同上涣澡。

基本參數(shù):

numCentroids=4096
numQuantizers=64

首先我們測試nprob對性能的影響

4.jpg

當(dāng)nprob上升時贱呐, 每次查詢時間會增加, 同時查詢的準(zhǔn)確度也會上升入桂。但上升到一定程度上升幅度便會迅速變小吼句。我們?nèi)?zhǔn)確度的拐點值nprob=32進行下一步測試。

接下來我們測試查詢的鄰居數(shù)即k值對性能的影響事格。

5.jpg

可以看到查詢時間不再是線性增長了惕艳。也就意味著對于IVFPQ鄰居數(shù)不宜太多。

選定k=32進行下一步測試驹愚。

6.jpg

如圖所示远搪,隨著每次查詢的數(shù)量上升,平均查詢時間先變小在變大逢捺,這可能是由于數(shù)據(jù)量小時開銷比較大導(dǎo)致平均查詢時間較大谁鳍。可以看到隨著查詢的數(shù)量上升劫瞳, 平均查詢時間上升但上升幅度放緩倘潜,估計會在250ns左右穩(wěn)定。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末志于,一起剝皮案震驚了整個濱河市涮因,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌伺绽,老刑警劉巖养泡,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異奈应,居然都是意外死亡澜掩,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進店門杖挣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來肩榕,“玉大人,你說我怎么就攤上這事惩妇≈旰海” “怎么了?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵屿附,是天一觀的道長郎逃。 經(jīng)常有香客問我,道長挺份,這世上最難降的妖魔是什么褒翰? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮匀泊,結(jié)果婚禮上优训,老公的妹妹穿的比我還像新娘。我一直安慰自己各聘,他們只是感情好揣非,可當(dāng)我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著躲因,像睡著了一般早敬。 火紅的嫁衣襯著肌膚如雪忌傻。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天搞监,我揣著相機與錄音水孩,去河邊找鬼。 笑死琐驴,一個胖子當(dāng)著我的面吹牛俘种,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播绝淡,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼宙刘,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了牢酵?” 一聲冷哼從身側(cè)響起悬包,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎茁帽,沒想到半個月后玉罐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡潘拨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年吊输,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片铁追。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡季蚂,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出琅束,到底是詐尸還是另有隱情扭屁,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布涩禀,位于F島的核電站料滥,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏艾船。R本人自食惡果不足惜葵腹,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望屿岂。 院中可真熱鬧践宴,春花似錦、人聲如沸爷怀。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽运授。三九已至烤惊,卻和暖如春乔煞,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背撕氧。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工瘤缩, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人伦泥。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像锦溪,于是被迫代替她去往敵國和親不脯。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容