Faiss學(xué)習(xí)：一

在多個GPU上運行Faiss以及性能測試

一、Faiss的基本使用

1.1在CPU上運行

Faiss的所有算法都是圍繞index展開的欲诺。不管運行搜索還是聚類，首先都要建立一個index鸵隧。

import faiss
# make faiss available
index = faiss.IndexFlatL2(d)
# build the index
# d is the dimension of data

在運行上述代碼后鹃两，就可以添加數(shù)據(jù)并運行搜索了。

index.add(xb)
# xb is the base data
D, I = index.search(xq, k)
# xq is the query data
# k is the num of neigbors you want to search
# D is the distance matrix between xq and k neigbors
# I is the index matrix of k neigbors

1.2在單個GPU上運行

在單個GPU上運行的語法基本與在GPU上運行類似驶兜。但是需要申明一個GPU資源的標(biāo)識.

res = faiss.StandardGpuResources()
# we need only a StandardGpuResources per GPU
flat_config = 0
# flat_config is an ID. if you have 3 GPUs, flat_configs maybe 0, 1, 2
index = faiss.GpuIndexFlatL2(res, d, flat_config)
# build the index
index.add(xb)
D, I = index.search(xq, k)

1.3在多個GPU上運行

在多個GPU上運行時便有所不同扼仲，我們需要將數(shù)據(jù)集分割給多個GPU以完成并行搜索。

在Faiss中提供了兩種方法實現(xiàn)：IndexProxy和IndexShards抄淑。

下面著重介紹IndexProxy屠凶。

res = [faiss.StandardGpuResources() for i in range(ngpu)]
# first we get StandardGpuResources of each GPU
# ngpu is the num of GPUs

indexes = [faiss.GpuIndexFlatL2(res[i], i, d, useFloat16)
           for i in range(ngpu)]
# then we make an Index array
# useFloat16 is a boolean value

index = faiss.IndexProxy()
for sub_index in indexes:
    index.addIndex(sub_index)
# build the index by IndexProxy

二、kmeans測試

1.jpg

如圖所示數(shù)據(jù)為1M個肆资，中心點為1K個矗愧。

在不同數(shù)據(jù)維度以及GPU數(shù)目下迭代20次所需要的時間。

三郑原、暴力搜索測試

數(shù)據(jù)集為sift1M唉韭，該數(shù)據(jù)集共1M個，128維犯犁。（運行在兩個K40M GPU上）

2.jpg

3.jpg

可以看到在每次查詢10K個數(shù)據(jù)的1024個最近鄰居時平均每個查詢只需360ns属愤。當(dāng)需要查詢的鄰居數(shù)下降時，查詢時間能夠降至100ns酸役。

四住诸、IVFPQ搜索測試

數(shù)據(jù)集同上，運行環(huán)境同上涣澡。

基本參數(shù)：

numCentroids=4096
numQuantizers=64

首先我們測試nprob對性能的影響

4.jpg

當(dāng)nprob上升時贱呐，每次查詢時間會增加，同時查詢的準(zhǔn)確度也會上升入桂。但上升到一定程度上升幅度便會迅速變小吼句。我們?nèi)?zhǔn)確度的拐點值nprob=32進行下一步測試。

接下來我們測試查詢的鄰居數(shù)即k值對性能的影響事格。

5.jpg

可以看到查詢時間不再是線性增長了惕艳。也就意味著對于IVFPQ鄰居數(shù)不宜太多。

選定k=32進行下一步測試驹愚。

6.jpg

如圖所示远搪，隨著每次查詢的數(shù)量上升，平均查詢時間先變小在變大逢捺，這可能是由于數(shù)據(jù)量小時開銷比較大導(dǎo)致平均查詢時間較大谁鳍。可以看到隨著查詢的數(shù)量上升劫瞳，平均查詢時間上升但上升幅度放緩倘潜，估計會在250ns左右穩(wěn)定。

最后編輯于：2017.12.06 05:24:48

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末志于，一起剝皮案震驚了整個濱河市涮因，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌伺绽，老刑警劉巖养泡，帶你破解...
沈念sama閱讀 207,113評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異奈应，居然都是意外死亡澜掩，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,644評論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門杖挣，熙熙樓的掌柜王于貴愁眉苦臉地迎上來肩榕，“玉大人，你說我怎么就攤上這事惩妇≈旰海” “怎么了？”我有些...
開封第一講書人閱讀 153,340評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵屿附，是天一觀的道長郎逃。經(jīng)常有香客問我，道長挺份，這世上最難降的妖魔是什么褒翰？我笑而不...
開封第一講書人閱讀 55,449評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮匀泊，結(jié)果婚禮上优训，老公的妹妹穿的比我還像新娘。我一直安慰自己各聘，他們只是感情好揣非，可當(dāng)我...
茶點故事閱讀 64,445評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著躲因，像睡著了一般早敬。火紅的嫁衣襯著肌膚如雪忌傻。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,166評論 1贊 284
城市分裂傳說
那天搞监，我揣著相機與錄音水孩，去河邊找鬼。笑死琐驴，一個胖子當(dāng)著我的面吹牛俘种，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播绝淡，決...
沈念sama閱讀 38,442評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼宙刘，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了牢酵？” 一聲冷哼從身側(cè)響起悬包，我...
開封第一講書人閱讀 37,105評論 0贊 261
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎茁帽，沒想到半個月后玉罐，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,601評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡潘拨，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,066評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年吊输，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片铁追。...
茶點故事閱讀 38,161評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡季蚂，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出琅束，到底是詐尸還是另有隱情扭屁，我是刑警寧澤，帶...
沈念sama閱讀 33,792評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布涩禀，位于F島的核電站料滥，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏艾船。R本人自食惡果不足惜葵腹，卻給世界環(huán)境...
茶點故事閱讀 39,351評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望屿岂。院中可真熱鬧践宴，春花似錦、人聲如沸爷怀。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,352評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽运授。三九已至烤惊，卻和暖如春乔煞，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背撕氧。一陣腳步聲響...
開封第一講書人閱讀 31,584評論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工瘤缩，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人伦泥。一個月前我還...
沈念sama閱讀 45,618評論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長得像锦溪，于是被迫代替她去往敵國和親不脯。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,916評論 2贊 344