【Similarity Search】Multi-Probe LSH算法深入

引言

上一小節(jié)中，我們初步介紹了Multi-Probe LSH算法的大致思路，為了不顯得博客文章太冗雜，所以將這個(gè)話題分成幾篇文章來(lái)寫是整。
在該小節(jié)文章中，我將具體介紹一下生成微擾向量序列(a sequence of perturbation vectors)的方法及相關(guān)分析民假。

步進(jìn)式探測(cè)(Step-Wise Probing)

n-step微擾向量Δ有n個(gè)非零坐標(biāo)浮入，根據(jù)位置敏感哈希的性質(zhì)，距離查詢q一步遠(yuǎn)(one step away)的哈希桶要比距離q兩步遠(yuǎn)(two step away)所包含的數(shù)據(jù)點(diǎn)更加接近q羊异。
這種想法激發(fā)了步進(jìn)式探測(cè)方法事秀，首先探測(cè)所有相差一步的哈希桶(1-step buckets)，然后再探測(cè)所有兩步的哈希桶(2-step buckets)野舶，以此類推易迹。

對(duì)于LSH索引由L個(gè)哈希表和每個(gè)哈希表中M個(gè)哈希函數(shù)而言，

n-step buckets的總數(shù)是

所有s-step buckets之內(nèi)的桶的總數(shù)是

下圖顯示了K近鄰的桶距離的分布平道。左圖顯示睹欲，單一哈希值差異；右圖顯示一屋，不同于查詢點(diǎn)的哈希值的幾組近鄰哈希值窘疮。
從中可以看出，幾乎所有K近鄰的數(shù)據(jù)都被映射成一個(gè)哈希值或者是存在+1或-1之差冀墨；同時(shí)闸衫，大部分K近鄰數(shù)據(jù)被映射到與查詢數(shù)據(jù)的距離小于2步的哈希桶中。

成功概率的估計(jì)(Success Probability Estimation)

使用步進(jìn)式探測(cè)的方法轧苫，對(duì)于查詢點(diǎn)q來(lái)說(shuō)楚堤，其哈希值的每一個(gè)坐標(biāo)都被等同對(duì)待疫蔓，即對(duì)每一個(gè)坐標(biāo)進(jìn)行微調(diào)(加1或者減1)的機(jī)會(huì)都是等同的含懊。

回想一下哈希函數(shù)

首先，q與一個(gè)方向向量的點(diǎn)積使得q被映射到一條線上衅胀，該線被W分割成幾個(gè)間隔岔乔。與q相鄰的點(diǎn)p很可能被映射在q所在的間隔上或者其相鄰的間隔。

實(shí)際上滚躯，p落入q的左右間隔依賴于q與間隔邊界的臨近程度雏门，因此嘿歌，q在每個(gè)間隔中的位置在考慮微擾的構(gòu)造上是潛在的價(jià)值信息。
The position of q within its slot for each
of the M hash functions is potentially useful in determining perturbations worth considering.

上圖描述了q的近鄰數(shù)據(jù)落入相鄰間隔的概率茁影。fi(q)=ai·q+bi是哈希函數(shù)hi(q)對(duì)q的映射值宙帝；對(duì)于δ∈{-1,+1}，令xi(δ)為q到間隔為hi(q)+δ的邊界的距離募闲，所以xi(-1)=fi(q)-hi(q)·W步脓、xi(1)=W-xi(-1)；方便起見(jiàn)浩螺，定義xi(0)=0靴患。
對(duì)于一個(gè)固定的點(diǎn)p，fi(p)-fi(q)是一個(gè)均值為0的高斯隨機(jī)變量要出，其方差與p-q的二范數(shù)的平方成比例鸳君。
我們假設(shè)W足夠大，使得近鄰點(diǎn)p有很大的概率映射為hi(q)患蹂、hi(q)+1或颊、hi(q)-1。
所以传于，p落入間隔為hi(q)+δ的概率:

現(xiàn)在饭宾，我們估計(jì)使用微擾向量Δ=(δ1,...,δM)的成功的概率(找到與q臨近的p):

使用微擾向量Δ找到q的近鄰點(diǎn)的概率與下面的分?jǐn)?shù)有關(guān)

該分?jǐn)?shù)越小的微擾向量具有更大的概率使得找到q的近鄰點(diǎn)，注意Δ的分?jǐn)?shù)是與Δ和q都有關(guān)的函數(shù)格了。
該分?jǐn)?shù)將作為接下來(lái)要介紹的定向查詢探測(cè)序列的基礎(chǔ)進(jìn)行升序排列之用看铆。

定向查詢探測(cè)序列(Query-Directed Probing Sequence)

構(gòu)造探測(cè)序列的一個(gè)最原始的方法是，對(duì)所有可能的微擾向量通過(guò)上面的公式計(jì)算分?jǐn)?shù)并進(jìn)行排序。但是凳厢，有L(2^M-1)個(gè)微擾向量柬焕，我們只希望使用其中很小的一部分。所以棠隐，顯式地生成所有的微擾向量看上去沒(méi)有必要，也是浪費(fèi)的檐嚣。接下來(lái)助泽，我們描述一個(gè)按照分?jǐn)?shù)升序排列生成微擾向量的更加有效的方法。
首先嚎京，我們注意到微擾向量Δ的分?jǐn)?shù)依賴于Δ中非零坐標(biāo)嗡贺，所以，分?jǐn)?shù)較低的微擾向量只含有幾個(gè)非零坐標(biāo)項(xiàng)鞍帝。在生成微擾向量時(shí)诫睬，我們使用(i,δi)對(duì)的集合形式來(lái)表示非零的坐標(biāo)項(xiàng)。(i,δ)表示對(duì)于q的哈希值的第i個(gè)坐標(biāo)加上δ項(xiàng)*帕涌。
給定查詢數(shù)據(jù)q和哈希函數(shù)hi摄凡，我們首先計(jì)算xi(δ)续徽，其中i=1,...,M，δ∈{-1,+1}亲澡。我們將這2M個(gè)值按升序排列钦扭，我們令zj表示為排序序列的第j個(gè)元素，如果zj=xi(δ)床绪，那么令πj=(i,δ)土全，所以xi(δ)是升序排列中第j小的元素。這里滿足xi(-1)+xi(+1)=W会涎，如果πj=(i,δ),那么π2M+1-j=(i,-δ)裹匙。
現(xiàn)在，我們將微擾向量看做是{1,...,2M}的子集末秃，稱為擾動(dòng)集(pertubation set)概页。對(duì)于一個(gè)擾動(dòng)集A，微擾向量ΔA是從擾動(dòng)集中得到的坐標(biāo)集合{πj|j∈A}练慕。
每個(gè)擾動(dòng)集A都可以算一個(gè)分?jǐn)?shù)

惰匙，該分?jǐn)?shù)與想對(duì)應(yīng)的微擾向量ΔA的分?jǐn)?shù)是一樣的。
這樣铃将，生成微擾向量的問(wèn)題就簡(jiǎn)化成按照分?jǐn)?shù)升序排列生成擾動(dòng)集的問(wèn)題项鬼。該過(guò)程分為兩步：

shift(A)：該步驟是將max(A)換成1+max(A),比如shift({1, 3, 4}) = {1, 3, 5}

expand(A)：該步驟是為集合A增加一個(gè)元素1+max(A)，比如expand({1, 3, 4}) = {1, 3, 4, 5}

產(chǎn)生擾動(dòng)集的算法

min-heap是用于維護(hù)微擾向量候選集的劲阎，父集的分?jǐn)?shù)不大于子集的分?jǐn)?shù)绘盟。
該堆(heap)被初始化為集合{1}，每次我們刪除頂端節(jié)點(diǎn)(集合Ai)悯仙，生成兩個(gè)新的集合shift(Ai)和expand(Ai)龄毡。僅輸出有效的頂端節(jié)點(diǎn)Ai。
該過(guò)程如下圖所示：

對(duì)于j=1,...,M锡垄，πj和π2M+1-j是同一坐標(biāo)的相反的擾動(dòng)沦零，一個(gè)有效的擾動(dòng)集A至多只能有{j,2M+1-j}中的一個(gè)元素。
shift和expand操作還有兩個(gè)性質(zhì)：

對(duì)于一個(gè)擾動(dòng)集A货岭，shift(A)和expand(A)的分?jǐn)?shù)要比A的分?jǐn)?shù)大

對(duì)于任意一個(gè)擾動(dòng)集A路操，shift和expand操作得到的序列是唯一的

小結(jié)

為了簡(jiǎn)化以上闡述，我們通過(guò)產(chǎn)生對(duì)于單一哈希表的擾動(dòng)集的過(guò)程來(lái)更加細(xì)致的說(shuō)明千贯。
對(duì)于每個(gè)哈希表屯仗，我們維護(hù)由(i,δ)和zj構(gòu)成的排序的清單，同時(shí)丈牢，還維護(hù)一個(gè)為所有哈希表生成擾動(dòng)集的堆(a single heap)祭钉。該堆里每個(gè)候選的擾動(dòng)集都對(duì)應(yīng)一個(gè)哈希表t瞄沙，當(dāng)集合A和表t關(guān)聯(lián)并從堆中去掉時(shí)己沛，新生成的shift(A)和expand(A)也與表t關(guān)聯(lián)起來(lái)慌核。

轉(zhuǎn)載請(qǐng)注明作者Jason Ding及其出處
Github博客主頁(yè)(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡(jiǎn)書主頁(yè)(http://www.reibang.com/users/2bd9b48f6ea8/latest_articles)
百度搜索jasonding1354進(jìn)入我的博客主頁(yè)

最后編輯于：2017.11.27 00:48:57

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市申尼，隨后出現(xiàn)的幾起案子垮卓，更是在濱河造成了極大的恐慌，老刑警劉巖师幕，帶你破解...
沈念sama閱讀 218,451評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件粟按，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡霹粥，警方通過(guò)查閱死者的電腦和手機(jī)灭将，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,172評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)后控，“玉大人庙曙，你說(shuō)我怎么就攤上這事『铺裕” “怎么了捌朴？”我有些...
開(kāi)封第一講書人閱讀 164,782評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)张抄。經(jīng)常有香客問(wèn)我砂蔽，道長(zhǎng)，這世上最難降的妖魔是什么署惯？我笑而不...
開(kāi)封第一講書人閱讀 58,709評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任左驾，我火速辦了婚禮，結(jié)果婚禮上极谊，老公的妹妹穿的比我還像新娘什荣。我一直安慰自己，他們只是感情好怀酷，可當(dāng)我...
茶點(diǎn)故事閱讀 67,733評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布稻爬。她就那樣靜靜地躺著，像睡著了一般蜕依。火紅的嫁衣襯著肌膚如雪桅锄。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 51,578評(píng)論 1贊 305
城市分裂傳說(shuō)
那天样眠，我揣著相機(jī)與錄音友瘤，去河邊找鬼。笑死檐束，一個(gè)胖子當(dāng)著我的面吹牛辫秧，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播被丧，決...
沈念sama閱讀 40,320評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼盟戏，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼绪妹！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起柿究，我...
開(kāi)封第一講書人閱讀 39,241評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤邮旷，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后蝇摸，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體婶肩，經(jīng)...
沈念sama閱讀 45,686評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,878評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年貌夕，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了律歼。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,992評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡啡专，死狀恐怖苗膝，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情植旧，我是刑警寧澤辱揭，帶...
沈念sama閱讀 35,715評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站病附，受9級(jí)特大地震影響问窃，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜完沪，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,336評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一域庇、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧覆积，春花似錦听皿、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,912評(píng)論 0贊 22
一樁弒父案尉姨，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至吗冤，卻和暖如春又厉，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背椎瘟。一陣腳步聲響...
開(kāi)封第一講書人閱讀 33,040評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工覆致，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人肺蔚。一個(gè)月前我還...
沈念sama閱讀 48,173評(píng)論 3贊 370
代替公主和親
正文我出身青樓煌妈，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子璧诵，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,947評(píng)論 2贊 355