一暂筝、文章創(chuàng)新
1紊馏、提出一個(gè)新問題,找到最長的top-k的相似性查詢
2姻几、提出了一個(gè)Diamond Cover Index
3宜狐、提出了 阿爾法-跳過技術(shù)势告,用來降低皮爾遜距離計(jì)算時(shí)的復(fù)雜度
二、方法核心
1抚恒、Dimaond Cover Index
? ? DCI構(gòu)成的理論基礎(chǔ):將具有相似的偏移集和長度的子序列分配到同一組中咱台。這將導(dǎo)致“緊密”的組,并在查詢處理過程中最大化其修剪能力俭驮。
? ? 1回溺、Intra-object grouping
? ? ? ? 通過將相鄰的不同長度、不同起點(diǎn)的子序列包絡(luò)到一個(gè)組中混萝。
? ? 2遗遵、inter-object grouping
? ? ? ?為了壓縮MBR的數(shù)量,將相同diamond id 的MBR進(jìn)行壓縮逸嘀,壓縮到一起瓮恭,從而進(jìn)一步減少M(fèi)BR的數(shù)量,以做到優(yōu)秀的空間壓縮效果厘熟。
2屯蹦、阿爾法-跳過技術(shù)
? ? ? ? 我的理解說白了就是一個(gè)前綴和技術(shù),能夠快速的計(jì)算出子序列之間皮爾遜距離計(jì)算的一個(gè)技術(shù)? ??
3绳姨、search
? ? ? ? 使用皮爾遜距離衡量進(jìn)行衡量登澜,如果距離小于閾值,那么就對這個(gè)group里的子序列進(jìn)行依次的比對飘庄,否則脑蠕,進(jìn)行剪枝。