2020SIGMOD-Data Series Progressive Similarity Search with Probabilistic Quality Guarantees

2019BIGVIS-Progressive Similarity Search on Time Series Data
標(biāo)題：時間序列similarity-search的一個遞進(jìn)化的方法栋艳，使用概率性的質(zhì)量保證
這兩篇論文講的是同一個問題

編者的總結(jié)

本文使用查詢時的1NN距離去逐步估計(jì)1. 離真實(shí)1NN距離還要多久瞻坝，2.當(dāng)前result是1NN的概率有多大怨愤，3. 真實(shí)1NN的距離是多大。
模型分別采用分位數(shù)回歸癌压，邏輯斯蒂回歸仰泻，KDE；基本都有對應(yīng)的道理滩届。

編者的思考

使用的特征還可以再細(xì)化一下集侯，只用當(dāng)前1NN距離可能不夠豐富；
使用的模型還可以再優(yōu)化一下帜消，雖然不能用參數(shù)量太大的棠枉，但是太簡單的線性模型可能對精度有影響。

ABSTRACT

圍繞著progressive來說的泡挺，指出當(dāng)前similarity search不能以交互式的響應(yīng)時間提供辈讶，時延較長，本文的progressive逐步提供更精確的結(jié)果可以作為一種選擇娄猫。
其次就是給user提供了一個結(jié)果評估的參數(shù)贱除，幫助user決定何時終止咳促。

1. INTRODUCTION

主要是圍繞著遞進(jìn)式結(jié)果來講的，從一個快速的近似結(jié)果勘伺，逐步精確，完成交互式的響應(yīng)褂删。
Contribution主要包括：

闡述了在大規(guī)模time series data集合中whole-matching 相似性查找的重要性飞醉；
前置實(shí)驗(yàn)證明了，在精確結(jié)果1NN出現(xiàn)屯阀，和算法終止之間缅帘，存在一段無效的時間；
發(fā)現(xiàn)了高質(zhì)量的近似結(jié)果出現(xiàn)的很早难衰，通常在1s之內(nèi)钦无，可以滿足交互式的響應(yīng)；
基于Adaptive Data Series (ADS)索引盖袭，完成KNN-similarity search;
開發(fā)了一個遞進(jìn)式的similarity search方法

2. STATE OF THE ART

相似性度量：

用的是ED失暂，不過未來會在DTW上繼續(xù)驗(yàn)證。

similarity search & 交互式查詢

各種索引和方法各有所長鳄虱，本文用的ADS弟塞，能夠立即獲得高質(zhì)量近似結(jié)果，然后快速向精確結(jié)果收斂拙已。

Progressive Visual Analytics

本文關(guān)注TB級別的數(shù)據(jù)量决记，多個data series，每個series都有百到千數(shù)量級的維度倍踪。
另外一個目標(biāo)系宫，就是給用戶提供近似結(jié)果和對這個近似結(jié)果不確定度的信息，以幫助用戶決定什么時候中止掉搜索建车。

3. PRELIMINARY OBSERVATIONS

準(zhǔn)備實(shí)驗(yàn)主要研究遞進(jìn)式的方法是否可能扩借，產(chǎn)生近似結(jié)果要多久，近似質(zhì)量有多好癞志。
實(shí)驗(yàn)選了3個100GB的數(shù)據(jù)集往枷。query就選擇了原始數(shù)據(jù)集中的一段進(jìn)行similarity search。實(shí)驗(yàn)有兩個結(jié)論：

image.png

第一凄杯，第一次獲得精確1NN結(jié)果的時間是比較短的错洁，但在某些數(shù)據(jù)集上，也會比較長戒突，但相對于完整搜索的時間來說屯碴，都是很短的。這說明精確搜索大部分時間都用于確保搜索結(jié)果的精確性膊存，對于結(jié)果的質(zhì)量沒有提升导而。

image.png

第二忱叭，第一個近似結(jié)果的出現(xiàn)都是非常快的今艺，之后有的快速收斂韵丑，有的收斂平緩，無論如何收斂虚缎，在1秒之內(nèi)產(chǎn)出的近似結(jié)果撵彻，和精確結(jié)果距離都非常近。

有了這兩個結(jié)論实牡，說明遞進(jìn)式的similarity search是可行的陌僵，難點(diǎn)在于如何評估近似結(jié)果的質(zhì)量以及是否繼續(xù)搜索的決策。

基本方法

對于一個數(shù)據(jù)集 $S$ 创坞，和一個查詢序列Q碗短，基于距離分布函數(shù)，可以給出一個分布函數(shù)题涨，其含義為 $S$ 中至少有一個序列和Q的距離<=x的概率偎谁。

image.png

重點(diǎn)問題在于距離分布函數(shù)

F_Q

拿不到，只能有一些近似方法：

Query-Agnostic Approximation
用 $F$ 來代替 $F_Q$ 纲堵，因此與query無關(guān)
Query-Sensitive Approximation
從queries中隨機(jī)找一些witnesses搭盾，加權(quán)平均

兩種方法都有局限性。第一婉支，這種靜態(tài)的1NN距離估計(jì)不適用于progressive的方法鸯隅；第二，好的 $F_Q$ 近似也未必會有好的 $G_{Q,n}$ 近似向挖。尤其是在大數(shù)據(jù)集蝌以，n比較大的時候，比較小的近似error都會被n以冪次放大何之，而 $G_{Q,n}$ 尤其會放大 $F_Q$ 在距離最小的那個部分跟畅；第三，需要大量的距離計(jì)算溶推。因?yàn)橛绕湟蹲骄嚯x最近的sample徊件。

4. PROGRESSIVE SIMILARITY SEARCH

首先是問題的定義：

image.png

雖然沒有規(guī)定進(jìn)步的質(zhì)量，但是確保了質(zhì)量遞增蒜危。雖然沒有規(guī)定精確結(jié)果的時長虱痕，但是一個good answer通常在交互式的時長內(nèi)返回結(jié)果。
問題主要在于如何衡量中間結(jié)果的質(zhì)量：

中間結(jié)果和精確結(jié)果有多接近辐赞？
當(dāng)前結(jié)果就是精確結(jié)果的概率有多大部翘？
預(yù)計(jì)何時找到精確結(jié)果？

5 PREDICTION METHODS

5.1 Initial 1-NN Distance Estimates

本節(jié)在Query前就對1NN的距離做出估計(jì)
【編者注：不知道這一步有什么意義响委，可能是用來和baseline對比】

一種方法是隨機(jī)抽出來一部分?jǐn)?shù)據(jù)集的點(diǎn)新思，根據(jù)他們的1NN距離分布來確定所有qurey的1NN距離概率分布窖梁，這是一個baseline；
另一種方法是從Query set里面選出來一部分點(diǎn)當(dāng)witness夹囚，最終當(dāng)前query的1NN預(yù)測距離纵刘，由這些witness的1NN距離的加權(quán)和來決定
- 權(quán)重是witness和Query的距離來定的，因?yàn)樵浇狞c(diǎn)荸哟，1NN分布也越接近
  
  image.png
這種方法估計(jì)出來的只能說線性正相關(guān)彰导，要進(jìn)一步精準(zhǔn)預(yù)測，作者還用了一個線性回歸模型敲茄，如下圖，用100個query和200個random witness訓(xùn)了一下山析，結(jié)果還可以堰燎，在95%的置信區(qū)間內(nèi)基本覆蓋了真實(shí)值。

image.png

5.2 Progressive 1-NN Distance Estimates

本節(jié)在查詢過程中笋轨，通過逐漸收斂的當(dāng)前近似1NN距離秆剪，預(yù)測真實(shí)1NN距離。

首先iSAX, DSTree索引的首個葉子節(jié)點(diǎn)的近似1NN距離和真實(shí)1NN距離有很強(qiáng)的相關(guān)性爵政。
訪問更多葉子節(jié)點(diǎn)相關(guān)性會更強(qiáng)仅讽，因此作者基于這個信息去預(yù)測真實(shí)1NN距離，使得query越到后面钾挟，預(yù)測真實(shí)的概率越大洁灵。

image.png
接下來就是預(yù)測模型了，一種是線性模型掺出，在訪問某個給定數(shù)量的葉子節(jié)點(diǎn)的情況下徽千，通過近似距離去估計(jì)精確距離。

image.png
另一種就是無參數(shù)的（無線性關(guān)系假設(shè)的）汤锨，核密度估計(jì)（KDE）双抽，使用的是高斯核。
和線性模型類似闲礼，也可以固定一個葉子節(jié)點(diǎn)的訪問數(shù)量牍汹，然后去用KDE找關(guān)于估計(jì)距離和真實(shí)距離的一個概率分布；
也可以把葉子節(jié)點(diǎn)的訪問數(shù)量也作為一個變量柬泽，做一個三元的KDE慎菲。

5.3 Estimates for Exact Answers

本節(jié)使用近似距離去估計(jì)兩件事，一個是當(dāng)前近似距離就是真實(shí)距離的概率锨并，另一個是多久（搜多少葉子節(jié)點(diǎn)）才能找到真實(shí)1NN以及其置信度钧嘶。

作者用了logistic回歸來估計(jì)第一件事；

image.png
結(jié)果如下圖：每幅圖是一個給定訪問葉子節(jié)點(diǎn)數(shù)量時的預(yù)測模型琳疏，每幅圖從右往左看有决，當(dāng)前distance越小的越有可能是真實(shí)1NN闸拿；同樣distance，越搜到后面越有可能是真實(shí)1NN书幕。

image.png
作者用分位數(shù)回歸來估計(jì)第二件事新荤。
如下圖，搜第一個節(jié)點(diǎn)的近似1NN和搜到真實(shí)1NN需要的葉子節(jié)點(diǎn)數(shù)之間的線性關(guān)系很弱台汇，但是可以用分位數(shù)回歸來預(yù)測它的上界苛骨。比如圖中藍(lán)線95%的概率下，搜索至多需要多少葉子節(jié)點(diǎn)苟呐。

image.png

5.4 Visualization Example

最后我們用一個實(shí)例來看看本文的方法怎么用痒芝，如下圖：

查詢開始前就可以有一個1NN距離估計(jì)（5.1節(jié)witness點(diǎn)+線性回歸）
隨著查詢開始，每個預(yù)定義的葉子節(jié)點(diǎn)訪問數(shù)量（圖中為1,1024,4096,16384）牵素，我們都可以根據(jù)此時的近似距離去預(yù)測真實(shí)距離分布（5.2節(jié)KDE）
同時還可以根據(jù)該近似距離估計(jì)此時已找到1NN的概率（5.3節(jié)logistic回歸）严衬，以及在95%的置信區(qū)間下，要找到1NN還需要多少葉子節(jié)點(diǎn)笆呆。

image.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末请琳，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子赠幕，更是在濱河造成了極大的恐慌俄精，老刑警劉巖，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件榕堰，死亡現(xiàn)場離奇詭異竖慧，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)逆屡，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門测蘑，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人康二，你說我怎么就攤上這事碳胳。” “怎么了沫勿？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵挨约，是天一觀的道長谨朝。經(jīng)常有香客問我杠园，道長忍宋，這世上最難降的妖魔是什么劈狐？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮呕缭，結(jié)果婚禮上粪小，老公的妹妹穿的比我還像新娘井誉。我一直安慰自己，他們只是感情好怨绣，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布角溃。她就那樣靜靜地躺著，像睡著了一般篮撑。火紅的嫁衣襯著肌膚如雪减细。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天赢笨，我揣著相機(jī)與錄音未蝌，去河邊找鬼。笑死茧妒，一個胖子當(dāng)著我的面吹牛萧吠，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播桐筏，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼纸型，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了九昧？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤毕匀，失蹤者是張志新（化名）和其女友劉穎铸鹰，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體皂岔，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡蹋笼，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了躁垛。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片剖毯。...
茶點(diǎn)故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖教馆，靈堂內(nèi)的尸體忽然破棺而出逊谋，到底是詐尸還是另有隱情，我是刑警寧澤土铺，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布胶滋，位于F島的核電站，受9級特大地震影響悲敷，放射性物質(zhì)發(fā)生泄漏究恤。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一后德、第九天我趴在偏房一處隱蔽的房頂上張望部宿。院中可真熱鬧，春花似錦瓢湃、人聲如沸理张。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽涯穷。三九已至棍掐，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間拷况，已是汗流浹背作煌。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留赚瘦，地道東北人粟誓。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像起意，于是被迫代替她去往敵國和親鹰服。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評論 2贊 353

2020SIGMOD-Data Series Progressive Similarity Search with Probabilistic Quality Guarantees

編者的總結(jié)

編者的思考

ABSTRACT

1. INTRODUCTION

2. STATE OF THE ART

相似性度量：

similarity search & 交互式查詢

Progressive Visual Analytics

3. PRELIMINARY OBSERVATIONS

基本方法

4. PROGRESSIVE SIMILARITY SEARCH

5 PREDICTION METHODS

5.1 Initial 1-NN Distance Estimates

5.2 Progressive 1-NN Distance Estimates

5.3 Estimates for Exact Answers

5.4 Visualization Example

推薦閱讀更多精彩內(nèi)容