【SIGSPATIAL '20】A Tutorial on Learned Multi-dimensional Indexes

名稱:A Tutorial on Learned Multi-dimensional Indexes
會議:SIGSPATIAL(2020)
機構(gòu):Purdue University

摘要

最近桑包,機器學(xué)習(xí)(簡稱 ML)已成功地應(yīng)用于數(shù)據(jù)庫索引轧抗。對學(xué)習(xí)型索引的初步實驗表明,與傳統(tǒng)的數(shù)據(jù)庫索引相比汰瘫,它們具有更好的查找性能和更低的空間代價嫡秕。為了將學(xué)習(xí)的索引擴展到多維空間捏浊,學(xué)界已經(jīng)做出許多嘗試皮官,使得學(xué)習(xí)型索引有可能賦能空間數(shù)據(jù)庫領(lǐng)域叭爱。本教程的目標(biāo)是在單維和多維空間中提供學(xué)習(xí)型索引的最新內(nèi)容撮躁。本教程涵蓋了 25 個學(xué)習(xí)型索引技術(shù)。本教程分類了當(dāng)前不同的學(xué)習(xí)型索引买雾。

論文中給出的學(xué)習(xí)型索引分類

回答兩個問題

  1. Can one use ML techniques to guide data indexing?
  2. Can ML techniques replace and act in place of a multi-dimensional index?

作者的意圖顯而易見把曼,答案是“可以”。但是我認(rèn)為更多得還是展現(xiàn)了無限的潛力漓穿,當(dāng) 1-D 拓展為 M-D 時嗤军,更多的應(yīng)用將會推動該領(lǐng)域的發(fā)展,也會引起更多學(xué)者的探索晃危,我相信一定會有大有可為之日叙赚。

什么是學(xué)習(xí)型索引?

學(xué)習(xí)型索引是 ML4DB 的一個方向僚饭,由于數(shù)據(jù)庫的基本訴求是穩(wěn)定震叮、確定性等,所以很少有組成構(gòu)件(存儲鳍鸵、查詢優(yōu)化器苇瓣、索引等)被機器學(xué)習(xí)盯上。但是索引這一塊的發(fā)掘開辟了很有意思的科研空間偿乖。

學(xué)習(xí)型索引的基本思想是“索引即模型”击罪,原有數(shù)據(jù)庫中 B 樹的索被認(rèn)為是最廣泛使用數(shù)據(jù)庫索引哲嘲。第一個學(xué)習(xí)型索引(Tim Kraska 等提出)本質(zhì)上就是想替換這個結(jié)構(gòu),通過累積分布函數(shù)(CDF)訓(xùn)練媳禁,最后得到一個可以預(yù)測上下界的回歸模型撤蚊。具體來說,整套機器學(xué)習(xí)的模型叫 RMI损话,通過多個簡單神經(jīng)網(wǎng)絡(luò)模型以決策樹的形式組合侦啸,將原有一維索引構(gòu)建的問題,轉(zhuǎn)換為 KV 對的回歸預(yù)測模型丧枪。這篇開山之作 The Case for Learned Index Structures 雖然褒貶不一光涂,通過巧妙地構(gòu)建索引問題,作者展示了在數(shù)據(jù)管理系統(tǒng)內(nèi)部使用機器學(xué)習(xí)的潛力拧烦。

痛點

  1. 針對更新的時候很無力忘闻。大部分工作只支持 Read-only 環(huán)境,如何支持更新恋博?
  2. 沒有簡單的一維轉(zhuǎn)多維的方法齐佳。多維數(shù)據(jù)沒有總序(Total Order),如果簡單用空間填充曲線债沮,效率不高炼吴,問題也大。
  3. 數(shù)據(jù)類型不同疫衩。有一維硅蹦、多維度、時序等數(shù)據(jù)類型

面向多維數(shù)據(jù)的學(xué)習(xí)型索引技術(shù)總結(jié)

Flood

Vikram Nathan, Jialin Ding, Mohammad Alizadeh, and Tim Kraska. Learning Multi-dimensional Indexes. SIGMOD (2020). 985–1000.

  • 內(nèi)存
  • 多維數(shù)據(jù)
  • 考慮數(shù)據(jù)集(data)和查詢(query)的負(fù)載均衡

IF-Index

AliHadian, AnkitKumar, and ThomasHeinis. Hands-off Model Integration in Spatial Index Structures. AIDB (2020).

  • 插值友好

LISA

PengfeiLi, HuaLu, QianZheng, LongYang, and GangPan. LISA:ALearned Index Structure for Spatial Data. SIGMOD (2020).

  • 基于磁盤

Learned ZM Index

Haixin Wang, Xiaoyi Fu, Jianliang Xu, and Hua Lu. 2019. Learned Index for Spatial Queries. In 2019 20th IEEE International Conference on Mobile Data Management (MDM). IEEE, 569–574.

  • Z-Order 空間填充曲線

Taxonomy

文章歸納總結(jié)了一下闷煤,但是我認(rèn)為不是完全的區(qū)分童芹,而且目前(2021年)來看,這種各司其職的格局已經(jīng)打破鲤拿,比如 PGM-Index 這種的存在無疑是“超級大國”假褪。

  • 是否支持更新?
    • Updatable
    • Static
  • Data layout is fixed or arranged by model
    • Fix data layout
    • Arrange data layout
  • 模型結(jié)構(gòu)
    • RMI
    • 強化學(xué)習(xí)
    • 簡單機器學(xué)習(xí)模型(例如插值友好)
  • 數(shù)據(jù)類型
    • 一維
    • 多維
    • 時序

收獲

作者還是直接點明了多維數(shù)據(jù)的學(xué)習(xí)型索引基本還是多維數(shù)據(jù)投影到一維 key近顷,繼而用原有學(xué)習(xí)型索引技術(shù)生音。但是不同的研究者提供了很多思路,比如 LISA 作者從磁盤數(shù)據(jù)的角度來化解天然多維數(shù)據(jù)學(xué)習(xí)型索引性能上的詬病幕庐,因為和磁盤 IO 比起來久锥,這點學(xué)習(xí)成本或者 trade-off 成本簡直是小巫見大巫。

再者异剥,F(xiàn)lood 極有可能是第一篇將學(xué)習(xí)型索引技術(shù)應(yīng)用到多維數(shù)據(jù)主體上的文獻(xiàn)瑟由,作者在 Flood 投稿后也很快完成更深入的工作——Tsunami。首先要佩服作者在數(shù)據(jù)庫學(xué)術(shù)角度的深厚知識儲備,而且他英語口音特別好歹苦,真不愧是 MIT 大神青伤。有感興趣的可以在 B 站或 Youtube 看一下 Slide。但是我認(rèn)為這兩個工作的動機還是很清晰的殴瘦,就是仍用 RMI 來套空間數(shù)據(jù)狠角。我覺得我缺乏的是對空間數(shù)據(jù)的敏感性,不知道如何去建模(Cost Model)蚪腋,同時也沒有充分的實驗角度(這取決于認(rèn)知的儲備欠缺)丰歌。所以我覺得科研者還是需要將一個領(lǐng)域踏踏實實學(xué)好,如果有一個新技術(shù)誕生的時候屉凯,才能加速內(nèi)化并擴展成為自己的工作點立帖。

總得來說,以上工作存在一個通病悠砚,即只針對 Read-only 數(shù)據(jù)集晓勇,這是不能在實際生產(chǎn)中容忍的。但是 Updatable 這個點在這兩年也做了更多的工作如 ALEX 與其后續(xù)工作灌旧,還有 PGM-Index 等绑咱,都需要仔細(xì)閱讀,探索和利用現(xiàn)有經(jīng)驗開辟自己的一個“世外桃源”枢泰。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末描融,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子宗苍,更是在濱河造成了極大的恐慌稼稿,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件讳窟,死亡現(xiàn)場離奇詭異,居然都是意外死亡敞恋,警方通過查閱死者的電腦和手機丽啡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來硬猫,“玉大人补箍,你說我怎么就攤上這事⌒ッ郏” “怎么了坑雅?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長衬横。 經(jīng)常有香客問我裹粤,道長,這世上最難降的妖魔是什么蜂林? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任遥诉,我火速辦了婚禮拇泣,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘矮锈。我一直安慰自己霉翔,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布苞笨。 她就那樣靜靜地躺著债朵,像睡著了一般。 火紅的嫁衣襯著肌膚如雪瀑凝。 梳的紋絲不亂的頭發(fā)上葱弟,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天,我揣著相機與錄音猜丹,去河邊找鬼芝加。 笑死,一個胖子當(dāng)著我的面吹牛射窒,可吹牛的內(nèi)容都是我干的藏杖。 我是一名探鬼主播,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼脉顿,長吁一口氣:“原來是場噩夢啊……” “哼蝌麸!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起艾疟,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤来吩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蔽莱,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體弟疆,經(jīng)...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年盗冷,在試婚紗的時候發(fā)現(xiàn)自己被綠了怠苔。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡仪糖,死狀恐怖柑司,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情锅劝,我是刑警寧澤攒驰,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站故爵,受9級特大地震影響玻粪,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一奶段、第九天 我趴在偏房一處隱蔽的房頂上張望饥瓷。 院中可真熱鬧,春花似錦痹籍、人聲如沸呢铆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽棺克。三九已至,卻和暖如春线定,著一層夾襖步出監(jiān)牢的瞬間娜谊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工斤讥, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留纱皆,地道東北人。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓芭商,卻偏偏與公主長得像派草,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子铛楣,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,955評論 2 355

推薦閱讀更多精彩內(nèi)容