閱讀筆記1:(DeepER)Distributed Representations of Tuples for Entity Resolution

寫在前面:這是本人第一篇認真梳理并分享給大家的論文閱讀筆記市咆,內(nèi)容均為個人理解犁享,希望對你有幫助噢(o?v?)ノ

原文地址:http://www.vldb.org/pvldb/vol11/p1454-ebraheem.pdf



目錄

? ? - Motivation:論文想要解決的問題

? ? -?Methodology:本文提出的方法

? ? - experiment:實驗結(jié)果

Motivation

????????Entity resolution (ER) 是數(shù)據(jù)集成的一個基礎(chǔ)問題,已經(jīng)有70多年的研究歷史奔穿,包括許多方法:啟發(fā)式規(guī)則镜沽、機器學(xué)習(xí)(ML)、眾包等贱田。

什么是ER淘邻?

????????舉個簡單的例子:有兩張表T1和T2,每張表里面有一些商品的名稱湘换。T1里面有一條數(shù)據(jù)為“iphone”宾舅,T2里面有一條數(shù)據(jù)為“蘋果手機”统阿,事實上他們指的是同一件事物,如何將這些具有不同名稱的同一事物匹配起來筹我,就是ER研究的問題扶平。

一個典型的ER 工作流程:

step1:使用標(biāo)注數(shù)據(jù)集(簡記為L)訓(xùn)練一個分類器classification

step2:在未標(biāo)注數(shù)據(jù)集(簡記為UL)上做blocking(不理解什么是blocking?沒關(guān)系蔬蕊,后文會介紹什么是blocking结澄,可以理解成將UL分成很多小集合block-1,block-2岸夯,......麻献,block-k)

step3:在每個block里面組成pair<t1,t2>,使用classification預(yù)測pair猜扮,并打上標(biāo)簽(1:相同勉吻、0:不同)


存在的問題:

- 每一個環(huán)節(jié)都需要人的參與,很煩

- 專家定義的blocking規(guī)則只考慮到數(shù)據(jù)的部分特征(例如t1有兩個屬性<年齡旅赢,性別>齿桃,專家定義的blocking規(guī)則只考慮了年齡,沒有考慮性別)

本文提出的解決方法:

- 使用distributed representations(DRs煮盼,其實就是我們常說的embedding)表示表里面的每個tuple短纵,本文提出了tuple的embedding表示方法。

- 提出了全自動的blocking方法僵控,不需要人工定義blocking規(guī)則香到。

- 本文說自己的貢獻可以減少數(shù)據(jù)的標(biāo)注,但我在原文中沒看出哪里體現(xiàn)減少標(biāo)注的功能(歡迎評論區(qū)補充报破,蟹蟹(? ?_?)?)......

Methodology

1.? tuple的DRs表示方法

????????本文提出生成tuple的embedding的兩種方法:簡單方法和基于LSTM的方法养渴。

首先介紹 Word Embedding

????????每個詞語表示成一個d維的向量,向量之間的距離(eg.歐氏距離)可以體現(xiàn)兩個詞語的相似程度泛烙,例如distance(cat,dog)<distance(cat,sky)。目前已經(jīng)有預(yù)訓(xùn)練好的模型翘紊,可以直接拿到我們需要的詞語的embedding蔽氨,例如 GloVe(將每個詞表示為300維的向量),本文就是使用了Glove帆疟。(下面是Word Embedding的示例鹉究,每個詞語被轉(zhuǎn)化為一個向量)


然后生成 Tuple?Embedding

1)簡單方法

下圖是tuple的示例:一行tuple有兩個屬性,每個屬性里面有一個或多個詞語踪宠。

????????t1的embedding表示為“Bill”的embedding和“Gates”的embedding的均值自赔,拼接上“Seattle”的embedding。所以每個tuple的embedding的維度是d*m(d是Word Embedding的維度柳琢,m屬性的數(shù)目)

2)LSTM方法

????????如下圖绍妨,將Word Embedding過一個LSTM模型生成最后的x維向量润脸,此處不詳細介紹LSTM了(展開說就太多了),知道此處是將tuple轉(zhuǎn)化為一個x維向量就行他去。


2.? 如何構(gòu)建分類器毙驯?

????????下面是本文分類器的流程圖,使用t1和t2的embedding計算相似度灾测,再將相似度輸入模型(例如SVM爆价,決策樹等簡單模型),訓(xùn)練一個二分類器即可媳搪。

Similarity的計算:

1)本文定義了簡單的計算規(guī)則

- tuple embedding是d*m維:計算t1和t2對應(yīng)屬性的cos相似度铭段,則similarity是一個m維向量。

- tuple embedding是x維:直接將t1和t2相減秦爆,similarity是一個x維向量序愚。



????????上圖中,可以只訓(xùn)練到similarity層鲜结,前面的那些部分都使用上文定義的方法固定生成展运。也可以訓(xùn)練到Word Embedding層,不適用固定的tuple embedding生成方法和similarity計算方法精刷。

????????至此拗胜,整個分類器就講完了。上文t1和t2是兩張表的完全組合怒允,這樣pair太多了(如果每張表有n個tuple埂软,則總共有n*n個pair需要過分類器),如何減少pair纫事,是blocking需要解決的問題勘畔。

3. ? Blocking:LSH(局部敏感哈希)

????????此處使用LSH來做blocking,這并不是新方法丽惶,只是本文第一次將其放到一個完整ER流程來實現(xiàn)炫七。

????????blocking的目的:將盡量相似的tuple放到一個block里面,僅在block里面組成pair钾唬,放到classification里面預(yù)測万哪。不同block里面的tuple默認為不相同。

Input:一張表T抡秆,具有n和tuple

Output:每個tuple被分配到1個哈希碼(是一個k維向量)奕巍,具有相同哈希碼的tuple表示處于同一個block。

前提:相似的tuple有很大概率會映射到相同的block儒士。

哈希過程:有k個哈希函數(shù)h1,...,h_k,每個函數(shù)將t映射為0/1的止,k個結(jié)果拼接為k維。(把這樣一輪映射的結(jié)果定義為一張哈希表)

發(fā)現(xiàn):如果k太小着撩,會有很多無關(guān)的tuple映射到相同的block诅福,起不到篩選的作用匾委。如果k太大,可能會有相同的tuple(記為matching tuple)映射到不同的block[1]权谁。

解決[1]:定義多張哈希表剩檀,使用另一組哈希函數(shù),也許可以把漏掉的matching tuple映射到同一個block旺芽,從而不漏掉他們沪猴,提升recall。

舉例:k=4采章,t1的embedding是[0.45,0.8,0.85]运嗜,h1=[-1,1,1],h2=[1,1,1],h3=[-1,-1,1],h4=[-1,1,-1]堆巧,則t1和每個h點成后的結(jié)果是[0.86,1.53,-0.26,-0.39]锈锤,我們規(guī)定>0取1怕品,<0取-1,則t1的哈希碼是[1,1,-1,-1]。

experiment

本文使用了6個基礎(chǔ)數(shù)據(jù)集:


在每個數(shù)據(jù)集上不同算法的性能如下圖,DeepER還是不錯的:


本文還有其他很多實驗尝艘,驗證了論文中的一些假設(shè),想了解更多細節(jié)的朋友可以看論文姿染,如果只關(guān)注ER效果背亥,到這里就夠了。


以上僅為個人讀論文的體會悬赏,如有偏頗狡汉,歡迎指正!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末闽颇,一起剝皮案震驚了整個濱河市盾戴,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌兵多,老刑警劉巖尖啡,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異中鼠,居然都是意外死亡,警方通過查閱死者的電腦和手機沿癞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進店門援雇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人椎扬,你說我怎么就攤上這事惫搏【呶拢” “怎么了?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵筐赔,是天一觀的道長铣猩。 經(jīng)常有香客問我,道長茴丰,這世上最難降的妖魔是什么达皿? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮贿肩,結(jié)果婚禮上峦椰,老公的妹妹穿的比我還像新娘。我一直安慰自己汰规,他們只是感情好汤功,可當(dāng)我...
    茶點故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著溜哮,像睡著了一般滔金。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上茂嗓,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天餐茵,我揣著相機與錄音,去河邊找鬼在抛。 笑死钟病,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的刚梭。 我是一名探鬼主播肠阱,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼朴读!你這毒婦竟也來了屹徘?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤衅金,失蹤者是張志新(化名)和其女友劉穎噪伊,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體氮唯,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡鉴吹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了惩琉。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片豆励。...
    茶點故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出良蒸,到底是詐尸還是另有隱情技扼,我是刑警寧澤,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布嫩痰,位于F島的核電站剿吻,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏串纺。R本人自食惡果不足惜丽旅,卻給世界環(huán)境...
    茶點故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望造垛。 院中可真熱鬧魔招,春花似錦、人聲如沸五辽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽杆逗。三九已至乡翅,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間罪郊,已是汗流浹背蠕蚜。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留悔橄,地道東北人靶累。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像癣疟,于是被迫代替她去往敵國和親挣柬。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,044評論 2 355