知識圖譜多數(shù)據(jù)源融合

? ? ? ?知識圖譜的實體往往面臨數(shù)據(jù)融合的問題霉颠,因為知識圖譜的數(shù)據(jù)源可能有多個对碌,在不同數(shù)據(jù)源有對同一實體的不同表達,即使在同一個數(shù)據(jù)源里也可能存在這種情況掉分,需要通過一定手段將其合并俭缓。

? ? ? 知識圖譜的數(shù)據(jù)融合過程通常如下:

知識融合流程圖

1,數(shù)據(jù)預處理:輸入的原始數(shù)據(jù)源往往存在臟數(shù)據(jù)和格式不一致數(shù)據(jù)酥郭,需要進行人工進行規(guī)整华坦,這一步過程是實際工程中比較費時但是作用很大的工作,沒有好的數(shù)據(jù)處理后續(xù)的算法效果往往也不會好不从。

2惜姐,數(shù)據(jù)分組:我們的目標是找出所有相同的實體,如果不進行數(shù)據(jù)分組椿息,我們的計算量會是兩兩比較嘱支,對于海量數(shù)據(jù)的時候計算量過于龐大抬探,所以要事先進行分組。分組的效果既要保證能夠比較均衡地分而治之,又要盡量保證不要漏分叹哭。

常見的方法包括通過數(shù)據(jù)本身的類目信息進行分組妄荔,比如在融合商品數(shù)據(jù)的時候可以根據(jù)商品的類目信息進行分組僚饭;或者根據(jù)數(shù)據(jù)的關(guān)鍵信息润匙,比如在融合人物數(shù)據(jù)的時候可以根據(jù)其出生日期進行分組迁杨。

3,屬性相似度:經(jīng)過上一步的分組凄硼,每個分組下的實體是有可能是相同的實體的集合铅协,接下來需要對實體的屬性進行計算相似度,有了實體各個屬性的相似度才容易進行下一步的實體相似度計算摊沉。

常見的方法包括:

3.1)純字符串的:計算編輯距離狐史,levenshtein distance,計算字符串A通過插入/刪除/替換操作變換到字符串B的距離说墨;

3.2)集合類型:計算Jaccard相似度骏全,計算集合交集個數(shù)/集合并集個數(shù);

3.3)文檔類型:通過tf-idf找出每篇文檔的關(guān)鍵詞婉刀,再通過余弦相似度計算關(guān)鍵詞集合的相似度吟温。

4,實體相似度:

有了實體各個屬性的相似度突颊,可以來計算實體相似度了。常見的方法分為兩種:

4.1)回歸:通過實體各個屬性的相似度潘悼,直接判斷實體的相似度律秃。可以直接對各個屬性相似度拍權(quán)重治唤,也可以通過邏輯回歸的方式計算出各個屬性相似度的權(quán)重棒动。

4.2)聚類:直接通過聚類操作,計算出相似實體宾添〈遥可以進行層次聚類,相關(guān)性聚類缕陕,Canopy+K-means聚類等粱锐。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市扛邑,隨后出現(xiàn)的幾起案子怜浅,更是在濱河造成了極大的恐慌,老刑警劉巖蔬崩,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件恶座,死亡現(xiàn)場離奇詭異,居然都是意外死亡沥阳,警方通過查閱死者的電腦和手機跨琳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來桐罕,“玉大人脉让,你說我怎么就攤上這事樟氢。” “怎么了侠鳄?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵埠啃,是天一觀的道長。 經(jīng)常有香客問我伟恶,道長碴开,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任博秫,我火速辦了婚禮潦牛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘挡育。我一直安慰自己巴碗,他們只是感情好,可當我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布即寒。 她就那樣靜靜地躺著橡淆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪母赵。 梳的紋絲不亂的頭發(fā)上逸爵,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天,我揣著相機與錄音凹嘲,去河邊找鬼师倔。 笑死,一個胖子當著我的面吹牛周蹭,可吹牛的內(nèi)容都是我干的趋艘。 我是一名探鬼主播,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼凶朗,長吁一口氣:“原來是場噩夢啊……” “哼瓷胧!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起俱尼,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤抖单,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后遇八,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體矛绘,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年刃永,在試婚紗的時候發(fā)現(xiàn)自己被綠了货矮。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡斯够,死狀恐怖囚玫,靈堂內(nèi)的尸體忽然破棺而出喧锦,到底是詐尸還是另有隱情,我是刑警寧澤抓督,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布燃少,位于F島的核電站,受9級特大地震影響铃在,放射性物質(zhì)發(fā)生泄漏阵具。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一定铜、第九天 我趴在偏房一處隱蔽的房頂上張望阳液。 院中可真熱鬧,春花似錦揣炕、人聲如沸帘皿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽鹰溜。三九已至,卻和暖如春罩锐,著一層夾襖步出監(jiān)牢的瞬間奉狈,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工涩惑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人桑驱。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓竭恬,卻偏偏與公主長得像,于是被迫代替她去往敵國和親熬的。 傳聞我的和親對象是個殘疾皇子痊硕,可洞房花燭夜當晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容