? ? ? ?知識圖譜的實體往往面臨數(shù)據(jù)融合的問題霉颠,因為知識圖譜的數(shù)據(jù)源可能有多個对碌,在不同數(shù)據(jù)源有對同一實體的不同表達,即使在同一個數(shù)據(jù)源里也可能存在這種情況掉分,需要通過一定手段將其合并俭缓。
? ? ? 知識圖譜的數(shù)據(jù)融合過程通常如下:
1,數(shù)據(jù)預處理:輸入的原始數(shù)據(jù)源往往存在臟數(shù)據(jù)和格式不一致數(shù)據(jù)酥郭,需要進行人工進行規(guī)整华坦,這一步過程是實際工程中比較費時但是作用很大的工作,沒有好的數(shù)據(jù)處理后續(xù)的算法效果往往也不會好不从。
2惜姐,數(shù)據(jù)分組:我們的目標是找出所有相同的實體,如果不進行數(shù)據(jù)分組椿息,我們的計算量會是兩兩比較嘱支,對于海量數(shù)據(jù)的時候計算量過于龐大抬探,所以要事先進行分組。分組的效果既要保證能夠比較均衡地分而治之,又要盡量保證不要漏分叹哭。
常見的方法包括通過數(shù)據(jù)本身的類目信息進行分組妄荔,比如在融合商品數(shù)據(jù)的時候可以根據(jù)商品的類目信息進行分組僚饭;或者根據(jù)數(shù)據(jù)的關(guān)鍵信息润匙,比如在融合人物數(shù)據(jù)的時候可以根據(jù)其出生日期進行分組迁杨。
3,屬性相似度:經(jīng)過上一步的分組凄硼,每個分組下的實體是有可能是相同的實體的集合铅协,接下來需要對實體的屬性進行計算相似度,有了實體各個屬性的相似度才容易進行下一步的實體相似度計算摊沉。
常見的方法包括:
3.1)純字符串的:計算編輯距離狐史,levenshtein distance,計算字符串A通過插入/刪除/替換操作變換到字符串B的距離说墨;
3.2)集合類型:計算Jaccard相似度骏全,計算集合交集個數(shù)/集合并集個數(shù);
3.3)文檔類型:通過tf-idf找出每篇文檔的關(guān)鍵詞婉刀,再通過余弦相似度計算關(guān)鍵詞集合的相似度吟温。
4,實體相似度:
有了實體各個屬性的相似度突颊,可以來計算實體相似度了。常見的方法分為兩種:
4.1)回歸:通過實體各個屬性的相似度潘悼,直接判斷實體的相似度律秃。可以直接對各個屬性相似度拍權(quán)重治唤,也可以通過邏輯回歸的方式計算出各個屬性相似度的權(quán)重棒动。
4.2)聚類:直接通過聚類操作,計算出相似實體宾添〈遥可以進行層次聚類,相關(guān)性聚類缕陕,Canopy+K-means聚類等粱锐。