鏈接:https://tech.meituan.com/2018/11/22/meituan-brain-nlp-01.html
1确虱、什么是知識觅彰?
答案:知識是結(jié)構(gòu)化的信息。
2钮热、什么是知識圖譜填抬?
知識圖譜(Knowledge Graph)以結(jié)構(gòu)化的形式描述客觀世界中概念、實體及其關(guān)系隧期。是融合了認知計算飒责、知識表示與推理、信息檢索與抽取仆潮、自然語言處理宏蛉、Web技術(shù)、機器學(xué)習(xí)與大數(shù)據(jù)挖掘等等方向的交叉學(xué)科性置。人工智能是以傳統(tǒng)符號派與目前流行的深度神經(jīng)網(wǎng)路為主拾并,如下圖所示,知識圖譜發(fā)展史。
3嗅义、知識圖譜在商業(yè)公司中的應(yīng)用屏歹?
4、知識圖譜領(lǐng)域里是如何表示知識的之碗?
答案:可以通過將知識以〈主蝙眶,謂,賓〉的三元組形式來表示褪那。例如人的國籍就可以表示為:〈人幽纷,國籍,國家〉
5博敬、知識圖譜包含哪些內(nèi)容友浸?
答案:
①多源異構(gòu)數(shù)據(jù)
②知識獲取
③知識融合
④知識表示
⑤知識推理
⑥知識賦能
6、知識圖譜可以用來做什么冶忱?
答案:知識圖譜已經(jīng)被廣泛應(yīng)用于問答尾菇、搜索、推薦等領(lǐng)域囚枪,并已涉及金融派诬、醫(yī)療、電商等領(lǐng)域
7链沼、構(gòu)建知識圖譜需要哪些工具默赂?
答案:
知識圖譜的技術(shù)鏈如下:
①多源異構(gòu)數(shù)據(jù)
包括:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)括勺、非結(jié)構(gòu)化文檔(文本數(shù)據(jù))
結(jié)構(gòu)化數(shù)據(jù):
從關(guān)系型數(shù)據(jù)庫中獲取數(shù)據(jù)缆八,需要用到數(shù)據(jù)庫語言。
半結(jié)構(gòu)化數(shù)據(jù):
從具有一定的結(jié)構(gòu)的網(wǎng)頁上爬取數(shù)據(jù)疾捍,則需要使用到爬蟲技術(shù)
②知識獲取
包括:實體識別奈辰、實體分類、關(guān)系抽取
實體識別:
需要用到BiLSTM+CRF來進行命名實體識別
實體分類:
在知識圖譜的 Schema(綱要乱豆、概要)還不完善的情況下奖恰,可以使用聚類的方法
關(guān)系抽取:
是從文本中自動抽取實體與實體之間特定的語義關(guān)系宛裕,以補充知識圖譜中缺失的關(guān)系瑟啃。
關(guān)系抽取可以通過定義規(guī)則模版來獲取,如匹配某種表達句式揩尸、利用文法語義特征等蛹屿,但規(guī)則類方法消耗大量人力,雜質(zhì)較多岩榆〈砀海基于Bootstrap Learning的方法利用少量種子實例或模版抽取新的關(guān)系坟瓢,再利用新的結(jié)果生成更多模版,如此迭代湿颅,KnowItAll[2]载绿、TextRunner[3]基于這類思想;遠程監(jiān)督(Distant Supervision)方法[4]把現(xiàn)有的三元組信息作為種子油航,在文本中匹配同時含有主語和賓語的信息崭庸,作為關(guān)系的標注數(shù)據(jù)。這兩種方法解決了人力耗費問題谊囚,但準確率還有待提高怕享。近期的深度學(xué)習(xí)方法則基于聯(lián)合模型思想,利用神經(jīng)網(wǎng)絡(luò)的端對端模型镰踏,同時實現(xiàn)實體識別和關(guān)系抽取[5][6]函筋,從而避免前期實體識別的結(jié)果對關(guān)系抽取造成的誤差累積影響。
③知識校驗
在數(shù)據(jù)層奠伪,通過源數(shù)據(jù)獲取或者通過算法抽取的知識或多或少都包含著雜質(zhì)跌帐,可以在Schema層面上,添加人工校驗方法與驗證約束規(guī)則绊率,保證導(dǎo)入數(shù)據(jù)的規(guī)范性谨敛,比如對于<店A,包含滤否,店菜B>關(guān)系脸狸,嚴格要求主語A的Type是POI,賓語B的Type是Dish藐俺。而對于實體間關(guān)系的準確性炊甲,如上下位關(guān)系是否正確、實例的類型是否正確欲芹,實例之間的關(guān)系是否準確等卿啡,可以利用實體的信息與圖譜中的結(jié)構(gòu)化信息計算一個關(guān)系的置信度,或看作關(guān)系對錯與否的二分類問題菱父,比如<店A, 適合, 情侶約會>颈娜,對于“情侶約會”標簽,利用店A的信息去計算一個權(quán)重會使得數(shù)據(jù)更有說服力滞伟。此外揭鳞,如果涉及到其他來源的數(shù)據(jù)炕贵,在數(shù)據(jù)融合的同時進行交叉驗證梆奈,保留驗證通過的知識。當圖譜數(shù)據(jù)初步成型称开,在知識應(yīng)用過程中亩钟,通過模型結(jié)果倒推出的錯誤乓梨,也有助于凈化圖譜中的雜質(zhì),比如知識推理時出現(xiàn)的矛盾清酥,必然存在知識有誤的情況扶镀。
④知識融合
知識融合主要是解決多源異構(gòu)數(shù)據(jù)的問題,即從不同數(shù)據(jù)來源焰轻,不同結(jié)構(gòu)但表達統(tǒng)一的實體或概念的數(shù)據(jù)臭觉,融合為一個實體或概念。
數(shù)據(jù)融合主要包括Schema融合辱志、實例對齊蝠筑、實體鏈接。
Schema是知識圖譜的模型揩懒,其融合等價于Type層的合并和Property的合并什乙。在特定領(lǐng)域的圖譜中,Type與Property數(shù)量有限已球,可以通過人工進行合并臣镣。對于實例的對齊,可以看作一個尋找Top匹配的實例的排序問題智亮,或者是否匹配的二分類問題忆某,其特征可以基于實體屬性信息、Schema結(jié)構(gòu)化信息鸽素、語義信息等來獲取褒繁。
實體對齊是多源數(shù)據(jù)融合中的重要過程。當數(shù)據(jù)來自于不同的知識庫體系馍忽,需要分辨其描述的是同一個實體棒坏,將相關(guān)信息融合,最終生成該知識庫中唯一的實體遭笋。這通常是一個求最相似問題或判斷兩個實體是否是同一個的二分類問題坝冕,實體名稱、實體攜帶屬性以及其結(jié)構(gòu)化信息瓦呼,都可以作為有用特征喂窟。同時,通過Type或規(guī)則限制央串,縮小匹配的實體范圍磨澡。
一旦圖譜構(gòu)建完成,如何從文本中準確匹配上圖譜中相應(yīng)的實體质和,進而延伸出相關(guān)的背景知識稳摄,則是一個實體鏈接問題。實體鏈接[7] 主要依賴于實體Entity與所有Mention(文本文檔中實體的目標文本)的一個多對多的映射關(guān)系表饲宿, 如 “小龍蝦”這個Mention在圖譜中實際對應(yīng)的實體Entity可能是“麻辣小龍蝦”的菜厦酬,也可能是“十三香小龍蝦”的菜胆描。對于從文本中識別出的Mention,利用上下文等信息仗阅,對其候選Entity進行排序昌讲,找出最可能的Entity。實體鏈接可以正確地定位用戶所提實體减噪,理解用戶真實的表達意圖短绸,從而進一步挖掘用戶行為,了解用戶偏好筹裕。
⑤知識的表示
知識的表示是對數(shù)據(jù)的一種描述和約定鸠按,其目的是為了讓計算機可以像人一樣去理解知識,從而可以讓計算機可以進一步地去進行推理和計算饶碘。
大多數(shù)知識圖譜是以符號化的方法表示目尖,其中RDF是最常用的符號語義表示模型,其一條邊對于一個三元組<主語Subject扎运,謂語Predicate瑟曲,賓語Object>,表達一個客觀事實豪治,該方法直觀易懂洞拨,具備可解釋性,支持推理负拟。
而隨著深度學(xué)習(xí)的發(fā)展烦衣,基于向量表示的Embedding算法逐漸興起,其為每個實體與關(guān)系訓(xùn)練一個可表征的向量掩浙,該方法易于進行算法學(xué)習(xí)花吟,可表征隱形知識并進一步發(fā)掘隱形知識。常用的Embedding模型有Word2Vec與Trans系列[8][9]厨姚,將會在之后的系列文章里進一步講解衅澈。美團大腦參考Freebase的建模思想,以< Subject谬墙,Predicate今布,Object>的三元組形式將海量知識存儲在分布式數(shù)據(jù)倉庫中,并以CVT(Compound Value Type)設(shè)計承載多元數(shù)據(jù)拭抬,即抽象一個CVT的實例來攜帶多元信息部默,圖為一個知識表示的例子。與此同時造虎,美團大腦基于上億節(jié)點計算Graph Embedding的表征傅蹂,并將結(jié)果應(yīng)用到搜索領(lǐng)域中。
⑥知識推理
基于知識圖譜的推理工作累奈,旨在依據(jù)現(xiàn)有的知識信息推導(dǎo)出新知識贬派,包括實體關(guān)系、屬性等澎媒,或者識別出錯誤關(guān)系搞乏。可以分為基于符號的推理與基于統(tǒng)計的推理戒努,前者一般根據(jù)經(jīng)典邏輯創(chuàng)建新的實體關(guān)系的規(guī)則请敦,或者判斷現(xiàn)有關(guān)系的矛盾之處,后者則是通過統(tǒng)計規(guī)律從圖譜中學(xué)到新的實體關(guān)系储玫。
利用實體之間的關(guān)系可以推導(dǎo)出一些場景侍筛,輔助進行決策判斷。美團大腦金融子圖譜利用用戶行為撒穷、用戶關(guān)系匣椰、地理位置去挖掘金融領(lǐng)域詐騙團伙。團伙通常會存在較多關(guān)聯(lián)及相似特性端礼,圖譜中的關(guān)系可以幫助人工識別出多層禽笑、多維度關(guān)聯(lián)的欺詐團伙,再利用規(guī)則等方式蛤奥,識別出批量具有相似行為的客戶佳镜,輔助人工優(yōu)化調(diào)查,同時可以優(yōu)化策略凡桥。
⑦知識賦能
知識圖譜含有豐富的語義信息蟀伸,對文本有基于語義的更為深入的理解,在推薦缅刽、搜索啊掏、問答等領(lǐng)域能提供更加直接與精確的查詢結(jié)果,使得服務(wù)更加智能化衰猛。
個性化推薦通過實體與實體之間的關(guān)系脖律,利用用戶感興趣的實體,進一步擴展用戶偏好的相似的實體腕侄,提供可解釋性的推薦內(nèi)容小泉。一方面,圖譜提供了實體在多個維度的特征信息冕杠,另一方面微姊,表示學(xué)習(xí)向量帶有一定的語義信息,使得尋找推薦實體更接近目標實體或更偏向用戶喜好分预。
語義搜索兢交,是指搜索引擎對Query的處理不再拘泥于字面本身,而是抽象出其中的實體笼痹、查詢意圖,通過知識圖譜直接提供用戶需要的答案,而不只是提供網(wǎng)頁排序結(jié)果倍奢,更精準的滿足用戶的需求愿卒。當前Google、百度、神馬搜索都已經(jīng)將基于知識圖譜的語義搜索融入到搜索引擎中,對于一些知識性內(nèi)容的查找,能智能地直接顯示結(jié)果信息只磷。
8、知識圖譜還存在哪些難題還沒有解決泌绣?
未來的挑戰(zhàn)
知識圖譜建設(shè)過程是美團第一次摸索基于圖的構(gòu)建/挖掘/存儲/應(yīng)用過程钮追,也遇到了很多挑戰(zhàn),主要的挑戰(zhàn)和應(yīng)對思路如下:
(1)數(shù)據(jù)生成與導(dǎo)入
難點:Schema構(gòu)建和更新阿迈;數(shù)據(jù)源多元媚,數(shù)據(jù)不一致問題;數(shù)據(jù)質(zhì)檢苗沧。
應(yīng)對思路:通過針對不同的數(shù)據(jù)進行特定清洗惠毁,元數(shù)據(jù)約束校驗、業(yè)務(wù)邏輯正確性校驗等崎页,設(shè)置了嚴格的數(shù)據(jù)接入和更新規(guī)范鞠绰。
(2)知識挖掘
難點:知識的融合、表征飒焦、推理和驗證蜈膨。
應(yīng)對思路:通過借鑒文本中的詞向量表征,為知識建立統(tǒng)一的語義空間表征牺荠,使得語義可計算翁巍,基于深度學(xué)習(xí)和知識表示的算法進行推理。
(3)百億圖存儲及查詢引擎
難點:數(shù)據(jù)的存儲休雌、查詢和同步灶壶,數(shù)據(jù)量極大,沒有成熟開源引擎直接使用杈曲。
應(yīng)對思路:構(gòu)建分層增量系統(tǒng)驰凛,實時增量、離線增量担扑、全量圖三層Merge查詢恰响,減少圖更新影響范圍。同時建設(shè)完整的容災(zāi)容錯涌献、灰度胚宦、子圖回滾機制。基于LBS等業(yè)務(wù)特點合理切分子圖View枢劝,構(gòu)建分布式圖查詢索引層井联。
(4)知識圖譜應(yīng)用挑戰(zhàn)
難點:算法設(shè)計,系統(tǒng)實現(xiàn)難和實時應(yīng)用您旁。
應(yīng)對思路:知識圖譜的應(yīng)用算法則需要有效融合數(shù)據(jù)驅(qū)動和知識引導(dǎo)烙常,才能提升算法效果和提供更好的解釋性,屬于研究前沿領(lǐng)域被冒。百億甚至千億關(guān)系規(guī)模下,需要設(shè)計和實現(xiàn)分布式的圖應(yīng)用算法轮蜕,這對算法和系統(tǒng)都有重大的挑戰(zhàn)昨悼。