文章從知識(shí)庫(kù)的表示學(xué)習(xí)亡笑,問(wèn)句表示學(xué)習(xí)贱迟,基于表示學(xué)習(xí)的知識(shí)庫(kù)問(wèn)答三方面以及他們面臨的困難與挑戰(zhàn)進(jìn)行介紹。
知識(shí)庫(kù)的表示學(xué)習(xí)的方法主要分為兩類(lèi): 1) 基于張量分解的方法; 2) 基于映射的方法。
-
張量分解的方法以RESCAL系統(tǒng)為主要代表率拒。
核心思想是將整個(gè)知識(shí)圖譜編碼為一個(gè)三維張量崩泡, 由這個(gè)張量分解出一個(gè)核心張量和一個(gè)因子矩陣,核心張量中每個(gè)二維矩陣切片代表一種關(guān)系猬膨, 因子矩陣中每一行代表一個(gè)實(shí)體角撞。由核心張量和因子矩陣還原的結(jié)果被看作對(duì)應(yīng)三元組成立的概率,如果概率大于某 個(gè)閾值勃痴,則對(duì)應(yīng)三元組正確谒所;否則,不正確.缺點(diǎn)是當(dāng)關(guān)系數(shù)目較多時(shí)沛申,張量的維度很高劣领,分解過(guò)程計(jì)算量較大,不適用于關(guān)系數(shù)目眾多而又非常稀疏的大規(guī)模知識(shí)庫(kù)铁材。 -
基于映射的方法主要是對(duì)于知識(shí)庫(kù)中的基本語(yǔ)義單元:三元組進(jìn)行獨(dú)立建模尖淘。
根據(jù)對(duì)語(yǔ)義關(guān)系r的表示方式,又可分為映射矩陣和映射向量兩類(lèi)著觉。
映射矩陣典型代表Structured模型村生,該模型用兩個(gè)分離的矩陣表示關(guān)系,不能很好地捕獲關(guān)系與實(shí)體之間的聯(lián)系饼丘。為改善這個(gè)模型又誕生了SME模型趁桃,LF模型,SL模型等肄鸽。
映射向量方法對(duì)于三元組的建奈啦。看作從頭部實(shí)體到尾部實(shí)體的翻譯.
最早提出的模型是TransE是一種計(jì)算效率很高、預(yù)測(cè)性能非常好的模型. 對(duì)于“1-to-1”關(guān)系類(lèi)型典徘, 這一模型通常能夠很好的建模.但對(duì)于“1-to-N”忽肛、“N-to-1”和“N-to-N”等關(guān)系類(lèi)型存在不足。為改善這個(gè)問(wèn)題又提出了TransH烂斋、TransR屹逛、TransD等。
KG2E模型在TransE的基礎(chǔ)上提出一種基于分布的表示學(xué)習(xí)方法汛骂,使用基于高斯嵌入的方法在多維高斯分布空間中學(xué)習(xí)知識(shí)庫(kù)中實(shí)體和關(guān)系的表示.不同于TransE以及其改進(jìn)模型罕模,KG2E將知識(shí)庫(kù)中的實(shí)體、類(lèi)別帘瞭、關(guān)系都約定服從高斯分布.通過(guò)引入?yún)f(xié)方差矩陣淑掌,該模型能夠?qū)τ谥R(shí)庫(kù)中實(shí)體和關(guān)系的不確定性進(jìn)行建模,尤其對(duì)于1-to-N和N-to-1的關(guān)系具有很好的學(xué)習(xí)效果蝶念。
問(wèn)句的表示學(xué)習(xí)是通過(guò)統(tǒng)計(jì)學(xué)習(xí)自動(dòng)獲取問(wèn)句(文本)的語(yǔ)義表示.從神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)上看抛腕,主要可以分為三種方式:遞歸神經(jīng)網(wǎng)絡(luò)芋绸、循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò).由于已經(jīng)有了神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),這里就不詳細(xì)介紹了担敌。
基于表示學(xué)習(xí)的知識(shí)庫(kù)問(wèn)答方法的核心是把自然語(yǔ)言問(wèn)句和知識(shí)庫(kù)中的資源都映射到同一個(gè)低維向量空間中摔敛,這樣就可以將問(wèn)句和答案都用一個(gè)向量來(lái)表示,知識(shí)庫(kù)問(wèn)答問(wèn)題就被轉(zhuǎn)化為求解向量相似度的問(wèn)題全封。
基于詞向量的學(xué)習(xí)方法法需要獲得大量的問(wèn)句–答案三元組對(duì)來(lái)訓(xùn)練马昙,以得到向量詞典V和W.這項(xiàng)工作在Reverb數(shù)據(jù)集上取得了不錯(cuò)的效果,F(xiàn)1 值達(dá)到73 %.然而刹悴,這一方法對(duì)于問(wèn)句和知識(shí)庫(kù)的語(yǔ)義分析十分粗糙行楞,僅僅是基于詞、實(shí)體土匀、關(guān)系的語(yǔ)義表示的簡(jiǎn)單求和.
Yih等把知識(shí)庫(kù)問(wèn)答轉(zhuǎn)換成兩個(gè)問(wèn)題子房,一個(gè)是找到問(wèn)句中的實(shí)體和知識(shí)庫(kù)中實(shí)體的對(duì)應(yīng);另一個(gè)是問(wèn)句中自然語(yǔ)言描述和知識(shí)庫(kù)中語(yǔ)義關(guān)系的對(duì)應(yīng).找到實(shí)體和關(guān)系后就轧, 就可以從知識(shí)庫(kù)中找到其指向的答案實(shí)體.在上述兩種匹配時(shí)都 采用 CNN 來(lái)處理自然語(yǔ)言問(wèn)句.
知識(shí)庫(kù)表示學(xué)習(xí)的難點(diǎn)與挑戰(zhàn):目前的知識(shí)庫(kù)表示學(xué)習(xí)方法都集中在單個(gè)知識(shí)庫(kù)上池颈, 對(duì)于多知識(shí)庫(kù)的表示學(xué)習(xí)的研究較少. 在學(xué)習(xí)過(guò)程中, 如何建立異構(gòu)知識(shí)庫(kù)間的實(shí)體對(duì)齊钓丰、關(guān)系對(duì)齊是一個(gè)尚待研究的問(wèn)題.
文本表示學(xué)習(xí)的難點(diǎn)與挑戰(zhàn):文本表示目前處于簡(jiǎn)單模型不能很好地捕獲各種語(yǔ)義躯砰,而復(fù)雜模型在提升語(yǔ)義捕獲能力的同時(shí),往往使模型變得非常復(fù)雜携丁,難以實(shí)用.如何將二者平衡是一個(gè)難點(diǎn)琢歇。
基于表示學(xué)習(xí)的問(wèn)答系統(tǒng)構(gòu)建的難點(diǎn)與挑戰(zhàn):如何利用表示學(xué)習(xí)自動(dòng)學(xué)習(xí)推理規(guī)則,如何平衡高質(zhì)量人工知識(shí)庫(kù)和通過(guò)自動(dòng)抽取技術(shù)得到的開(kāi)放知識(shí)庫(kù)的關(guān)系是一個(gè)難點(diǎn)梦鉴。