【劉知遠】知識圖譜——機器大腦中的知識庫

作者:劉知遠(清華大學);整理:林穎(RPI) 本文來自Big Data Intelligence
知識就是力量∈趼悖——[英]弗蘭西斯·培根
1 什么是知識圖譜
在互聯(lián)網(wǎng)時代,搜索引擎是人們在線獲取信息和知識的重要工具亭枷。當用戶輸入一個查詢詞袭艺,搜索引擎會返回它認為與這個關(guān)鍵詞最相關(guān)的網(wǎng)頁。從誕生之日起叨粘,搜索引擎就是這樣的模式猾编,直到2012年5月瘤睹,搜索引擎巨頭谷歌在它的搜索頁面中首次引入“知識圖譜”:用戶除了得到搜索網(wǎng)頁鏈接外,還將看到與查詢詞有關(guān)的更加智能化的答案答倡。如下圖所示轰传,當用戶輸入“Marie Curie”(瑪麗·居里)這個查詢詞,谷歌會在右側(cè)提供了居里夫人的詳細信息瘪撇,如個人簡介获茬、出生地點、生卒年月等倔既,甚至還包括一些與居里夫人有關(guān)的歷史人物锦茁,例如愛因斯坦、皮埃爾·居里(居里夫人的丈夫)等叉存。


圖1-1 谷歌搜索引擎知識圖譜
谷歌知識圖譜一出激起千層浪码俩,美國的微軟必應(yīng),中國的百度歼捏、搜狗等搜索引擎公司在短短的一年內(nèi)紛紛宣布了各自的“知識圖譜”產(chǎn)品稿存,如百度“知心“、搜狗“知立方“等瞳秽。為什么這些搜索引擎巨頭紛紛跟進知識圖譜瓣履,在這上面一擲千金,甚至把它視為搜索引擎的未來呢练俐?這就需要從傳統(tǒng)搜索引擎的原理講起袖迎。以百度為例,在過去當我們想知道“泰山”的相關(guān)信息的時候腺晾,我們會在百度上搜索“泰山”燕锥,它會嘗試將這個字符串與百度抓取的大規(guī)模網(wǎng)頁做比對,根據(jù)網(wǎng)頁與這個查詢詞的相關(guān)程度悯蝉,以及網(wǎng)頁本身的重要性归形,對網(wǎng)頁進行排序,作為搜索結(jié)果返回給用戶鼻由。而用戶所需的與“泰山”相關(guān)的信息暇榴,就還要他們自己動手,去訪問這些網(wǎng)頁來找了蕉世。
當然蔼紧,與搜索引擎出現(xiàn)之前相比,搜索引擎由于大大縮小了用戶查找信息的范圍狠轻,隨著網(wǎng)絡(luò)信息的爆炸式增長奸例,日益成為人們遨游信息海洋的不可或缺的工具。但是哈误,傳統(tǒng)搜索引擎的工作方式表明哩至,它只是機械地比對查詢詞和網(wǎng)頁之間的匹配關(guān)系躏嚎,并沒有真正理解用戶要查詢的到底是什么,遠遠不夠“聰明”菩貌,當然經(jīng)常會被用戶嫌棄了卢佣。
而知識圖譜則會將“泰山”理解為一個“實體”(entity),也就是一個現(xiàn)實世界中的事物箭阶。這樣虚茶,搜索引擎會在搜索結(jié)果的右側(cè)顯示它的基本資料,例如地理位置仇参、海拔高度嘹叫、別名,以及百科鏈接等等诈乒,此外甚至還會告訴你一些相關(guān)的“實體”罩扇,如嵩山、華山怕磨、衡山和恒山等其他三山五岳等喂饥。當然,用戶輸入的查詢詞并不見得只對應(yīng)一個實體肠鲫,例如當在谷歌中查詢“apple”(蘋果)時员帮,谷歌不止展示IT巨頭“Apple-Corporation”(蘋果公司)的相關(guān)信息,還會在其下方列出“apple-plant”(蘋果-植物)的另外一種實體的信息导饲。
從雜亂的網(wǎng)頁到結(jié)構(gòu)化的實體知識捞高,搜索引擎利用知識圖譜能夠為用戶提供更具條理的信息,甚至順著知識圖譜可以探索更深入渣锦、廣泛和完整的知識體系硝岗,讓用戶發(fā)現(xiàn)他們意想不到的知識。谷歌高級副總裁艾米特·辛格博士一語道破知識圖譜的重要意義所在:“構(gòu)成這個世界的是實體泡挺,而非字符串(things, not strings)”辈讶。
很明顯命浴,以谷歌為代表的搜索引擎公司希望利用知識圖譜為查詢詞賦予豐富的語義信息娄猫,建立與現(xiàn)實世界實體的關(guān)系,從而幫助用戶更快找到所需的信息生闲。谷歌知識圖譜不僅從 Freebase和維基百科等知識庫中獲取專業(yè)信息媳溺,同時還通過分析大規(guī)模網(wǎng)頁內(nèi)容抽取知識。現(xiàn)在谷歌的這幅知識圖譜已經(jīng)將5億個實體編織其中碍讯,建立了35 億個屬性和相互關(guān)系悬蔽,并在不斷高速擴充。
谷歌知識圖譜正在不斷融入其各大產(chǎn)品中服務(wù)廣大用戶捉兴。最近蝎困,谷歌在Google Play Store的Google Play Movies & TV應(yīng)用中添加了一個新的功能录语,當用戶使用安卓系統(tǒng)觀看視頻時,暫停播放禾乘,視頻旁邊就會自動彈出該屏幕上人物或者配樂的信息澎埠。這些信息就是來自谷歌知識圖譜。谷歌會圈出播放器窗口所有人物的臉部始藕,用戶可以點擊每一個人物的臉來查看相關(guān)信息蒲稳。此前,Google Books 已經(jīng)應(yīng)用此功能伍派。


圖1-2 Google利用知識圖譜標示視頻中的人物和音樂信息
2 知識圖譜的構(gòu)建
最初知識圖譜是谷歌推出的產(chǎn)品名稱江耀,與Facebook提出的社交圖譜(Social Graph)異曲同工。由于其表意形象诉植,現(xiàn)在知識圖譜已經(jīng)被用來泛指各種大規(guī)模知識庫祥国。
我們應(yīng)當如何構(gòu)建知識圖譜呢?首先晾腔,我們先了解一下系宫,知識圖譜的數(shù)據(jù)來源都有哪些。知識圖譜的最重要的數(shù)據(jù)來源之一是以維基百科建车、百度百科為代表的大規(guī)模知識庫扩借,在這些由網(wǎng)民協(xié)同編輯構(gòu)建的知識庫中,包含了大量結(jié)構(gòu)化的知識缤至,可以高效地轉(zhuǎn)化到知識圖譜中潮罪。此外,互聯(lián)網(wǎng)的海量網(wǎng)頁中也蘊藏了海量知識领斥,雖然相對知識庫而言這些知識更顯雜亂嫉到,但通過自動化技術(shù),也可以將其抽取出來構(gòu)建知識圖譜月洛。接下來何恶,我們分別詳細介紹這些識圖譜數(shù)據(jù)來源。
2.1 大規(guī)模知識庫
大規(guī)模知識庫以詞條作為基本組織單位嚼黔,每個詞條對應(yīng)現(xiàn)實世界的某個概念细层,由世界各地的編輯者義務(wù)協(xié)同編纂內(nèi)容。隨著互聯(lián)網(wǎng)的普及和Web 2.0理念深入人心唬涧,這類協(xié)同構(gòu)建的知識庫疫赎,無論是數(shù)量、質(zhì)量還是更新速度碎节,都早已超越傳統(tǒng)由專家編輯的百科全書捧搞,成為人們獲取知識的主要來源之一。目前,維基百科已經(jīng)收錄了超過2200萬詞條胎撇,而僅英文版就收錄了超過400萬條介粘,遠超過英文百科全書中最權(quán)威的大英百科全書的50萬條,是全球瀏覽人數(shù)排名第6的網(wǎng)站晚树。值得一提的是碗短,2012年大英百科全書宣布停止印刷版發(fā)行,全面轉(zhuǎn)向電子化题涨。這也從一個側(cè)面說明在線大規(guī)模知識庫的影響力偎谁。人們在知識庫中貢獻了大量結(jié)構(gòu)化的知識。如下圖所示纲堵,是維基百科關(guān)于“清華大學”的詞條內(nèi)容巡雨。可以看到席函,在右側(cè)有一個列表铐望,標注了與清華有關(guān)的各類重要信息,如校訓茂附、創(chuàng)建時間正蛙、校慶日、學校類型营曼、校長乒验,等等。在維基百科中蒂阱,這個列表被稱為信息框(infobox)锻全,是由編輯者們共同編輯而成。信息框中的結(jié)構(gòu)化信息是知識圖譜的直接數(shù)據(jù)來源录煤。
除了維基百科等大規(guī)模在線百科外鳄厌,各大搜索引擎公司和機構(gòu)還維護和發(fā)布了其他各類大規(guī)模知識庫,例如谷歌收購的Freebase妈踊,包含3900萬個實體和18億條實體關(guān)系了嚎;DBpedia是德國萊比錫大學等機構(gòu)發(fā)起的項目,從維基百科中抽取實體關(guān)系廊营,包括1千萬個實體和14億條實體關(guān)系歪泳;YAGO則是德國馬克斯·普朗克研究所發(fā)起的項目,也是從維基百科和WordNet等知識庫中抽取實體赘风,到2010年該項目已包含1千萬個實體和1.2億條實體關(guān)系夹囚。此外,在眾多專門領(lǐng)域還有領(lǐng)域?qū)<艺淼念I(lǐng)域知識庫邀窃。


圖2-1 維基百科詞條“清華大學”部分內(nèi)容
2.2 互聯(lián)網(wǎng)鏈接數(shù)據(jù)
國際萬維網(wǎng)組織W3C在2007年發(fā)起了開放互聯(lián)數(shù)據(jù)項目(Linked Open Data,LOD)。該項目旨在將由互聯(lián)文檔組成的萬維網(wǎng)(Web of documents)擴展成由互聯(lián)數(shù)據(jù)組成的知識空間(Web of data)瞬捕。LOD以RDF(Resource Description Framework)形式在Web上發(fā)布各種開放數(shù)據(jù)集鞍历,RDF是一種描述結(jié)構(gòu)化知識的框架,它將實體間的關(guān)系表示為 (實體1, 關(guān)系, 實體2) 的三元組肪虎。LOD還允許在不同來源的數(shù)據(jù)項之間設(shè)置RDF鏈接劣砍,實現(xiàn)語義Web知識庫。目前世界各機構(gòu)已經(jīng)基于LOD標準發(fā)布了數(shù)千個數(shù)據(jù)集扇救,包含數(shù)千億RDF三元組刑枝。隨著LOD項目的推廣和發(fā)展,互聯(lián)網(wǎng)會有越來越多的信息以鏈接數(shù)據(jù)形式發(fā)布迅腔,然而各機構(gòu)發(fā)布的鏈接數(shù)據(jù)之間存在嚴重的異構(gòu)和冗余等問題装畅,如何實現(xiàn)多數(shù)據(jù)源的知識融合,是LOD項目面臨的重要問題沧烈。


圖2-2 開放互聯(lián)數(shù)據(jù)項目發(fā)布數(shù)據(jù)集示意圖
2.3 互聯(lián)網(wǎng)網(wǎng)頁文本數(shù)據(jù)
與整個互聯(lián)網(wǎng)相比掠兄,維基百科等知識庫仍只能算滄海一粟。因此锌雀,人們還需要從海量互聯(lián)網(wǎng)網(wǎng)頁中直接抽取知識蚂夕。與上述知識庫的構(gòu)建方式不同,很多研究者致力于直接從無結(jié)構(gòu)的互聯(lián)網(wǎng)網(wǎng)頁中抽取結(jié)構(gòu)化信息腋逆,如華盛頓大學Oren Etzioni教授主導(dǎo)的“開放信息抽取”(open information extraction婿牍,OpenIE)項目,以及卡耐基梅隆大學Tom Mitchell教授主導(dǎo)的“永不停止的語言學習”(never-ending language learning惩歉, NELL)項目牍汹。OpenIE項目所開發(fā)的演示系統(tǒng)TextRunner已經(jīng)從1億個網(wǎng)頁中抽取出了5億條事實,而NELL項目也抽取了超過5千萬條事實柬泽。
顯而易見慎菲,與從維基百科中抽取的知識庫相比,開放信息抽取從無結(jié)構(gòu)網(wǎng)頁中抽取的信息準確率還很低锨并,其主要原因在于網(wǎng)頁形式多樣露该,噪音信息較多,信息可信度較低第煮。因此解幼,也有一些研究者嘗試限制抽取的范圍,例如只從網(wǎng)頁表格等內(nèi)容中抽取結(jié)構(gòu)信息包警,并利用互聯(lián)網(wǎng)的多個來源互相印證撵摆,從而大大提高抽取信息的可信度和準確率。當然這種做法也會大大降低抽取信息的覆蓋面害晦。天下沒有免費的午餐特铝,在大數(shù)據(jù)時代,我們需要在規(guī)模和質(zhì)量之間尋找一個最佳的平衡點。
2.4 多數(shù)據(jù)源的知識融合
從以上數(shù)據(jù)來源進行知識圖譜構(gòu)建并非孤立進行鲫剿。在商用知識圖譜構(gòu)建過程中鳄逾,需要實現(xiàn)多數(shù)據(jù)源的知識融合锰镀。以谷歌最新發(fā)布的Knowledge Vault (Dong, et al. 2014)技術(shù)為例挟纱,其知識圖譜的數(shù)據(jù)來源包括了文本、DOM Trees汽抚、HTML表格政冻、RDF語義數(shù)據(jù)等多個來源枚抵。多來源數(shù)據(jù)的融合,能夠更有效地判定抽取知識的可信性明场。
知識融合主要包括實體融合汽摹、關(guān)系融合和實例融合。對于實體榕堰,人名竖慧、地名、機構(gòu)名往往有多個名稱逆屡。例如“中國移動通信集團公司”有“中國移動”圾旨、“中移動”、“移動通信”等名稱魏蔗。我們需要將這些不同名稱規(guī)約到同一個實體下砍的。同一個實體在不同語言、不同國家和地區(qū)往往會有不同命名莺治,例如著名足球明星Beckham在大陸漢語中稱作“貝克漢姆”廓鞠,在香港譯作“碧咸”,而在臺灣則被稱為“貝克漢”谣旁。與此對應(yīng)的床佳,同一個名字在不同語境下可能會對應(yīng)不同實體,這是典型的一詞多義問題榄审,例如“蘋果”有時是指一種水果砌们,有時則指的是一家著名IT公司。在這樣復(fù)雜的多對多對應(yīng)關(guān)系中搁进,如何實現(xiàn)實體融合是非常復(fù)雜而重要的課題浪感。如前面開放信息抽取所述,同一種關(guān)系可能會有不同的命名饼问,這種現(xiàn)象在不同數(shù)據(jù)源中抽取出的關(guān)系中尤其顯著影兽。與實體融合類似,關(guān)系融合對于知識融合至關(guān)重要莱革。在實現(xiàn)了實體和關(guān)系融合之后峻堰,我們就可以實現(xiàn)三元組實例的融合讹开。不同數(shù)據(jù)源會抽取出相同的三元組,并給出不同的評分茧妒。根據(jù)這些評分萧吠,以及不同數(shù)據(jù)源的可信度左冬,我們就可以實現(xiàn)三元組實例的融合與抽取桐筏。
知識融合既有重要的研究挑戰(zhàn),又需要豐富的工程經(jīng)驗拇砰。知識融合是實現(xiàn)大規(guī)模知識圖譜的必由之路梅忌。知識融合的好壞,往往決定了知識圖譜項目的成功與否除破,值得任何有志于大規(guī)模知識圖譜構(gòu)建與應(yīng)用的人士高度重視牧氮。
3 知識圖譜的典型應(yīng)用
知識圖譜將搜索引擎從字符串匹配推進到實體層面,可以極大地改進搜索效率和效果瑰枫,為下一代搜索引擎的形態(tài)提供了巨大的想象空間踱葛。知識圖譜的應(yīng)用前景遠不止于此,目前知識圖譜已經(jīng)被廣泛應(yīng)用于以下幾個任務(wù)中光坝。
3.1 查詢理解(Query Understanding)
谷歌等搜索引擎巨頭之所以致力于構(gòu)建大規(guī)模知識圖譜尸诽,其重要目標之一就是能夠更好地理解用戶輸入的查詢詞。用戶查詢詞是典型的短文本(short text)盯另,一個查詢詞往往僅由幾個關(guān)鍵詞構(gòu)成性含。傳統(tǒng)的關(guān)鍵詞匹配技術(shù)沒有理解查詢詞背后的語義信息,查詢效果可能會很差鸳惯。
例如商蕴,對于查詢詞“李娜 大滿貫”,如果僅用關(guān)鍵詞匹配的方式芝发,搜索引擎根本不懂用戶到底希望尋找哪個“李娜”绪商,而只會機械地返回所有含有“李娜”這個關(guān)鍵詞的網(wǎng)頁。但通過利用知識圖譜識別查詢詞中的實體及其屬性辅鲸,搜索引擎將能夠更好地理解用戶搜索意圖「裼簦現(xiàn)在,我們到谷歌中查詢“李娜 大滿貫”瓢湃,會發(fā)現(xiàn)理张,首先谷歌會利用知識圖譜在頁面右側(cè)呈現(xiàn)中國網(wǎng)球運動員李娜的基本信息,我們可以知道這個李娜是指的中國網(wǎng)球女運動員绵患。同時雾叭,谷歌不僅像傳統(tǒng)搜索引擎那樣返回匹配的網(wǎng)頁,更會直接在頁面最頂端返回李娜贏得大滿貫的次數(shù)“2”落蝙。


圖3-1 谷歌中對“李娜 大滿貫”的查詢結(jié)果
主流商用搜索引擎基本都支持這種直接返回查詢結(jié)果而非網(wǎng)頁的功能织狐,這背后都離不開大規(guī)模知識圖譜的支持暂幼。以百度為例,下圖是百度中對“珠穆朗瑪峰高度”的查詢結(jié)果移迫,百度直接告訴用戶珠穆朗瑪峰的高度是8844.43米旺嬉。


圖3-2 百度中對“珠穆朗瑪峰高度”的查詢結(jié)果
基于知識圖譜,搜索引擎還能獲得簡單的推理能力厨埋。例如邪媳,下圖是百度中對“梁啟超的兒子的妻子”的查詢結(jié)果,百度能夠利用知識圖譜知道梁啟超的兒子是梁思成荡陷,梁思成的妻子是林徽因等人雨效。


圖3-3 百度中對“梁啟超的兒子的妻子”的查詢結(jié)果
采用知識圖譜理解查詢意圖,不僅可以返回更符合用戶需求的查詢結(jié)果废赞,還能更好地匹配商業(yè)廣告信息徽龟,提高廣告點擊率,增加搜索引擎受益唉地。因此据悔,知識圖譜對搜索引擎公司而言,是一舉多得的重要資源和技術(shù)耘沼。
3.2 自動問答(Question Answering)
人們一直在探索比關(guān)鍵詞查詢更高效的互聯(lián)網(wǎng)搜索方式极颓。很多學者預(yù)測,下一代搜索引擎將能夠直接回答人們提出的問題耕拷,這種形式被稱為自動問答讼昆。例如著名計算機學者、美國華盛頓大學計算機科學與工程系教授骚烧、圖靈中心主任Oren Etzioni于2011年就在Nature雜志上發(fā)表文章“搜索需要一場變革“(Search Needs a Shake-Up)浸赫。該文指出,一個可以理解用戶問題赃绊,從網(wǎng)絡(luò)信息中抽取事實既峡,并最終選出一個合適答案的搜索引擎,才能將我們帶到信息獲取的制高點碧查。如上節(jié)所述运敢,目前搜索引擎已經(jīng)支持對很多查詢直接返回精確答案而非海量網(wǎng)頁而已。
關(guān)于自動問答忠售,我們將有專門的章節(jié)介紹传惠。這里,我們需要著重指出的是稻扬,知識圖譜的重要應(yīng)用之一就是作為自動問答的知識庫卦方。在搜狗推出中文知識圖譜服務(wù)”知立方“的時候,曾經(jīng)以回答”梁啟超的兒子的太太的情人的父親是誰泰佳?“這種近似腦筋急轉(zhuǎn)彎似的問題作為案例盼砍,來展示其知識圖譜的強大推理能力尘吗。雖然大部分用戶不會這樣拐彎抹角的提問,但人們會經(jīng)常需要尋找諸如”劉德華的妻子是誰浇坐?“睬捶、”侏羅紀公園的主演是誰?“近刘、“姚明的身高擒贸?”以及”北京有幾個區(qū)?“等問題的答案跌宛。而這些問題都需要利用知識圖譜中實體的復(fù)雜關(guān)系推理得到酗宋。無論是理解用戶查詢意圖积仗,還是探索新的搜索形式疆拘,都毫無例外需要進行語義理解和知識推理,而這都需要大規(guī)模寂曹、結(jié)構(gòu)化的知識圖譜的有力支持哎迄,因此知識圖譜成為各大互聯(lián)網(wǎng)公司的必爭之地。
最近隆圆,微軟聯(lián)合創(chuàng)始人Paul Allen投資創(chuàng)建了艾倫人工智能研究院(Allen Institute for Artificial Intelligence)漱挚,致力于建立具有學習、推理和閱讀能力的智能系統(tǒng)渺氧。2013年底旨涝,Paul Allen任命Oren Etzioni教授擔任艾倫人工智能研究院的執(zhí)行主任,該任命所釋放的信號頗值得我們思考侣背。
3.3 文檔表示(Document Representation)
經(jīng)典的文檔表示方案是空間向量模型(Vector Space Model)白华,該模型將文檔表示為詞匯的向量,而且采用了詞袋(Bag-of-Words贩耐,BOW)假設(shè)弧腥,不考慮文檔中詞匯的順序信息。這種文檔表示方案與上述的基于關(guān)鍵詞匹配的搜索方案相匹配潮太,由于其表示簡單管搪,效率較高,是目前主流搜索引擎所采用的技術(shù)铡买。文檔表示是自然語言處理很多任務(wù)的基礎(chǔ)更鲁,如文檔分類、文檔摘要奇钞、關(guān)鍵詞抽取澡为,等等。
經(jīng)典文檔表示方案已經(jīng)在實際應(yīng)用中暴露出很多固有的嚴重缺陷蛇券,例如無法考慮詞匯之間的復(fù)雜語義關(guān)系缀壤,無法處理對短文本(如查詢詞)的稀疏問題樊拓。人們一直在嘗試解決這些問題,而知識圖譜的出現(xiàn)和發(fā)展塘慕,為文檔表示帶來新的希望筋夏,那就是基于知識的文檔表示方案。一篇文章不再只是由一組代表詞匯的字符串來表示图呢,而是由文章中的實體及其復(fù)雜語義關(guān)系來表示(Schuhmacher, et al. 2014)条篷。該文檔表示方案實現(xiàn)了對文檔的深度語義表示,為文檔深度理解打下基礎(chǔ)蛤织。一種最簡單的基于知識圖譜的文檔表示方案赴叹,可以將文檔表示為知識圖譜的一個子圖(sub-graph),即用該文檔中出現(xiàn)或涉及的實體及其關(guān)系所構(gòu)成的圖表示該文檔指蚜。這種知識圖譜的子圖比詞匯向量擁有更豐富的表示空間乞巧,也為文檔分類、文檔摘要和關(guān)鍵詞抽取等應(yīng)用提供了更豐富的可供計算和比較的信息摊鸡。
知識圖譜為計算機智能信息處理提供了巨大的知識儲備和支持绽媒,將讓現(xiàn)在的技術(shù)從基于字符串匹配的層次提升至知識理解層次。以上介紹的幾個應(yīng)用可以說只能窺豹一斑免猾。知識圖譜的構(gòu)建與應(yīng)用是一個龐大的系統(tǒng)工程是辕,其所蘊藏的潛力和可能的應(yīng)用,將伴隨著相關(guān)技術(shù)的日漸成熟而不斷涌現(xiàn)猎提。
4 知識圖譜的主要技術(shù)
大規(guī)模知識圖譜的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持获三,以下簡單介紹其中若干主要技術(shù)。
4.1 實體鏈指(Entity Linking)
互聯(lián)網(wǎng)網(wǎng)頁锨苏,如新聞疙教、博客等內(nèi)容里涉及大量實體。大部分網(wǎng)頁本身并沒有關(guān)于這些實體的相關(guān)說明和背景介紹蚓炬。為了幫助人們更好地了解網(wǎng)頁內(nèi)容松逊,很多網(wǎng)站或作者會把網(wǎng)頁中出現(xiàn)的實體鏈接到相應(yīng)的知識庫詞條上,為讀者提供更詳盡的背景材料肯夏。這種做法實際上將互聯(lián)網(wǎng)網(wǎng)頁與實體之間建立了鏈接關(guān)系经宏,因此被稱為實體鏈指。
手工建立實體鏈接關(guān)系非常費力驯击,因此如何讓計算機自動實現(xiàn)實體鏈指烁兰,成為知識圖譜得到大規(guī)模應(yīng)用的重要技術(shù)前提。例如徊都,谷歌等在搜索引擎結(jié)果頁面呈現(xiàn)知識圖譜時沪斟,需要該技術(shù)自動識別用戶輸入查詢詞中的實體并鏈接到知識圖譜的相應(yīng)節(jié)點上。
實體鏈指的主要任務(wù)有兩個,實體識別(Entity Recognition)與實體消歧(Entity Disambiguation)主之,都是自然語言處理領(lǐng)域的經(jīng)典問題择吊。
實體識別旨在從文本中發(fā)現(xiàn)命名實體,最典型的包括人名槽奕、地名几睛、機構(gòu)名等三類實體。近年來粤攒,人們開始嘗試識別更豐富的實體類型所森,如電影名、產(chǎn)品名夯接,等等焕济。此外,由于知識圖譜不僅涉及實體盔几,還有大量概念(concept)晴弃,因此也有研究者提出對這些概念進行識別。
不同環(huán)境下的同一個實體名稱可能會對應(yīng)不同實體问欠,例如“蘋果”可能指某種水果肝匆,某個著名IT公司,也可能是一部電影顺献。這種一詞多義或者歧義問題普遍存在于自然語言中。將文檔中出現(xiàn)的名字鏈接到特定實體上枯怖,就是一個消歧的過程注整。消歧的基本思想是充分利用名字出現(xiàn)的上下文,分析不同實體可能出現(xiàn)在該處的概率度硝。例如某個文檔如果出現(xiàn)了iphone肿轨,那么”蘋果“就有更高的概率指向知識圖譜中的叫”蘋果“的IT公司。
實體鏈指并不局限于文本與實體之間蕊程,如下圖所示椒袍,還可以包括圖像、社交媒體等數(shù)據(jù)與實體之間的關(guān)聯(lián)藻茂【允睿可以看到,實體鏈指是知識圖譜構(gòu)建與應(yīng)用的基礎(chǔ)核心技術(shù)辨赐。


圖4-1 實體鏈指實現(xiàn)實體與文本优俘、圖像、社交媒體等數(shù)據(jù)的關(guān)聯(lián)
4.2 關(guān)系抽认菩颉(Relation Extraction)
構(gòu)建知識圖譜的重要來源之一是從互聯(lián)網(wǎng)網(wǎng)頁文本中抽取實體關(guān)系帆焕。關(guān)系抽取是一種典型的信息抽取任務(wù)。
典型的開放信息抽取方法采用自舉(bootstrapping)的思想不恭,按照“模板生成實例抽取”的流程不斷迭代直至收斂叶雹。例如财饥,最初可以通過“X是Y的首都”模板抽取出(中國,首都折晦,北京)佑力、(美國,首都筋遭,華盛頓)等三元組實例打颤;然后根據(jù)這些三元組中的實體對“中國-北京”和“美國-華盛頓”可以發(fā)現(xiàn)更多的匹配模板,如“Y的首都是X”漓滔、“X是Y的政治中心”等等编饺;進而用新發(fā)現(xiàn)的模板抽取更多新的三元組實例,通過反復(fù)迭代不斷抽取新的實例與模板响驴。這種方法直觀有效透且,但也面臨很多挑戰(zhàn)性問題,如在擴展過程中很容易引入噪音實例與模板豁鲤,出現(xiàn)語義漂移現(xiàn)象秽誊,降低抽取準確率。研究者針對這一問題提出了很多解決方案:提出同時擴展多個互斥類別的知識琳骡,例如同時擴展人物锅论、地點和機構(gòu),要求一個實體只能屬于一個類別楣号;也有研究提出引入負實例來限制語義漂移最易。
我們還可以通過識別表達語義關(guān)系的短語來抽取實體間關(guān)系。例如炫狱,我們通過句法分析藻懒,可以從文本中發(fā)現(xiàn)“華為”與“深圳”的如下關(guān)系:(華為,總部位于视译,深圳)嬉荆、(華為,總部設(shè)置于酷含,深圳)鄙早、以及(華為,將其總部建于第美,深圳)蝶锋。通過這種方法抽取出的實體間關(guān)系非常豐富而自由,一般是一個以動詞為核心的短語什往。該方法的優(yōu)點是扳缕,我們無需預(yù)先人工定義關(guān)系的種類,但這種自由度帶來的代價是,關(guān)系語義沒有歸一化躯舔,同一種關(guān)系可能會有多種不同的表示驴剔。例如,上述發(fā)現(xiàn)的“總部位于”粥庄、“總部設(shè)置于”以及“將其總部建于”等三個關(guān)系實際上是同一種關(guān)系丧失。如何對這些自動發(fā)現(xiàn)的關(guān)系進行聚類規(guī)約是一個挑戰(zhàn)性問題。
我們還可以將所有關(guān)系看做分類標簽惜互,把關(guān)系抽取轉(zhuǎn)換為對實體對的關(guān)系分類問題布讹。這種關(guān)系抽取方案的主要挑戰(zhàn)在于缺乏標注語料。2009年斯坦福大學研究者提出遠程監(jiān)督(Distant Supervision)思想训堆,使用知識圖譜中已有的三元組實例啟發(fā)式地標注訓練語料描验。遠程監(jiān)督思想的假設(shè)是,每個同時包含兩個實體的句子坑鱼,都表述了這兩個實體在知識庫中的對應(yīng)關(guān)系膘流。例如,根據(jù)知識圖譜中的三元組實例(蘋果鲁沥,創(chuàng)始人呼股,喬布斯)和(蘋果,CEO画恰,庫克)彭谁,我們可以將以下四個包含對應(yīng)實體對的句子分別標注為包含“創(chuàng)始人”和“CEO”關(guān)系:
樣例句子關(guān)系/分類標簽
蘋果-喬布斯蘋果公司的創(chuàng)始人是喬布斯。創(chuàng)始人
蘋果-喬布斯喬布斯創(chuàng)立了蘋果公司阐枣。創(chuàng)始人
蘋果-庫克蘋果公司的CEO是庫克马靠。CEO
蘋果-庫克庫克現(xiàn)在是蘋果公司的CEO。CEO
我們將知識圖譜三元組中每個實體對看做待分類樣例蔼两,將知識圖譜中實體對關(guān)系看做分類標簽。通過從出現(xiàn)該實體對的所有句子中抽取特征逞度,我們可以利用機器學習分類模型(如最大熵分類器额划、SVM等)構(gòu)建信息抽取系統(tǒng)。對于任何新的實體對档泽,根據(jù)所出現(xiàn)該實體對的句子中抽取的特征俊戳,我們就可以利用該信息抽取系統(tǒng)自動判斷其關(guān)系。遠程監(jiān)督能夠根據(jù)知識圖譜自動構(gòu)建大規(guī)模標注語料庫馆匿,因此取得了矚目的信息抽取效果抑胎。
與自舉思想面臨的挑戰(zhàn)類似,遠程監(jiān)督方法會引入大量噪音訓練樣例渐北,嚴重損害模型準確率阿逃。例如,對于(蘋果,創(chuàng)始人恃锉,喬布斯)我們可以從文本中匹配以下四個句子:
句子關(guān)系/分類標簽是否正確
蘋果公司的創(chuàng)始人是喬布斯搀菩。創(chuàng)始人正確
喬布斯創(chuàng)立了蘋果公司。創(chuàng)始人正確
喬布斯回到了蘋果公司破托。創(chuàng)始人錯誤
喬布斯曾擔任蘋果的CEO肪跋。創(chuàng)始人錯誤
在這四個句子中,前兩個句子的確表明蘋果與喬布斯之間的創(chuàng)始人關(guān)系土砂;但是州既,后兩個句子則并沒有表達這樣的關(guān)系。很明顯萝映,由于遠程監(jiān)督只能機械地匹配出現(xiàn)實體對的句子吴叶,因此會大量引入錯誤訓練樣例。為了解決這個問題锌俱,人們提出很多去除噪音實例的辦法晤郑,來提升遠程監(jiān)督性能。例如造寝,研究發(fā)現(xiàn),一個正確訓練實例往往位于語義一致的區(qū)域吭练,也就是其周邊的實例應(yīng)當擁有相同的關(guān)系诫龙;也有研究提出利用因子圖、矩陣分解等方法鲫咽,建立數(shù)據(jù)內(nèi)部的關(guān)聯(lián)關(guān)系签赃,有效實現(xiàn)降低噪音的目標。
關(guān)系抽取是知識圖譜構(gòu)建的核心技術(shù)分尸,它決定了知識圖譜中知識的規(guī)模和質(zhì)量锦聊。關(guān)系抽取是知識圖譜研究的熱點問題,還有很多挑戰(zhàn)性問題需要解決箩绍,包括提升從高噪音的互聯(lián)網(wǎng)數(shù)據(jù)中抽取關(guān)系的魯棒性孔庭,擴大抽取關(guān)系的類型與抽取知識的覆蓋面,等等材蛛。
4.3 知識推理(Knowledge Reasoning)
推理能力是人類智能的重要特征圆到,能夠從已有知識中發(fā)現(xiàn)隱含知識。推理往往需要相關(guān)規(guī)則的支持卑吭,例如從“配偶”+“男性”推理出“丈夫”芽淡,從“妻子的父親”推理出“岳父”,從出生日期和當前時間推理出年齡豆赏,等等挣菲。
這些規(guī)則可以通過人們手動總結(jié)構(gòu)建富稻,但往往費時費力,人們也很難窮舉復(fù)雜關(guān)系圖譜中的所有推理規(guī)則己单。因此唉窃,很多人研究如何自動挖掘相關(guān)推理規(guī)則或模式。目前主要依賴關(guān)系之間的同現(xiàn)情況纹笼,利用關(guān)聯(lián)挖掘技術(shù)來自動發(fā)現(xiàn)推理規(guī)則纹份。
實體關(guān)系之間存在豐富的同現(xiàn)信息。如下圖廷痘,在康熙蔓涧、雍正和乾隆三個人物之間,我們有(康熙笋额,父親元暴,雍正)、(雍正兄猩,父親茉盏,乾隆)以及(康熙,祖父枢冤,乾隆)三個實例鸠姨。根據(jù)大量類似的實體X、Y淹真、Z間出現(xiàn)的(X讶迁,父親,Y)核蘸、(Y巍糯,父親,Z)以及(X客扎,祖父祟峦,Z)實例,我們可以統(tǒng)計出“父親+父親=>祖父”的推理規(guī)則徙鱼。類似的搀愧,我們還可以根據(jù)大量(X,首都疆偿,Y)和(X,位于搓幌,Y)實例統(tǒng)計出“首都=>位于”的推理規(guī)則杆故,根據(jù)大量(X,總統(tǒng)溉愁,美國)和(X处铛,是饲趋,美國人)統(tǒng)計出“美國總統(tǒng)=>是美國人”的推理規(guī)則。
圖4-2 知識推理舉例
知識推理可以用于發(fā)現(xiàn)實體間新的關(guān)系撤蟆。例如奕塑,根據(jù)“父親+父親=>祖父”的推理規(guī)則,如果兩實體間存在“父親+父親”的關(guān)系路徑家肯,我們就可以推理它們之間存在“祖父”的關(guān)系龄砰。利用推理規(guī)則實現(xiàn)關(guān)系抽取的經(jīng)典方法是Path Ranking Algorithm (Lao & Cohen 2010),該方法將每種不同的關(guān)系路徑作為一維特征讨衣,通過在知識圖譜中統(tǒng)計大量的關(guān)系路徑構(gòu)建關(guān)系分類的特征向量换棚,建立關(guān)系分類器進行關(guān)系抽取,取得不錯的抽取效果反镇,成為近年來的關(guān)系抽取的代表方法之一固蚤。但這種基于關(guān)系的同現(xiàn)統(tǒng)計的方法,面臨嚴重的數(shù)據(jù)稀疏問題歹茶。
在知識推理方面還有很多的探索工作夕玩,例如采用謂詞邏輯(Predicate Logic)等形式化方法和馬爾科夫邏輯網(wǎng)絡(luò)(Markov Logic Network)等建模工具進行知識推理研究。目前來看惊豺,這方面研究仍處于百家爭鳴階段燎孟,大家在推理表示等諸多方面仍為達成共識,未來路徑有待進一步探索扮叨。
4.4 知識表示(Knowledge Representation)
在計算機中如何對知識圖譜進行表示與存儲缤弦,是知識圖譜構(gòu)建與應(yīng)用的重要課題。
如“知識圖譜”字面所表示的含義彻磁,人們往往將知識圖譜作為復(fù)雜網(wǎng)絡(luò)進行存儲碍沐,這個網(wǎng)絡(luò)的每個節(jié)點帶有實體標簽,而每條邊帶有關(guān)系標簽衷蜓±厶幔基于這種網(wǎng)絡(luò)的表示方案,知識圖譜的相關(guān)應(yīng)用任務(wù)往往需要借助于圖算法來完成磁浇。例如斋陪,當我們嘗試計算兩實體之間的語義相關(guān)度時,我們可以通過它們在網(wǎng)絡(luò)中的最短路徑長度來衡量置吓,兩個實體距離越近无虚,則越相關(guān)。而面向“梁啟超的兒子的妻子”這樣的推理查詢問題時衍锚,則可以從“梁啟超”節(jié)點出發(fā)友题,通過尋找特定的關(guān)系路徑“梁啟超->兒子->妻子->?”,來找到答案戴质。
然而度宦,這種基于網(wǎng)絡(luò)的表示方法面臨很多困難踢匣。首先,該表示方法面臨嚴重的數(shù)據(jù)稀疏問題戈抄,對于那些對外連接較少的實體离唬,一些圖方法可能束手無策或效果不佳。此外划鸽,圖算法往往計算復(fù)雜度較高输莺,無法適應(yīng)大規(guī)模知識圖譜的應(yīng)用需求。
最近漾稀,伴隨著深度學習和表示學習的革命性發(fā)展模闲,研究者也開始探索面向知識圖譜的表示學習方案。其基本思想是崭捍,將知識圖譜中的實體和關(guān)系的語義信息用低維向量表示尸折,這種分布式表示(Distributed Representation)方案能夠極大地幫助基于網(wǎng)絡(luò)的表示方案。其中殷蛇,最簡單有效的模型是最近提出的TransE(Bordes, et al. 2013)实夹。TransE基于實體和關(guān)系的分布式向量表示,將每個三元組實例(head粒梦,relation亮航,tail)中的關(guān)系relation看做從實體head到實體tail的翻譯,通過不斷調(diào)整h匀们、r和t(head缴淋、relation和tail的向量),使(h + r) 盡可能與 t 相等泄朴,即 h + r = t重抖。該優(yōu)化目標如下圖所示。


通過TransE等模型學習得到的實體和關(guān)系向量祖灰,能夠很大程度上緩解基于網(wǎng)絡(luò)表示方案的稀疏性問題钟沛,應(yīng)用于很多重要任務(wù)中。
首先局扶,利用分布式向量恨统,我們可以通過歐氏距離或余弦距離等方式,很容易地計算實體間三妈、關(guān)系間的語義相關(guān)度畜埋。這將極大的改進開放信息抽取中實體融合和關(guān)系融合的性能。通過尋找給定實體的相似實體畴蒲,還可用于查詢擴展和查詢理解等應(yīng)用由捎。
其次,知識表示向量可以用于關(guān)系抽取饿凛。以TransE為例狞玛,由于我們的優(yōu)化目標是讓 h + r = t,因此褂策,當給定兩個實體 h 和 t 的時候管跺,我們可以通過尋找與 t – h 最相似的 r络它,來尋找兩實體間的關(guān)系。(Bordes, et al. 2013)中的實驗證明硬鞍,該方法的抽取性能較高。而且我們可以發(fā)現(xiàn)戴已,該方法僅需要知識圖譜作為訓練數(shù)據(jù)固该,不需要外部的文本數(shù)據(jù),因此這又稱為知識圖譜補全(Knowledge Graph Completion)糖儡,與復(fù)雜網(wǎng)絡(luò)中的鏈接預(yù)測(Link Prediction)類似伐坏,但是要復(fù)雜得多,因為在知識圖譜中每個節(jié)點和連邊上都有標簽(標記實體名和關(guān)系名)握联。
最后桦沉,知識表示向量還可以用于發(fā)現(xiàn)關(guān)系間的推理規(guī)則。例如金闽,對于大量X纯露、Y、Z間出現(xiàn)的(X代芜,父親埠褪,Y)、(Y挤庇,父親钞速,Z)以及(X,祖父罚随,Z)實例玉工,我們在TransE中會學習X+父親=Y,Y+父親=Z淘菩,以及X+祖父=Z等目標遵班。根據(jù)前兩個等式,我們很容易得到X+父親+父親=Z潮改,與第三個公式相比狭郑,就能夠得到“父親+父親=>祖父”的推理規(guī)則。前面我們介紹過汇在,基于關(guān)系的同現(xiàn)統(tǒng)計學習推理規(guī)則的思想翰萨,存在嚴重的數(shù)據(jù)稀疏問題。如果利用關(guān)系向量表示提供輔助糕殉,可以顯著緩解稀疏問題亩鬼。
5 前景與挑戰(zhàn)
如果未來的智能機器擁有一個大腦殖告,知識圖譜就是這個大腦中的知識庫,對于大數(shù)據(jù)智能具有重要意義雳锋,將對自然語言處理黄绩、信息檢索和人工智能等領(lǐng)域產(chǎn)生深遠影響。
現(xiàn)在以商業(yè)搜索引擎公司為首的互聯(lián)網(wǎng)巨頭已經(jīng)意識到知識圖譜的戰(zhàn)略意義玷过,紛紛投入重兵布局知識圖譜爽丹,并對搜索引擎形態(tài)日益產(chǎn)生重要的影響。同時辛蚊,我們也強烈地感受到粤蝎,知識圖譜還處于發(fā)展初期,大多數(shù)商業(yè)知識圖譜的應(yīng)用場景非常有限袋马,例如搜狗知立方更多聚焦在娛樂和健康等領(lǐng)域初澎。根據(jù)各搜索引擎公司提供的報告來看,為了保證知識圖譜的準確率飞蛹,仍然需要在知識圖譜構(gòu)建過程中采用較多的人工干預(yù)谤狡。
可以看到,在未來的一段時間內(nèi)卧檐,知識圖譜將是大數(shù)據(jù)智能的前沿研究問題墓懂,有很多重要的開放性問題亟待學術(shù)界和產(chǎn)業(yè)界協(xié)力解決。我們認為霉囚,未來知識圖譜研究有以下幾個重要挑戰(zhàn)捕仔。
知識類型與表示。知識圖譜主要采用(實體1,關(guān)系,實體2)三元組的形式來表示知識盈罐,這種方法可以較好的表示很多事實性知識榜跌。然而,人類知識類型多樣盅粪,面對很多復(fù)雜知識钓葫,三元組就束手無策了。例如票顾,人們的購物記錄信息础浮,新聞事件等,包含大量實體及其之間的復(fù)雜關(guān)系奠骄,更不用說人類大量的涉及主觀感受豆同、主觀情感和模糊的知識了。有很多學者針對不同場景設(shè)計不同的知識表示方法含鳞。知識表示是知識圖譜構(gòu)建與應(yīng)用的基礎(chǔ)影锈,如何合理設(shè)計表示方案,更好地涵蓋人類不同類型的知識,是知識圖譜的重要研究問題鸭廷。最近認知領(lǐng)域關(guān)于人類知識類型的探索(Tenenbaum, et al. 2011)也許會對知識表示研究有一定啟發(fā)作用枣抱。
知識獲取。如何從互聯(lián)網(wǎng)大數(shù)據(jù)萃取知識靴姿,是構(gòu)建知識圖譜的重要問題沃但。目前已經(jīng)提出各種知識獲取方案,并已經(jīng)成功抽取大量有用的知識佛吓。但在抽取知識的準確率、覆蓋率和效率等方面垂攘,都仍不如人意维雇,有極大的提升空間。
知識融合晒他。來自不同數(shù)據(jù)的抽取知識可能存在大量噪音和冗余吱型,或者使用了不同的語言。如何將這些知識有機融合起來陨仅,建立更大規(guī)模的知識圖譜津滞,是實現(xiàn)大數(shù)據(jù)智能的必由之路。
知識應(yīng)用灼伤。目前大規(guī)模知識圖譜的應(yīng)用場景和方式還比較有限触徐,如何有效實現(xiàn)知識圖譜的應(yīng)用,利用知識圖譜實現(xiàn)深度知識推理狐赡,提高大規(guī)模知識圖譜計算效率撞鹉,需要人們不斷銳意發(fā)掘用戶需求,探索更重要的應(yīng)用場景颖侄,提出新的應(yīng)用算法鸟雏。這既需要豐富的知識圖譜技術(shù)積累,也需要對人類需求的敏銳感知览祖,找到合適的應(yīng)用之道孝鹊。
6 內(nèi)容回顧與推薦閱讀
本章系統(tǒng)地介紹了知識圖譜的產(chǎn)生背景、數(shù)據(jù)來源展蒂、應(yīng)用場景和主要技術(shù)又活。通過本章我們主要有以下結(jié)論:
知識圖譜是下一代搜索引擎、自動問答等智能應(yīng)用的基礎(chǔ)設(shè)施玄货。
互聯(lián)網(wǎng)大數(shù)據(jù)是知識圖譜的重要數(shù)據(jù)來源皇钞。
知識表示是知識圖譜構(gòu)建與應(yīng)用的基礎(chǔ)技術(shù)。
實體鏈指松捉、關(guān)系抽取和知識推理是知識圖譜構(gòu)建與應(yīng)用的核心技術(shù)夹界。
知識圖譜與本體(Ontology)和語義網(wǎng)(Semantic Web)等密切相關(guān),有興趣的讀者可以搜索與之相關(guān)的文獻閱讀。知識表示(Knowledge Representation)是人工智能的重要課題可柿,讀者可以通過人工智能專著(Russell & Norvig 2009)了解其發(fā)展歷程鸠踪。在關(guān)系抽取方面,讀者可以閱讀(Nauseates, et al. 2013)复斥、(Nickel, et al. 2015)詳細了解相關(guān)技術(shù)营密。
參考文獻
(Bordes, et al. 2013) Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Proceedings of NIPS.
(Dong, et al. 2014) Dong, X., Gabrilovich, E., Heitz, G., Horn, W., et al. Knowledge Vault A web-scale approach to probabilistic knowledge fusion. In Proceedings of KDD.
(Lao & Cohen 2010) Lao, N., & Cohen, W. W. (2010). Relational retrieval using a combination of path-constrained random walks. Machine learning, 81(1), 53-67.
(Nauseates, et al. 2013) Nastase, V., Nakov, P., Seaghdha, D. O., & Szpakowicz, S. (2013). Semantic relations between nominals. Synthesis Lectures on Human Language Technologies, 6(1), 1-119.
(Nickel, et al. 2015) Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
(Russell & Norvig 2009) Russell, S., & Norvig, P. (2009). Artificial Intelligence: A Modern Approach, 3rd Edition. Pearson Press. (中文譯名:人工智能——一種現(xiàn)代方法).
(Schuhmacher, et al. 2014) Schuhmacher, M., & Ponzetto, S. P. Knowledge-based graph document modeling. In Proceedings of the 7th ACM international conference on Web search and data mining. In Proceedings of WSDM.
(Tenenbaum, et al. 2011) Tenenbaum, J. B., Kemp, C., Griffiths, T. L., & Goodman, N. D. (2011). How to grow a mind: Statistics, structure, and abstraction. science, 331(6022), 1279-1285

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市目锭,隨后出現(xiàn)的幾起案子评汰,更是在濱河造成了極大的恐慌,老刑警劉巖痢虹,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件被去,死亡現(xiàn)場離奇詭異,居然都是意外死亡奖唯,警方通過查閱死者的電腦和手機惨缆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來丰捷,“玉大人坯墨,你說我怎么就攤上這事〔⊥” “怎么了捣染?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長荣恐。 經(jīng)常有香客問我液斜,道長,這世上最難降的妖魔是什么叠穆? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任少漆,我火速辦了婚禮,結(jié)果婚禮上硼被,老公的妹妹穿的比我還像新娘示损。我一直安慰自己,他們只是感情好嚷硫,可當我...
    茶點故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布检访。 她就那樣靜靜地躺著,像睡著了一般仔掸。 火紅的嫁衣襯著肌膚如雪脆贵。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天起暮,我揣著相機與錄音卖氨,去河邊找鬼。 笑死,一個胖子當著我的面吹牛筒捺,可吹牛的內(nèi)容都是我干的柏腻。 我是一名探鬼主播,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼系吭,長吁一口氣:“原來是場噩夢啊……” “哼五嫂!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起肯尺,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤沃缘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后则吟,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體孩灯,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年逾滥,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片败匹。...
    茶點故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡寨昙,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出掀亩,到底是詐尸還是另有隱情舔哪,我是刑警寧澤,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布槽棍,位于F島的核電站捉蚤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏炼七。R本人自食惡果不足惜缆巧,卻給世界環(huán)境...
    茶點故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望豌拙。 院中可真熱鬧陕悬,春花似錦、人聲如沸按傅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽唯绍。三九已至,卻和暖如春况芒,著一層夾襖步出監(jiān)牢的瞬間惜纸,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留堪簿,地道東北人痊乾。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像椭更,于是被迫代替她去往敵國和親哪审。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,044評論 2 355

推薦閱讀更多精彩內(nèi)容