作為人工智能時(shí)代最重要的知識(shí)表示方式之一氧枣,知識(shí)圖譜能夠打破不同場(chǎng)景下的數(shù)據(jù)隔離沐兵,為搜索、推薦挑胸、問答痒筒、解釋與決策等應(yīng)用提供基礎(chǔ)支撐。美團(tuán)大腦圍繞吃喝玩樂等多種場(chǎng)景茬贵,構(gòu)建了生活?yuàn)蕵奉I(lǐng)域超大規(guī)模的知識(shí)圖譜,為用戶和商家建立起全方位的鏈接移袍。我們美團(tuán)希望能夠通過對(duì)應(yīng)用場(chǎng)景下的用戶偏好和商家定位進(jìn)行更為深度的理解解藻,進(jìn)而為大眾提供更好的智能化服務(wù),幫大家吃得更好葡盗,生活更好螟左。
近日啡浊,美團(tuán) AI 平臺(tái)部 NLP 中心負(fù)責(zé)人、大眾點(diǎn)評(píng)搜索智能中心負(fù)責(zé)人王仲遠(yuǎn)博士受邀在 AI 科技大本營(yíng)做了一期線上分享胶背,為大家講解了美團(tuán)大腦的設(shè)計(jì)思路巷嚣、構(gòu)建過程、目前面臨的挑戰(zhàn)钳吟,以及在美團(tuán)點(diǎn)評(píng)中的具體應(yīng)用與實(shí)踐廷粒,其內(nèi)容整理如下,公眾號(hào)后臺(tái)回復(fù):“美團(tuán)”,獲取本文PPT红且。
知識(shí)圖譜的重要性
近年來坝茎,人工智能正在快速地改變?nèi)藗兊纳睿覀兛梢钥吹礁骷铱萍脊径技娂娡瞥鋈斯ぶ悄墚a(chǎn)品或者系統(tǒng)暇番,比如說在 2016 年嗤放,谷歌推出的 AlphaGo ,一問世便橫掃整個(gè)圍棋界壁酬,完勝了人類冠軍次酌。又比如亞馬遜推出的 Amazon Go 無人超市,用戶只需下載一個(gè) App舆乔,走進(jìn)這家超市岳服,就可以直接拿走商品,無需排隊(duì)結(jié)賬便可離開蜕煌,這是人工智能時(shí)代的“新零售”體驗(yàn)派阱。又比如微軟推出的 Skype Translator,它能夠幫助使用不同語言的人群進(jìn)行實(shí)時(shí)的斜纪、無障礙的交流贫母。再比如說蘋果推出的 Siri 智能助理,它讓每一個(gè)用蘋果手機(jī)的用戶都能夠非常便捷地完成各項(xiàng)任務(wù)盒刚。所有這些人工智能產(chǎn)品的出現(xiàn)都依賴于背后各個(gè)領(lǐng)域技術(shù)突飛猛進(jìn)的進(jìn)展腺劣,包括機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺因块、語音識(shí)別橘原、自然語言處理等等。
作為全球領(lǐng)先的生活服務(wù)電子商務(wù)平臺(tái)涡上,美團(tuán)點(diǎn)評(píng)在人工智能領(lǐng)域也在積極地進(jìn)行布局趾断。今年 2 月份,AI 平臺(tái)部 NLP 中心正式成立吩愧,我們的愿景是用人工智能幫大家吃得更好芋酌,生活更好。語言是人類智慧的結(jié)晶雁佳,而自然語言處理是人工智能中最為困難的問題之一脐帝,其核心是讓機(jī)器能像人類一樣理解和使用語言同云。
我們希望在不久的將來,當(dāng)用戶發(fā)表一條評(píng)價(jià)的時(shí)候堵腹,能夠讓機(jī)器閱讀這條評(píng)價(jià)炸站,充分理解用戶的喜怒哀樂。當(dāng)用戶進(jìn)入大眾點(diǎn)評(píng)的一個(gè)商家頁面時(shí)疚顷,面對(duì)成千上萬條用戶評(píng)論旱易,我們希望機(jī)器能夠代替用戶快速地閱讀這些評(píng)論,總結(jié)商家的情況荡含,供用戶進(jìn)行參考咒唆。未來,當(dāng)用戶有任何餐飲释液、娛樂方面的決策需求的時(shí)候全释,美團(tuán)點(diǎn)評(píng)能夠提供人工智能助理服務(wù),幫助用戶快速的進(jìn)行決策误债。
所有這一切浸船,都依賴于人工智能背后兩大技術(shù)驅(qū)動(dòng)力:深度學(xué)習(xí)和知識(shí)圖譜。我們可以將這兩個(gè)技術(shù)進(jìn)行一個(gè)簡(jiǎn)單的比較:
我們將深度學(xué)習(xí)歸納為隱性的模型寝蹈,它通常是面向某一個(gè)具體任務(wù)李命,比如說下圍棋、識(shí)別貓箫老、人臉識(shí)別封字、語音識(shí)別等等。通常而言耍鬓,在很多任務(wù)上它能夠取得非常優(yōu)秀的結(jié)果阔籽,同時(shí)它也有非常多的局限性,比如說它需要海量的訓(xùn)練數(shù)據(jù)牲蜀,以及非常強(qiáng)大的計(jì)算能力笆制,同時(shí)它也有非常多的局限性,比如說難以進(jìn)行任務(wù)上的遷移涣达,而且可解釋性比較差在辆。
另一方面,知識(shí)圖譜是人工智能的另外一大技術(shù)驅(qū)動(dòng)力度苔,它能夠廣泛地適用于不同的任務(wù)匆篓。相比深度學(xué)習(xí),知識(shí)圖譜中的知識(shí)可以沉淀寇窑,可解釋性非常強(qiáng)奕删,類似于人類的思考。
我們可以通過上面的例子疗认,來觀察深度學(xué)習(xí)技術(shù)和人類是如何識(shí)別貓的完残,以及它們的過程有哪些區(qū)別。
2012 年横漏,Google X 實(shí)驗(yàn)室宣布使用深度學(xué)習(xí)技術(shù)谨设,讓機(jī)器成功識(shí)別了圖片中的貓。它們使用了 1000 臺(tái)服務(wù)器缎浇,16000 個(gè)處理器扎拣,連接成一個(gè) 10 億節(jié)點(diǎn)的人工智能大腦。這個(gè)系統(tǒng)閱讀了 1000 萬張從 YouTube 上抽取的圖片素跺,最終成功識(shí)別出這個(gè)圖片中有沒有貓二蓝。
我們?cè)賮砜纯慈祟愂侨绾巫龅摹?duì)于一個(gè) 3 歲的小朋友指厌,我們只需要給他看幾張貓的圖片刊愚,他就能夠很快識(shí)別出不同圖片中的貓,而這背后其實(shí)就是大腦對(duì)于這些知識(shí)的推理踩验。
2011 年鸥诽,Science 上有一篇非常出名的論文叫《How to Grow a Mind》。這篇論文的作者來自于 MIT箕憾、CMU牡借、UC Berkeley、Stanford 等美國(guó)名校的教授袭异。在這篇論文里钠龙,最重要的一個(gè)結(jié)論就是:如果我們的思維能夠跳出給定的數(shù)據(jù),那么必須有 Another Source Of Information 來 Make Up The Difference御铃。
這里的知識(shí)語言是什么碴里?對(duì)于人類來講,其實(shí)就是我們從小到大接受的學(xué)校教育畅买,報(bào)紙上并闲、電視上看到的信息,通過社交媒體谷羞,通過與其他人交流帝火,不斷積累起來的知識(shí)。
近年來湃缎,不管是學(xué)術(shù)界還是工業(yè)界都紛紛構(gòu)建自家的知識(shí)圖譜犀填,有面向全領(lǐng)域的知識(shí)圖譜,也有面向垂直領(lǐng)域的知識(shí)圖譜嗓违。其實(shí)早在文藝復(fù)興時(shí)期九巡,培根就提出了“知識(shí)就是力量”,在當(dāng)今人工智能時(shí)代蹂季,各大科技公司更是紛紛提出:知識(shí)圖譜就是人工智能的基礎(chǔ)冕广。
全球的互聯(lián)網(wǎng)公司都在積極布局知識(shí)圖譜疏日。早在 2010 年微軟就開始構(gòu)建知識(shí)圖譜,包括 Satori 和 Probase撒汉。2012 年沟优,Google 正式發(fā)布了 Google Knowledge Graph,現(xiàn)在規(guī)模已經(jīng)達(dá)到 700 億左右睬辐。目前微軟和 Google 擁有全世界最大的通用知識(shí)圖譜挠阁,F(xiàn)acebook 擁有全世界最大的社交知識(shí)圖譜,而阿里巴巴和亞馬遜則分別構(gòu)建了商品知識(shí)圖譜溯饵。
如果按照人類理解問題和回答問題這一過程來進(jìn)行區(qū)分侵俗,我們可以將知識(shí)圖譜分成兩類。我們來看這樣一個(gè)例子丰刊,如果用戶看到這樣一個(gè)問題隘谣,“Who was the U.S. President when the Angels won the World Series?”相信所有的用戶都能夠理解這個(gè)問題藻三,也就是當(dāng) Angels 隊(duì)贏了 World Series 的時(shí)候洪橘,誰是美國(guó)的總統(tǒng)?
這是一個(gè)問題理解的過程棵帽,它所需要的知識(shí)通常我們稱之為 Common Sense Knowledge(常識(shí)性知識(shí))熄求。另外一方面,很多網(wǎng)友可能回答不出這個(gè)問題逗概,因?yàn)樗枰硗庖粋€(gè)百科全書式的知識(shí)弟晚。
因此,我們將知識(shí)圖譜分成兩大類逾苫,一類叫 Common Sense Knowledge Graph(常識(shí)知識(shí)圖譜)卿城,另外一類叫 Encyclopedia Knowledge Graph(百科全書知識(shí)圖譜)。這兩類知識(shí)圖譜有很明顯的區(qū)別铅搓。針對(duì) Common Sense Knowledge Graph瑟押,通常而言,我們會(huì)挖掘這些詞之間的Linguistic Knowledge星掰;對(duì)于 Encyclopedia Knowledge Graph多望,我們通常會(huì)在乎它的 Entities 和這些 Entities 之間的 Facts。
對(duì)于 Common Sense Knowledge Graph氢烘,一般而言我們比較在乎的 Relation 包括 isA Relation怀偷、isPropertyOf Relation。對(duì)于 Encyclopedia Knowledge Graph播玖,通常我們會(huì)預(yù)定義一些謂詞椎工,比如說 DayOfbirth、LocatedIn、SpouseOf 等等维蒙。
對(duì)于 Common Sense Knowledge Graph 通常帶有一定的概率掰吕,但是 Encyclopedia Knowledge Graph 通常就是“非黑即白”,那么構(gòu)建這種知識(shí)圖譜時(shí)木西,我們?cè)诤醯木褪?Precision(準(zhǔn)確率)畴栖。
Common Sense Knowledge Graph 比較有代表性的工作包括 WordNet、KnowItAll八千、NELL 以及 Microsoft Concept Graph。而 Encyclopedia Knowledge Graph 則有 Freepase燎猛、Yago恋捆、Google Knowledge Graph 以及正在構(gòu)建中的“美團(tuán)大腦”。
這里跟大家介紹兩個(gè)代表性工作:1)Common Sense Knowledge Graph:Probase重绷;2)Encyclopedia Knowledge Graph:美團(tuán)大腦沸停。
常識(shí)性知識(shí)圖譜(Common Sense Knowledge Graph)
Microsoft Concept Graph 于 2016 年 11 月正式發(fā)布,但是它早在 2010 年就已經(jīng)開始進(jìn)行研究昭卓,是一個(gè)非常大的圖譜愤钾。在這個(gè)圖譜里面有上百萬個(gè) Nodes(節(jié)點(diǎn)),這些 Nodes 有Concepts(概念)候醒,比如說 Spanish Artists(西班牙藝術(shù)家)能颁;有 Entities(實(shí)體),比如說 Picasso(畢加索)倒淫;有 Attributes(屬性)伙菊,比如 Birthday(生日);有 Verbs(動(dòng)詞)敌土,有 Adjectives(形容詞)镜硕,比如說 Eat、Sweet返干。也有很多很多的邊兴枯,最重要的邊,是這種 isA 邊矩欠,比如說 Picasso财剖,還有 isPropertyOf 邊。對(duì)于其他的 Relation晚顷,我們會(huì)統(tǒng)稱為 Co-occurance峰伙。
這是我們?cè)谖④泚喼扪芯吭浩陂g對(duì) Common Sense Knowledge Graph 的 Research Roadmap(研究路線圖)。當(dāng)我們構(gòu)建出 Common Sense Knowledge Graph 之后该默,重要的是在上面構(gòu)建各種各樣的模型瞳氓。我們提出了一些模型叫 Conceptualization(概念化模型),它能夠支持 Term Similarity、Short Text Similarity 以及 Head-Modifier Detection匣摘,最終支持各種應(yīng)用店诗,比如 NER、文本標(biāo)注音榜、Ads庞瘸、Query Recommendation、Text Understanding 等等赠叼。
到底什么是 Short Text Understanding擦囊?常識(shí)怎么用在 Text Understanding 中?下面我們可以看一些具體的例子:
當(dāng)大家看到上面中間的文本時(shí)嘴办,相信所有人都能夠認(rèn)出這應(yīng)該是一個(gè)日期瞬场,但是大家沒辦法知道這個(gè)日期代表什么含義。但如果我們?cè)俣嘟o一些上下文信息涧郊,比如 Picasso贯被、Spanish等等,大家對(duì)這個(gè)日期就會(huì)有一些常識(shí)性的推理妆艘。我們會(huì)猜測(cè)這個(gè)日期很可能是 Picasso 的出生日期彤灶,或者是去世日期,這就是常識(shí)批旺。
比如說當(dāng)我們給定 China 和 India 這兩個(gè) Entity 的時(shí)候幌陕,我們的大腦就會(huì)做出一些常識(shí)性的推理,我們會(huì)認(rèn)為這兩個(gè) Entity 在描述 Country朱沃。如果再多給一個(gè) Entity:Brazil苞轿,這時(shí)候我們通常會(huì)想到 Emerging Market。如果再加上 Russia逗物,大家可能就會(huì)想到“金磚四國(guó)”或者“金磚五國(guó)”搬卒。所有這一切就是常識(shí)性的推理。
再比如翎卓,當(dāng)我們看到 Engineer 和 Apple 的時(shí)候契邀,我們會(huì)對(duì) Apple 做一些推理,認(rèn)為它就是一個(gè) IT Company失暴,但是如果再多給一些上下文信息坯门,在這個(gè)句子里面由于 eating 的出現(xiàn),我相信大家的大腦也會(huì)一樣地做出常識(shí)推理逗扒,認(rèn)為這個(gè) Apple 不再是代表 Company古戴,而是代表 Fruit。
所以矩肩,這就是我們提出來的 Conceptualization Model现恼,它是一個(gè) Explicit Representation。我們希望它能夠?qū)?Text,尤其是 Short Text叉袍,映射到 Millions Concepts始锚,這樣的 Representation 能夠比較容易讓用戶進(jìn)行理解,同時(shí)能夠應(yīng)用到不同場(chǎng)景當(dāng)中喳逛。
在這一頁 PPT 中瞧捌,我們展示了 Conceptualization 的結(jié)果。當(dāng)輸入是 Pear 和 Apple 的時(shí)候润文,那么我們會(huì)將這個(gè) Apple 映射到 Fruit姐呐。但是如果是 iPad Apple 的時(shí)候,我們會(huì)將它映射到 Company转唉,同時(shí)大家注意這并不是唯一的結(jié)果皮钠,我們實(shí)際上是會(huì)被映射到一個(gè) Concept Vector。這個(gè) Concept Vector 有多大赠法?它是百萬級(jí)維度的 Vector,同時(shí)也是一個(gè)非常 Sparse 的一個(gè) Vector乔夯。
通過這樣的一個(gè) Conceptualization Model砖织,我們能夠解決什么樣的文本理解問題?我們可以看這樣一個(gè)例子末荐。比如說給定一個(gè)非常短的一個(gè)文本 Python侧纯,它只是一個(gè) Single Instance,那么我們會(huì)希望將它映射到至少兩大類的 Concept 上甲脏,一種可能是 Programming Language眶熬,另外一種是 Snake。當(dāng)它有一些 Context块请,比如說 Python Tutorial 的時(shí)候娜氏,那么這個(gè)時(shí)候 Python 指的應(yīng)該是 Programming Language,如果當(dāng)它有其他的 Adjective墩新、Verb贸弥,比如有 Dangerous 時(shí),這時(shí)候我們就會(huì)將 Python 理解為 Snake海渊。
同時(shí)如果在一個(gè)文本里面包含了多個(gè)的 Entity绵疲,比如說 DNN Tool、Python臣疑,那么我們希望能夠檢測(cè)出在這個(gè)文本里面哪一個(gè)是比較重要的 Entity盔憨,哪一個(gè)是用來做限制的 Entity。
下面我們將簡(jiǎn)單地介紹一下讯沈,具體應(yīng)該怎么去做郁岩。當(dāng)我們?cè)?Google 里搜一個(gè) Single Instance 的時(shí)候,通常在右側(cè)會(huì)出現(xiàn)這個(gè) Knowledge Panel。對(duì)于 Microsoft 這樣一個(gè) Instance驯用,我們可以看到這個(gè)紅色框所框出來的 Concept脸秽,Microsoft 指向的是 Technology Company,這背后是怎么實(shí)現(xiàn)的蝴乔?
我們可以看到记餐,Microsoft 實(shí)際上會(huì)指向非常非常多的 Concept,比如說 Company薇正,Software Company片酝,Technology Leader 等等。我們將它映射到哪一個(gè) Concept 上最合適挖腰?
如果我們將它映射到 Company 這個(gè) Concept 上雕沿,很顯然它是對(duì)的,但是我們卻沒辦法將 Microsoft 和 KFC猴仑、BMW 這樣其他類型的產(chǎn)品區(qū)分開來审轮。另外一方面,如果我們將 Microsoft 映射到 Largest Desktop OS Vendor 上辽俗,那么這是一個(gè)非常 Specific 的 Concept疾渣,這樣也不太好,為什么崖飘?因?yàn)檫@個(gè) Concept 太 Specific榴捡,太 Detail,它可能只包含了 Microsoft 這樣一個(gè) Entity朱浴,那么它就失去了 Concept 的這種抽象能力吊圾。
所以我們希望將 Microsoft 映射到一個(gè)既不是特別 General(抽象),又不是一個(gè)特別 Specific(具體)的 Concept 上翰蠢。在語言學(xué)上项乒,我們將這種映射稱之為 Basic-level,我們將整個(gè)映射過程命名為 Basic-level Conceptualization躏筏。
我們提出了一種計(jì)算 Basic-level Conceptualization 的方法板丽,其實(shí)它非常簡(jiǎn)單而且非常有效。就是將兩種的 Typicality 做了一些融合趁尼,同時(shí)我們也證明了它們跟 PMI 和 Commute Time 之間的一些關(guān)聯(lián)埃碱。并且在一個(gè)大規(guī)模的數(shù)據(jù)集上,我們通過 Precision 和 NDCG 對(duì)它們進(jìn)行了評(píng)價(jià)酥泞。最后證明砚殿,我們所提出來的 Scoring 方法,它在 NDCG 和 Precision 上都能達(dá)到比較好的結(jié)果芝囤。最重要的是似炎,它在理論上是能夠?qū)?Basic-Level 進(jìn)行很好的解釋辛萍。
下面我們來看一下,當(dāng) Instance 有了一些 Context 之后羡藐,我們應(yīng)該怎么去進(jìn)行處理贩毕。我們通過一個(gè)例子,來簡(jiǎn)單地解釋一下這背后最主要的思想仆嗦。
比如說 iPad辉阶、Apple,其中 iPad 基本上是沒有歧異的瘩扼,它會(huì)映射到 Device谆甜、Product。但是對(duì)于 Apple 而言集绰,它可能會(huì)映射到至少兩類的 Concept 上规辱,比如說 Fruit、Company栽燕。那么我們?cè)趺从?iPad 對(duì) Apple 做消歧呢罕袋?
方法其實(shí)也挺直觀的。我們會(huì)通過大量的統(tǒng)計(jì)去發(fā)現(xiàn)像 iPad 這樣的 Entity碍岔,通常會(huì)跟 Company炫贤、Product 共同出現(xiàn)。比如說 iPad 有可能會(huì)跟三星共同出現(xiàn)付秕,有可能會(huì)跟 Google 共同出現(xiàn),那么我們就發(fā)現(xiàn)它會(huì)經(jīng)常跟 Brand侍郭、Company询吴、Product共同出現(xiàn)。于是我們就利用新挖掘出來的 Knowledge 對(duì) Apple 做消歧亮元,這就是背后最主要的思想猛计。
除了剛才這樣一個(gè) General Context 以外,在很多時(shí)候這些 Text 可能還會(huì)包含很多一些特殊的類型爆捞,比如說 Verb奉瘤、Adjective。具體而言煮甥,我們希望在看到 Watch Harry Potter 時(shí)盗温,能夠知道 Harry Potter 是 Movie,當(dāng)我們看到 Read Harry Potter 時(shí)成肘,能夠知道 Harry Potter 是 Book卖局。同樣的,Harry Potter 還有可能是一個(gè)角色名稱双霍,或者是一個(gè)游戲名稱砚偶。
那么我們來看一看應(yīng)該怎樣去解決這樣一件事情批销。當(dāng)我們看到 Watch Harry Potter 時(shí),我們首先要知道染坯,Harry Potter 有可能是一本 Book均芽,也有可能是一部 Movie。我們可以算出一個(gè)先驗(yàn)概率单鹿,這通常要通過大規(guī)模的統(tǒng)計(jì)掀宋。同時(shí)我們要知道,Watch 它有可能是一個(gè)名詞羞反,同時(shí)它也有可能是一個(gè)動(dòng)詞布朦,并且我們還需要去挖掘,當(dāng) Watch 作為動(dòng)詞的時(shí)候昼窗,它和 Movie 有非常緊密的關(guān)聯(lián)是趴。
所以我們本質(zhì)上是要去做一些概率上的推理,不僅要將條件概率做非常細(xì)粒度的分解澄惊,最后還要做概率計(jì)算唆途。
通過概率計(jì)算的方法,我們實(shí)際上就可以構(gòu)建出一個(gè)非常大的離線知識(shí)圖譜掸驱,那么我們?cè)谶@個(gè)上面肛搬,就可以有很多的 Term,以及它們所屬的一些 Type毕贼,以及不同 Term 之間的一些關(guān)聯(lián)温赔。
當(dāng)我們用這樣一個(gè)非常大的離線知識(shí)圖譜來做 Text Understanding 的時(shí)候,我們可以首先將這個(gè) Text 進(jìn)行分割處理鬼癣,在分割之后陶贼,我們實(shí)際上是可以從這個(gè)非常大的離線知識(shí)圖譜中截取出它的一個(gè)子圖。最后我們使用了 Random Walk With Restart 的模型待秃,來對(duì)這樣一個(gè)在線的 Subgraph 進(jìn)行分類拜秧。
我們?cè)賮砜匆幌拢绻粋€(gè)文本里包含了 Multiple Entities章郁,要怎樣處理枉氮?我們需要做知識(shí)挖掘,怎么做?首先我們可以得到非常多的 Query Log,然后我們也可以去預(yù)定一些 Pattern类垫,通過這種 Pattern 的定義,可以抽取出非常多 Entity 之間 Head 和 Modifier 這樣的 Relation佃牛,那么在接下來我們可以將這些 Entity 映射到 Concept 上,之后得到一個(gè) Pattern医舆。
在這個(gè)過程之中俘侠,我們要將 Entity 映射到 Concept 上象缀,那么這就是前面所提到的 Conceptualization。我們希望之后的映射不能太 General爷速,避免 Concept Pattern 沖突央星。
但是它也不能太 Specific,因?yàn)槿绻?Specific惫东,可能就會(huì)缺少表達(dá)能力莉给。最壞的情況,它有可能就會(huì)退化到 Entity Level廉沮,而 Entity 至少都是百萬的規(guī)模颓遏,那么整個(gè) Concept Patterns 就有可能變成百萬乘以百萬的級(jí)別,顯然是不可用的滞时。
所以我們就用到了前面介紹的 Basic-Level Conceptualization 的方法叁幢,將它映射到一個(gè)既不是特別 General,也不是特別 Specific 的 Concept 上坪稽。
大家可以看一下我們能夠挖掘出來的一些 Top 的 Concept Patterns曼玩,比如說 Game 和 Platform,就是一個(gè) Concept 和一個(gè) Pattern窒百。它有什么用黍判?舉一個(gè)具體的例子,當(dāng)用戶在搜 Angry Birds篙梢、iOS 的時(shí)候顷帖,我們就可以知道用戶想找的是 Angry Birds 這款游戲,而 iOS 是用來限制這款游戲的一個(gè) Platform渤滞。蘋果公司每年都會(huì)推出新版本的 iOS窟她,那么我們挖掘出這樣的 Concept Pattern 之后,不管蘋果出到 iOS 15或者 iOS 16蔼水,那么我們只需要將它們映射到 Platform,那么我們的 Concept Patterns 就仍然有效录肯,這樣可以很容易地進(jìn)行知識(shí)擴(kuò)展趴腋。
所以 Common Sense Knowledge Mining 以及 Conceptualization Modeling,可以用在很多的應(yīng)用上论咏,它可以用來算 Short Text Similarity优炬,可以用來做 Classification、Clustering厅贪,也可以用來做廣告的 Semantic Match蠢护、Q/A System、Chatbot 等等养涮。
美團(tuán)大腦——百科全書式知識(shí)圖譜(Encyclopedia Knowledge Graph)
在介紹完 Common Sense Knowledge Graph 之后葵硕,給大家介紹一下 Encyclopedia Knowledge Graph眉抬。這是美團(tuán)的知識(shí)圖譜項(xiàng)目——美團(tuán)大腦。
美團(tuán)大腦是什么懈凹?美團(tuán)大腦是我們正在構(gòu)建中的一個(gè)全球最大的餐飲娛樂知識(shí)圖譜蜀变。我們希望能夠充分地挖掘關(guān)聯(lián)美團(tuán)點(diǎn)評(píng)各個(gè)業(yè)務(wù)場(chǎng)景里的公開數(shù)據(jù),比如說我們有累計(jì) 40 億的用戶評(píng)價(jià)介评,超過 10 萬條個(gè)性化標(biāo)簽库北,遍布全球的 3000 多萬商戶以及超過 1.4 億的店菜,我們還定義了 20 級(jí)細(xì)粒度的情感分析们陆。
我們希望能夠充分挖掘出這些元素之間的關(guān)聯(lián)寒瓦,構(gòu)建出一個(gè)知識(shí)的“大腦”,用它來提供更加智能的生活服務(wù)坪仇。
我們簡(jiǎn)單地介紹一下美團(tuán)大腦是如何進(jìn)行構(gòu)建的杂腰。我們會(huì)使用 Language Model(統(tǒng)計(jì)語言模型)、Topic Model(主題生成模型) 以及 Deep Learning Model(深度學(xué)習(xí)模型) 等各種模型烟很,希望能夠做到商家標(biāo)簽的挖掘颈墅,菜品標(biāo)簽的挖掘和情感分析的挖掘等等。
為了挖掘商戶標(biāo)簽雾袱,首先我們要讓機(jī)器去閱讀評(píng)論恤筛。我們使用了無監(jiān)督和有監(jiān)督的深度學(xué)習(xí)模型。
無監(jiān)督模型我們主要用了LDA芹橡,它的特點(diǎn)是成本比較低毒坛,無需標(biāo)注的數(shù)據(jù)。當(dāng)然林说,它準(zhǔn)確性會(huì)比較不可控煎殷,同時(shí)對(duì)挖掘出來的標(biāo)簽我們還需要進(jìn)行人工的篩選。至于有監(jiān)督的深度學(xué)習(xí)模型腿箩,那么我們用了 LSTM豪直,它的特點(diǎn)是需要比較大量的標(biāo)注數(shù)據(jù)。
通過這兩種模型挖掘出來的標(biāo)簽珠移,我們會(huì)再加上知識(shí)圖譜里面的一些推理弓乙,最終構(gòu)建出商戶的標(biāo)簽。
如果這個(gè)商戶有很多的評(píng)價(jià)钧惧,都是圍繞著寶寶椅暇韧、帶娃吃飯、兒童套餐等話題浓瞪,那么我們就可以得出很多關(guān)于這個(gè)商戶的標(biāo)簽懈玻。比如說我們可以知道它是一個(gè)親子餐廳,它的環(huán)境比較別致乾颁,服務(wù)也比較熱情涂乌。
下面介紹一下我們?nèi)绾螌?duì)菜品進(jìn)行標(biāo)簽的挖掘艺栈?我們使用了 Bi-LSTM 以及 CRF 模型。比如說從這個(gè)評(píng)論里面我們就可以抽取出這樣的 Entity骂倘,再通過與其他的一些菜譜網(wǎng)站做一些關(guān)聯(lián)眼滤,我們就可以得到它的食材、烹飪方法历涝、口味等信息诅需,這樣我們就為每一個(gè)店菜挖掘出了非常豐富的口味標(biāo)簽、食材標(biāo)簽等各種各樣的標(biāo)簽荧库。
下面再簡(jiǎn)單介紹一下堰塌,我們?nèi)绾芜M(jìn)行評(píng)論數(shù)據(jù)的情感挖掘。我們用的是 CNN LSTM 的模型分衫,對(duì)于每一個(gè)用戶的評(píng)價(jià)我們都能夠分析出他的一些情感的傾向场刑。同時(shí)我們也正在做細(xì)粒度的情感分析,我們希望能夠通過用戶短短的評(píng)價(jià)蚪战,分析出他在不同的維度牵现,比如說交通、環(huán)境邀桑、衛(wèi)生瞎疼、菜品、口味等方面的不同的情感分析的結(jié)果壁畸。值得一提的是贼急,這種細(xì)粒度的情感分析結(jié)果,目前在全世界范圍內(nèi)都沒有很好的解決辦法捏萍,但是美團(tuán)大腦已經(jīng)邁出非常重要的一步太抓。
下面介紹一下我們的知識(shí)圖譜是如何進(jìn)行落地的。目前業(yè)界知識(shí)圖譜已經(jīng)有非常多的成熟應(yīng)用令杈,比如搜索走敌、推薦、問答機(jī)器人逗噩、智能助理悔常,包括在穿戴設(shè)備、反欺詐给赞、臨床決策上都有非常好的應(yīng)用。同時(shí)業(yè)界也有很多的探索矫户,包括智能商業(yè)模式片迅、智能市場(chǎng)洞察、智能會(huì)員體系等等皆辽。
如何用知識(shí)圖譜來改進(jìn)我們的搜索柑蛇?如果大家現(xiàn)在打開大眾點(diǎn)評(píng)芥挣,搜索某一個(gè)菜品時(shí),比如說麻辣小龍蝦耻台,其實(shí)我們的機(jī)器是已經(jīng)幫大家提前閱讀了所有的評(píng)價(jià)空免,然后分析出提供這道菜品的商家,我們還會(huì)根據(jù)用戶評(píng)論的情感分析結(jié)果來改進(jìn)這些搜索排序盆耽。
此外蹋砚,我們也將它用在商圈的個(gè)性化推薦。當(dāng)大家打開大眾點(diǎn)評(píng)時(shí)摄杂,如果你現(xiàn)在位于某一個(gè)商場(chǎng)或者商圈坝咐,那么大家很快就能夠看到這個(gè)商場(chǎng)或者商圈的頁面入口。當(dāng)用戶進(jìn)入這個(gè)商場(chǎng)和商戶頁面時(shí)析恢,通過知識(shí)圖譜墨坚,我們就能夠提供“千人千面”的個(gè)性化排序和個(gè)性化推薦。
在這背后其實(shí)使用了一個(gè)“水波”的深度學(xué)習(xí)模型映挂,關(guān)于這個(gè)深度學(xué)習(xí)模型更詳細(xì)的介紹泽篮,大家可以參見我們?cè)?CIKM 上的一篇論文。
所有的這一切柑船,其實(shí)還有很多的技術(shù)突破等待我們?nèi)ソ鉀Q帽撑。比如整個(gè)美團(tuán)大腦的知識(shí)圖譜在百億的量級(jí),這也是世界上最大的餐飲娛樂知識(shí)圖譜椎组,為了支撐這個(gè)知識(shí)圖譜油狂,我們需要去研究千億級(jí)別的圖存儲(chǔ)和計(jì)算引擎技術(shù)。我們也正在搭建一個(gè)超大規(guī)模的 GPU 集群寸癌,來支持海量數(shù)據(jù)的深度學(xué)習(xí)算法专筷。未來,當(dāng)所有的這些技術(shù)都成熟之后蒸苇,我們還希望能夠?yàn)樗杏脩籼峁爸腔鄄蛷d”和“智能助理”的體驗(yàn)磷蛹。