阿里知識圖譜首次曝光:每天千萬級攔截量叶洞,億級別全量智能審核

導(dǎo)讀:借助阿里知識圖譜的建設(shè)鲫凶,阿里電商平臺管控從過去的“巡檢”模式升級為發(fā)布端實時逐一檢查。在海量的商品發(fā)布量的挑戰(zhàn)下衩辟,最大可能地借助大數(shù)據(jù)螟炫、人工智能阻止壞人、問題商品進入阿里生態(tài)艺晴。同時面臨問題商家實時的對弈昼钻、變異和惡意攻擊等諸多挑戰(zhàn),知識圖譜仍然保持著每天千萬級別的攔截量封寞,億級別的全量智能審核次數(shù)然评,在濫發(fā)、侵權(quán)狈究、合規(guī)碗淌、假貨、經(jīng)營范圍等多個場景全面與問題賣家正面交鋒抖锥,實時對弈亿眠。為了最大限度地保護知識產(chǎn)權(quán),保護消費者權(quán)益磅废,我們對知識圖譜推理引擎技術(shù)提出了智能化纳像、自學(xué)習(xí)、毫秒級響應(yīng)还蹲、可解釋等更高地技術(shù)要求爹耗,實現(xiàn)良好的社會效益。

?阿里知識圖譜運用

阿里巴巴生態(tài)里積累了海量的商品數(shù)據(jù)谜喊,這些寶貴的商品數(shù)據(jù)來自于淘寶潭兽、天貓、1688斗遏、AliExpress等多個市場山卦,同時品牌商、行業(yè)運營诵次、治理運營账蓉、消費者、國家機構(gòu)逾一、物流商等多種角色參與其中铸本,貢獻著校正著這樣一個龐大的商品庫。無論是知識產(chǎn)權(quán)保護遵堵,還是提升消費者購物體驗箱玷,實現(xiàn)商品數(shù)據(jù)的標準化(商品規(guī)范的統(tǒng)一和商品信息的確定性), 以及與內(nèi)外部數(shù)據(jù)之間的深度互聯(lián)怨规,意義都非常重大,阿里商品知識圖譜承載著商品標準化這一基礎(chǔ)性锡足,根源性的工作波丰。 基于此,我們才能知道哪些商品是同樣一件產(chǎn)品舶得,我們才能確切地知道一個品牌是否被授權(quán)掰烟,品牌下的產(chǎn)品賣到了哪些市場。

阿里知識圖譜以商品沐批、標準產(chǎn)品纫骑、 標準品牌、 標準條碼九孩、標準分類為核心惧磺, 利用實體識別、實體鏈指和語義分析技術(shù)捻撑,整合關(guān)聯(lián)了例如輿情磨隘、百科、國家行業(yè)標準等9大類一級本體顾患,包含了百億級別的三元組番捂,形成了巨大的知識網(wǎng)。

阿里知識圖譜綜合利用前沿的NLP江解、語義推理和深度學(xué)習(xí)等技術(shù)设预,打造全網(wǎng)商品智能服務(wù)體系,服務(wù)阿里生態(tài)中的各個角色犁河。商品知識圖譜廣泛地應(yīng)用于搜索鳖枕、前端導(dǎo)購、平臺治理桨螺、智能問答宾符、品牌商運營等核心、創(chuàng)新業(yè)務(wù)灭翔。能夠幫助品牌商透視全局數(shù)據(jù)魏烫,幫助平臺治理運營發(fā)現(xiàn)問題商品,幫助行業(yè)基于確定的信息選品肝箱,做人貨場匹配提高消費者購物體驗等等哄褒。為新零售、國際化提供可靠的智能引擎煌张。

引入機器學(xué)習(xí)算法搭建推理引擎

我們設(shè)計了一套框架來實現(xiàn)知識表示和推理呐赡。此外:知識圖譜實體、關(guān)系骏融、詞林(同義詞链嘀、上下位詞)井辜、垂直知識圖譜(例如地理位置圖譜、材質(zhì)圖譜)管闷、機器學(xué)習(xí)算法模型等都納入進來做統(tǒng)一的描述。

按照不同場景窃肠,我們把推理分為:上下位和等價推理包个;不一致性推理;知識發(fā)現(xiàn)推理冤留;本體概念推理等碧囊。例如

1.???上下位和等價推理檢索父類時纤怒,通過上下位推理把子類的對象召回糯而,同時利用等價推理(實體的同義詞、變異詞泊窘、同款模型等)熄驼,擴大召回。 例如烘豹,為保護消費者我們需要攔截 “產(chǎn)地為某核污染區(qū)域的食品”瓜贾,推理引擎翻譯為 “找到產(chǎn)地為該區(qū)域,且屬性項與“產(chǎn)地”同義携悯,屬性值是該區(qū)域下位實體的食品祭芦,以及與命中的食品是同款的食品”。

2.???不一致推理憔鬼。在與問題賣家對弈過程中龟劲,我們需要對商品標題、屬性轴或、圖片昌跌、商品資質(zhì)、賣家資質(zhì)中的品牌照雁、材質(zhì)避矢、成分等基礎(chǔ)信息,做一致性校驗囊榜。比如說標題中的品牌是Nike而屬性或者吊牌中品牌是Nake审胸,如下圖所示,左邊描述了商品標題卸勺、屬性砂沛、吊牌上的品牌信息是一致的,推理為一致曙求。右邊為吊牌和商品品牌不一致的商品碍庵,被推理引擎判斷為有問題的商品映企。

3.???知識發(fā)現(xiàn)推理。一致性推理的目的是確保信息的確定性静浴,例如通過一致性推理我們能確保數(shù)據(jù)覆蓋到的食品配料表正確堰氓。但消費者購物時很少看配料表那些繁雜的數(shù)字。消費者真正關(guān)心的是無糖苹享、無鹽等強感知的知識點双絮。為了提高消費者購物體驗,知識發(fā)現(xiàn)推理通過底層配料表數(shù)據(jù)和國家行業(yè)標準例如:

無糖:碳水化合物≤ 0.5 g /100 g(固體)或100 mL(液體)

無鹽:鈉≤5mg /100 g 或100 mL

我們可以把配料表數(shù)據(jù)轉(zhuǎn)化為“無糖”“無鹽”等知識點得问。從而真正地把數(shù)據(jù)變成了知識囤攀。通過AB test驗證,類似知識點在前端導(dǎo)購中極大地改善了消費者購物體驗宫纬。

推理引擎背后技術(shù)框架

首先焚挠,推理引擎把自然語言通過語義解析(semantic parsing)轉(zhuǎn)換為邏輯表達式(logical form)。語義解析采用了結(jié)合神經(jīng)網(wǎng)絡(luò)和符號邏輯執(zhí)行的方式:自然語言經(jīng)過句法漓骚、語法分析蝌衔、 NER、 Entity Linking蝌蹂, 被編碼為分布式表示(distributed representation)胚委,句子的分布式表示被進一步轉(zhuǎn)義為邏輯表達式。

在分布式表示轉(zhuǎn)換為邏輯表達式的過程中叉信,我們首先面臨表示和謂詞邏輯(predicate)操作之間映射的問題亩冬。我們把謂詞當(dāng)做動作,通過訓(xùn)練執(zhí)行symbolicoperation硼身,類似neural programmer中利用attention機制選擇合適的操作硅急,即選擇最有可能的謂詞操作,最后根據(jù)分析的句法等把謂詞操作拼接為可能的邏輯表達式佳遂,再把邏輯表達式轉(zhuǎn)換為查詢等营袜。過程示意如下圖所示。

其次丑罪,邏輯表達式會觸發(fā)后續(xù)的邏輯推理和圖推理荚板。邏輯表達式在設(shè)計過程中遵循以下幾個原則:邏輯表達式接近人的自然語言,同時便于機器和人的理解吩屹。表達能力滿足知識圖譜數(shù)據(jù)跪另、知識表示的要求。應(yīng)該易于擴展煤搜,能夠非常方便的增加新的類免绿、實體和關(guān)系,能夠支持多種邏輯語言和體系擦盾,如Datalog嘲驾、OWL等淌哟,即這些語言及其背后的算法模塊是可插拔的,通過可插拔的功能辽故,推理引擎有能力描述不同的邏輯體系徒仓。

以上下位和等價推理為例:“產(chǎn)地為中國的食品”,”

用邏輯表達式描述為:

?x: 食物(x)???(??y: 同義詞(y誊垢,產(chǎn)地)) (x, (??z: 包括下位實體(中國, z)))

隨后找同款:

?t, x: ($?c:屬于產(chǎn)品(x, c)??屬于產(chǎn)品(t, c))?

此外掉弛,推理引擎還用于知識庫自動補全。我們基于embedding做知識庫補全彤枢。主要思路是把知識庫中的結(jié)構(gòu)信息等加入embedding,考慮了Trans系列的特征筒饰,還包括邊缴啡、相鄰點、路徑瓷们、實體的文本描述 (如詳情)业栅、圖片等特征,用于新關(guān)系的預(yù)測和補全谬晕。

阿里知識圖譜經(jīng)過我們?nèi)甑慕ㄔO(shè)碘裕,已經(jīng)形成了巨大的知識圖譜和海量的標準數(shù)據(jù),同時與浙江大學(xué)陳華鈞教授團隊成立聯(lián)合項目組攒钳,引入了前沿的自然語言處理帮孔、知識表示和邏輯推理技術(shù),在阿里巴巴新零售不撑、國際化戰(zhàn)略下發(fā)揮著越來越重要的作用文兢。

關(guān)注「技術(shù)邊城」把握前沿技術(shù)脈搏
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市焕檬,隨后出現(xiàn)的幾起案子姆坚,更是在濱河造成了極大的恐慌,老刑警劉巖实愚,帶你破解...
    沈念sama閱讀 222,000評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件兼呵,死亡現(xiàn)場離奇詭異,居然都是意外死亡腊敲,警方通過查閱死者的電腦和手機击喂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來碰辅,“玉大人茫负,你說我怎么就攤上這事『醺埃” “怎么了忍法?”我有些...
    開封第一講書人閱讀 168,561評論 0 360
  • 文/不壞的土叔 我叫張陵潮尝,是天一觀的道長。 經(jīng)常有香客問我饿序,道長勉失,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,782評論 1 298
  • 正文 為了忘掉前任原探,我火速辦了婚禮乱凿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘咽弦。我一直安慰自己徒蟆,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,798評論 6 397
  • 文/花漫 我一把揭開白布型型。 她就那樣靜靜地躺著段审,像睡著了一般。 火紅的嫁衣襯著肌膚如雪闹蒜。 梳的紋絲不亂的頭發(fā)上寺枉,一...
    開封第一講書人閱讀 52,394評論 1 310
  • 那天,我揣著相機與錄音绷落,去河邊找鬼姥闪。 笑死,一個胖子當(dāng)著我的面吹牛砌烁,可吹牛的內(nèi)容都是我干的筐喳。 我是一名探鬼主播,決...
    沈念sama閱讀 40,952評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼函喉,長吁一口氣:“原來是場噩夢啊……” “哼疏唾!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起函似,我...
    開封第一講書人閱讀 39,852評論 0 276
  • 序言:老撾萬榮一對情侶失蹤槐脏,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后撇寞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體顿天,經(jīng)...
    沈念sama閱讀 46,409評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,483評論 3 341
  • 正文 我和宋清朗相戀三年蔑担,在試婚紗的時候發(fā)現(xiàn)自己被綠了牌废。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,615評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡啤握,死狀恐怖鸟缕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤懂从,帶...
    沈念sama閱讀 36,303評論 5 350
  • 正文 年R本政府宣布授段,位于F島的核電站,受9級特大地震影響番甩,放射性物質(zhì)發(fā)生泄漏侵贵。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,979評論 3 334
  • 文/蒙蒙 一缘薛、第九天 我趴在偏房一處隱蔽的房頂上張望窍育。 院中可真熱鬧,春花似錦宴胧、人聲如沸漱抓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽乞娄。三九已至,卻和暖如春檐迟,著一層夾襖步出監(jiān)牢的瞬間补胚,已是汗流浹背码耐。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評論 1 272
  • 我被黑心中介騙來泰國打工追迟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人骚腥。 一個月前我還...
    沈念sama閱讀 49,041評論 3 377
  • 正文 我出身青樓敦间,卻偏偏與公主長得像,于是被迫代替她去往敵國和親束铭。 傳聞我的和親對象是個殘疾皇子廓块,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,630評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識。這篇文章契沫,甚至之后...
    我偏笑_NSNirvana閱讀 13,928評論 2 64
  • 作者:劉知遠(清華大學(xué))带猴;整理:林穎(RPI) 本文來自Big Data Intelligence知識就是力量⌒竿颍—...
    墨白找閱讀 11,568評論 4 54
  • 知識圖譜技術(shù) 知識圖譜(Knowledge Graph拴清,KG)描述客觀世界的概念、實體会通、事件及其之間的關(guān)系口予。其中,...
    sennchi閱讀 5,285評論 0 17
  • 這篇文章主要參考了[1]劉嶠,李楊,段宏,劉瑤,秦志光. 知識圖譜構(gòu)建技術(shù)綜述[J]. 計算機研究與發(fā)展,2016...
    我偏笑_NSNirvana閱讀 52,564評論 6 125
  • 那一天涕侈, 我坐在車里沪停, 你躺在床上。 烏云像黑山老妖, 夾雜著狂風(fēng)和怒吼木张, 呼嘯而來众辨。 大雨如注, 瞬間打濕了我的...
    文物志閱讀 194評論 0 1