作者李文哲娶桦,貪心科技CTO(greedyai.com)浦楣,這是一家AI培訓(xùn)公司踱蠢,他們家的NLP課程知識(shí)點(diǎn)(https://www.greedyai.com/courseinfor/93)
曾任普惠金融首席數(shù)據(jù)科學(xué)家火欧。在大數(shù)據(jù)、機(jī)器學(xué)習(xí)茎截、深度學(xué)習(xí)苇侵、自然語(yǔ)言處理,圖數(shù)據(jù)庫(kù)等領(lǐng)域有豐富的研究和實(shí)踐經(jīng)驗(yàn)企锌。先后就職過(guò)亞馬遜榆浓、高盛、Fiserv等多家公司撕攒。南開(kāi)大學(xué)本科陡鹃,美國(guó) Texas AM 大學(xué)人工智能碩士,美國(guó)南加州大學(xué)機(jī)器學(xué)習(xí)博士抖坪,荷蘭阿姆斯特丹大學(xué)訪(fǎng)問(wèn)學(xué)者萍鲸,主要的研究方向?yàn)閳D模型、貝葉斯優(yōu)化擦俐、深度學(xué)習(xí)脊阴、知識(shí)表示,先后發(fā)表數(shù)篇論文在 AAAI蚯瞧、KDD嘿期、AISTATS、CHI 等國(guó)際頂級(jí)會(huì)議和期刊上状知。
本文是從機(jī)器之心復(fù)制的:https://www.jiqizhixin.com/articles/2018-06-20-4
1 概論
隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展秽五,萬(wàn)物互聯(lián)成為了可能,這種互聯(lián)所產(chǎn)生的數(shù)據(jù)也在爆發(fā)式地增長(zhǎng)饥悴,而且這些數(shù)據(jù)恰好可以作為分析關(guān)系的有效原料坦喘。如果說(shuō)以往的智能分析專(zhuān)注在每一個(gè)個(gè)體上盲再,在移動(dòng)互聯(lián)網(wǎng)時(shí)代則除了個(gè)體,這種個(gè)體之間的關(guān)系也必然成為我們需要深入分析的很重要一部分瓣铣。 在一項(xiàng)任務(wù)中答朋,只要有關(guān)系分析的需求,就“有可能”派的上用場(chǎng)棠笑。
2 什么是知識(shí)圖譜梦碗?
知識(shí)圖譜是由Google公司在2012年提出來(lái)的一個(gè)新的概念。從學(xué)術(shù)的角度蓖救,我們可以對(duì)知識(shí)圖譜給一個(gè)這樣的定義:“知識(shí)圖譜本質(zhì)上是語(yǔ)義網(wǎng)絡(luò)(Semantic Network)的知識(shí)庫(kù)”洪规。但這有點(diǎn)抽象,所以換個(gè)角度循捺,從實(shí)際應(yīng)用的角度出發(fā)其實(shí)可以簡(jiǎn)單地把知識(shí)圖譜理解成多關(guān)系圖(Multi-relational Graph)斩例。
那什么叫多關(guān)系圖呢? 學(xué)過(guò)數(shù)據(jù)結(jié)構(gòu)的都應(yīng)該知道什么是圖(Graph)从橘。圖是由節(jié)點(diǎn)(Vertex)和邊(Edge)來(lái)構(gòu)成念赶,但這些圖通常只包含一種類(lèi)型的節(jié)點(diǎn)和邊。但相反恰力,多關(guān)系圖一般包含多種類(lèi)型的節(jié)點(diǎn)和多種類(lèi)型的邊叉谜。比如左下圖表示一個(gè)經(jīng)典的圖結(jié)構(gòu),右邊的圖則表示多關(guān)系圖踩萎,因?yàn)閳D里包含了多種類(lèi)型的節(jié)點(diǎn)和邊停局。這些類(lèi)型由不同的顏色來(lái)標(biāo)記。
在知識(shí)圖譜里驻民,我們通常用“實(shí)體(Entity)”來(lái)表達(dá)圖里的節(jié)點(diǎn)翻具、用“關(guān)系(Relation)”來(lái)表達(dá)圖里的“邊”。實(shí)體指的是現(xiàn)實(shí)世界中的事物比如人回还、地名裆泳、概念、藥物柠硕、公司等工禾,關(guān)系則用來(lái)表達(dá)不同實(shí)體之間的某種聯(lián)系,**比如人-“居住在”-北京蝗柔、張三和李四是“朋友”闻葵、邏輯回歸是深度學(xué)習(xí)的“先導(dǎo)知識(shí)”等等。
現(xiàn)實(shí)世界中的很多場(chǎng)景非常適合用知識(shí)圖譜來(lái)表達(dá)癣丧。 比如一個(gè)社交網(wǎng)絡(luò)圖譜里槽畔,我們既可以有“人”的實(shí)體,也可以包含“公司”實(shí)體胁编。人和人之間的關(guān)系可以是“朋友”厢钧,也可以是“同事”關(guān)系鳞尔。人和公司之間的關(guān)系可以是“現(xiàn)任職”或者“曾任職”的關(guān)系。 類(lèi)似的早直,一個(gè)風(fēng)控知識(shí)圖譜可以包含“電話(huà)”寥假、“公司”的實(shí)體,電話(huà)和電話(huà)之間的關(guān)系可以是“通話(huà)”關(guān)系霞扬,而且每個(gè)公司它也會(huì)有固定的電話(huà)糕韧。
3. 知識(shí)圖譜的表示
知識(shí)圖譜應(yīng)用的前提是已經(jīng)構(gòu)建好了知識(shí)圖譜**,也可以把它認(rèn)為是一個(gè)[]知識(shí)庫(kù)上的匹配可以直接獲得最終的答案喻圃。這種搜索方式跟傳統(tǒng)的搜索引擎是不一樣的萤彩,一個(gè)傳統(tǒng)的搜索引擎它返回的是網(wǎng)頁(yè)、而不是最終的答案,所以就多了一層用戶(hù)自己篩選并過(guò)濾信息的過(guò)程。
在現(xiàn)實(shí)世界中奢浑,實(shí)體和關(guān)系也會(huì)擁有各自的屬性琼掠,比如人可以有“姓名”和“年齡”。當(dāng)一個(gè)知識(shí)圖譜擁有屬性時(shí)窍侧,我們可以用屬性圖(Property Graph)來(lái)表示县踢。下面的圖表示一個(gè)簡(jiǎn)單的屬性圖。李明和李飛是父子關(guān)系伟件,并且李明擁有一個(gè)138開(kāi)頭的電話(huà)號(hào)硼啤,這個(gè)電話(huà)號(hào)開(kāi)通時(shí)間是2018年,其中2018年就可以作為關(guān)系的屬性斧账。類(lèi)似的谴返,李明本人也帶有一些屬性值比如年齡為25歲、職位是總經(jīng)理等咧织。
這種屬性圖的表達(dá)很貼近現(xiàn)實(shí)生活中的場(chǎng)景嗓袱,也可以很好地描述業(yè)務(wù)中所包含的[]邏輯闪萄。除了屬性圖圆裕,知識(shí)圖譜也可以用RDF來(lái)表示伴郁,它是由很多的三元組(Triples)來(lái)組成狐胎。RDF在設(shè)計(jì)上的主要特點(diǎn)是易于發(fā)布和分享數(shù)據(jù)松却,但不支持實(shí)體或關(guān)系擁有屬性,如果非要加上屬性,則在設(shè)計(jì)上需要做一些修改战转。目前來(lái)看,RDF主要還是用于學(xué)術(shù)的場(chǎng)景命雀,在工業(yè)界我們更多的還是采用圖數(shù)據(jù)庫(kù)(比如用來(lái)存儲(chǔ)屬性圖)的方式。感興趣的讀者可以參考RDF的相關(guān)文獻(xiàn),在文本里不多做解釋纳决。
4 知識(shí)抽取
知識(shí)圖譜的構(gòu)建是后續(xù)應(yīng)用的基礎(chǔ)胜榔,而且構(gòu)建的前提是需要把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來(lái)摔癣。對(duì)于垂直領(lǐng)域的知識(shí)圖譜來(lái)說(shuō),它們的數(shù)據(jù)源主要來(lái)自?xún)煞N渠道:一種是業(yè)務(wù)本身的數(shù)據(jù)吃警,這部分?jǐn)?shù)據(jù)通常包含在公司內(nèi)的數(shù)據(jù)庫(kù)表并以結(jié)構(gòu)化的方式存儲(chǔ)墩崩;另一種是網(wǎng)絡(luò)上公開(kāi)余舶、抓取的數(shù)據(jù),這些數(shù)據(jù)通常是以網(wǎng)頁(yè)的形式存在所以是非結(jié)構(gòu)化的數(shù)據(jù)篙耗。
前者一般只需要簡(jiǎn)單預(yù)處理即可以作為后續(xù)AI系統(tǒng)的輸入,但后者一般需要借助于自然語(yǔ)言處理等技術(shù)來(lái)提取出結(jié)構(gòu)化信息搂妻。比如在上面的搜索例子里蒙保,Bill Gates和Malinda Gate的關(guān)系就可以從非結(jié)構(gòu)化數(shù)據(jù)中提煉出來(lái),比如維基百科等數(shù)據(jù)源欲主。
[]信息抽取的難點(diǎn)在于處理非結(jié)構(gòu)化數(shù)據(jù)邓厕。在下面的圖中,我們給出了一個(gè)實(shí)例扁瓢。左邊是一段非結(jié)構(gòu)化的英文文本详恼,右邊是從這些文本中抽取出來(lái)的實(shí)體和關(guān)系。在構(gòu)建類(lèi)似的圖譜過(guò)程當(dāng)中引几,主要涉及以下幾個(gè)方面的自然語(yǔ)言處理技術(shù):
a. 實(shí)體命名識(shí)別(Name Entity Recognition)
b. 關(guān)系抽鹊ノ怼(Relation Extraction)
c. 實(shí)體統(tǒng)一(Entity Resolution)
d. 指代消解(Coreference Resolution)
下面針對(duì)每一項(xiàng)技術(shù)解決的問(wèn)題做簡(jiǎn)單的描述,以至于這些是具體怎么實(shí)現(xiàn)的,不在這里一一展開(kāi)硅堆,感興趣的讀者可以查閱相關(guān)資料屿储,或者學(xué)習(xí)我的課程。
首先是實(shí)體命名識(shí)別渐逃,就是從文本里提取出實(shí)體并對(duì)每個(gè)實(shí)體做分類(lèi)/打標(biāo)簽:比如從上述文本里够掠,我們可以提取出實(shí)體-“NYC”,并標(biāo)記實(shí)體類(lèi)型為 “Location”茄菊;我們也可以從中提取出“Virgil's BBQ”疯潭,并標(biāo)記實(shí)體類(lèi)型為“Restarant”。這種過(guò)程稱(chēng)之為實(shí)體命名識(shí)別面殖,這是一項(xiàng)相對(duì)比較成熟的技術(shù)竖哩,有一些現(xiàn)成的工具可以用來(lái)做這件事情。其次脊僚,我們可以通過(guò)關(guān)系抽取技術(shù)相叁,把實(shí)體間的關(guān)系從文本中提取出來(lái),比如實(shí)體“hotel”和“Hilton property”之間的關(guān)系為“in”辽幌;“hotel”和“Time Square”的關(guān)系為“near”等等增淹。
另外,在實(shí)體命名識(shí)別和關(guān)系抽取過(guò)程中乌企,有兩個(gè)比較棘手的問(wèn)題:一個(gè)是實(shí)體統(tǒng)一虑润,也就是說(shuō)有些實(shí)體寫(xiě)法上不一樣,但其實(shí)是指向同一個(gè)實(shí)體加酵。比如“NYC”和“New York”表面上是不同的字符串拳喻,但其實(shí)指的都是紐約這個(gè)城市,需要合并猪腕。實(shí)體統(tǒng)一不僅可以減少實(shí)體的種類(lèi)舞蔽,也可以降低圖譜的稀疏性(Sparsity);另一個(gè)問(wèn)題是指代消解码撰,也是文本中出現(xiàn)的“it”, “he”, “she”這些詞到底指向哪個(gè)實(shí)體,比如在本文里兩個(gè)被標(biāo)記出來(lái)的“it”都指向“hotel”這個(gè)實(shí)體个盆。
實(shí)體統(tǒng)一和指代消解問(wèn)題相對(duì)于前兩個(gè)問(wèn)題更具有挑戰(zhàn)性脖岛。
5 知識(shí)圖譜的存儲(chǔ)
知識(shí)圖譜主要有兩種存儲(chǔ)方式:一種是基于RDF的存儲(chǔ);另一種是基于圖數(shù)據(jù)庫(kù)的存儲(chǔ)颊亮。**它們之間的區(qū)別如下圖所示柴梆。RDF一個(gè)重要的設(shè)計(jì)原則是數(shù)據(jù)的易發(fā)布以及共享,圖數(shù)據(jù)庫(kù)則把重點(diǎn)放在了高效的圖[]查詢(xún)和搜索上终惑。其次绍在,RDF以三元組的方式來(lái)存儲(chǔ)數(shù)據(jù)而且不包含屬性信息,但圖數(shù)據(jù)庫(kù)一般以屬性圖為基本的表示形式,所以實(shí)體和關(guān)系可以包含屬性偿渡,這就意味著更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場(chǎng)景臼寄。
根據(jù)最新的統(tǒng)計(jì)(2018年上半年),圖數(shù)據(jù)庫(kù)仍然是增長(zhǎng)最快的存儲(chǔ)系統(tǒng)溜宽。相反吉拳,關(guān)系型數(shù)據(jù)庫(kù)的增長(zhǎng)基本保持在一個(gè)穩(wěn)定的水平。同時(shí)适揉,我們也列出了常用的圖數(shù)據(jù)庫(kù)系統(tǒng)以及他們最新使用情況的排名留攒。 其中Neo4j系統(tǒng)目前仍是使用率最高的圖數(shù)據(jù)庫(kù),它擁有活躍的社區(qū)嫉嘀,而且系統(tǒng)本身的[]查詢(xún)效率高炼邀,但唯一的不足就是不支持準(zhǔn)分布式。相反剪侮,OrientDB和JanusGraph(原Titan)支持分布式拭宁,但這些系統(tǒng)相對(duì)較新,社區(qū)不如Neo4j活躍票彪,這也就意味著使用過(guò)程當(dāng)中不可避免地會(huì)遇到一些刺手的問(wèn)題红淡。如果選擇使用RDF的存儲(chǔ)系統(tǒng),Jena或許一個(gè)比較不錯(cuò)的選擇降铸。
6 金融知識(shí)圖譜的搭建
接下來(lái)我們看一個(gè)實(shí)際的具體案例在旱,講解怎么一步步搭建可落地的金融風(fēng)控領(lǐng)域的知識(shí)圖譜系統(tǒng)。 首先需要說(shuō)明的一點(diǎn)是推掸,有可能不少人認(rèn)為搭建一個(gè)知識(shí)圖譜系統(tǒng)的重點(diǎn)在于算法和開(kāi)發(fā)桶蝎。但事實(shí)并不是想象中的那樣,其實(shí)最重要的核心在于對(duì)業(yè)務(wù)的理解以及對(duì)知識(shí)圖譜本身的設(shè)計(jì)谅畅,這就類(lèi)似于對(duì)于一個(gè)業(yè)務(wù)系統(tǒng)登渣,數(shù)據(jù)庫(kù)表的設(shè)計(jì)尤其關(guān)鍵,而且這種設(shè)計(jì)絕對(duì)離不開(kāi)對(duì)業(yè)務(wù)的深入理解以及對(duì)未來(lái)業(yè)務(wù)場(chǎng)景變化的預(yù)估毡泻。 當(dāng)然胜茧,在這里我們先不討論數(shù)據(jù)的重要性。
一個(gè)完整的知識(shí)圖譜的構(gòu)建包含以下幾個(gè)步驟:1. 定義具體的業(yè)務(wù)問(wèn)題 2. 數(shù)據(jù)的收集 & 預(yù)處理 3. 知識(shí)圖譜的設(shè)計(jì) 4. 把數(shù)據(jù)存入知識(shí)圖譜 5. 上層應(yīng)用的開(kāi)發(fā)仇味,以及系統(tǒng)的評(píng)估呻顽。下面我們就按照這個(gè)流程來(lái)講一下每個(gè)步驟所需要做的事情以及需要思考的問(wèn)題。
6.1 定義具體的業(yè)務(wù)問(wèn)題
在P2P網(wǎng)貸環(huán)境下丹墨,最核心的問(wèn)題是風(fēng)控廊遍,也就是怎么去評(píng)估一個(gè)借款人的風(fēng)險(xiǎn)。在線(xiàn)上的環(huán)境下贩挣,欺詐風(fēng)險(xiǎn)尤其為嚴(yán)重喉前,而且很多這種風(fēng)險(xiǎn)隱藏在復(fù)雜的關(guān)系網(wǎng)絡(luò)之中没酣,而且知識(shí)圖譜正好是為這類(lèi)問(wèn)題所設(shè)計(jì)的,所以我們“有可能”期待它能在欺詐卵迂,這個(gè)問(wèn)題上帶來(lái)一些價(jià)值裕便。
在進(jìn)入下一個(gè)話(huà)題的討論之前,要明確的一點(diǎn)是狭握,對(duì)于自身的業(yè)務(wù)問(wèn)題到底需不需要知識(shí)圖譜系統(tǒng)的支持闪金。因?yàn)樵诤芏嗟膶?shí)際場(chǎng)景,即使對(duì)關(guān)系的分析有一定的需求论颅,實(shí)際上也可以利用傳統(tǒng)數(shù)據(jù)庫(kù)來(lái)完成分析的哎垦。所以為了避免使用知識(shí)圖譜而選擇知識(shí)圖譜,以及更好的技術(shù)選型恃疯,以下給出了幾點(diǎn)總結(jié)漏设,供參考。
6.2 數(shù)據(jù)收集 & 預(yù)處理
下一步就是要確定數(shù)據(jù)源以及做必要的數(shù)據(jù)預(yù)處理今妄。針對(duì)于數(shù)據(jù)源郑口,我們需要考慮以下幾點(diǎn):1. 我們已經(jīng)有哪些數(shù)據(jù)? 2. 雖然現(xiàn)在沒(méi)有盾鳞,但有可能拿到哪些數(shù)據(jù)犬性? 3. 其中哪部分?jǐn)?shù)據(jù)可以用來(lái)降低風(fēng)險(xiǎn)? 4. 哪部分?jǐn)?shù)據(jù)可以用來(lái)構(gòu)建知識(shí)圖譜腾仅?在這里需要說(shuō)明的一點(diǎn)是乒裆,并不是所有跟反欺詐相關(guān)的數(shù)據(jù)都必須要進(jìn)入知識(shí)圖譜,對(duì)于這部分的一些決策原則在接下來(lái)的部分會(huì)有比較詳細(xì)的介紹推励。
對(duì)于反欺詐鹤耍,有幾個(gè)數(shù)據(jù)源是我們很容易想得到的,包括用戶(hù)的基本信息验辞、行為數(shù)據(jù)稿黄、運(yùn)營(yíng)商數(shù)據(jù)、網(wǎng)絡(luò)上的公開(kāi)信息等等跌造。假設(shè)我們已經(jīng)有了一個(gè)數(shù)據(jù)源的列表清單杆怕,則下一步就要看哪些數(shù)據(jù)需要進(jìn)一步的處理,比如對(duì)于非結(jié)構(gòu)化數(shù)據(jù)我們或多或少都需要用到跟自然語(yǔ)言處理相關(guān)的技術(shù)壳贪。 用戶(hù)填寫(xiě)的基本信息基本上會(huì)存儲(chǔ)在業(yè)務(wù)表里陵珍,除了個(gè)別字段需要進(jìn)一步處理,很多字段則直接可以用于建某挪辏或者添加到知識(shí)圖譜系統(tǒng)里。對(duì)于行為數(shù)據(jù)來(lái)說(shuō)朝墩,我們則需要通過(guò)一些簡(jiǎn)單的處理醉拓,并從中提取有效的信息比如“用戶(hù)在某個(gè)頁(yè)面停留時(shí)長(zhǎng)”等等伟姐。 對(duì)于網(wǎng)絡(luò)上公開(kāi)的網(wǎng)頁(yè)數(shù)據(jù),則需要一些[]信息抽取相關(guān)的技術(shù)亿卤。
舉個(gè)例子愤兵,對(duì)于用戶(hù)的基本信息,我們很可能需要如下的操作排吴。一方面秆乳,用戶(hù)信息比如姓名、年齡钻哩、學(xué)歷等字段可以直接從結(jié)構(gòu)化數(shù)據(jù)庫(kù)中提取并使用屹堰。但另一方面,對(duì)于填寫(xiě)的公司名來(lái)說(shuō)街氢,我們有可能需要做進(jìn)一步的處理扯键。比如部分用戶(hù)填寫(xiě)“北京貪心科技有限公司”,另外一部分用戶(hù)填寫(xiě)“北京望京貪心科技有限公司”珊肃,其實(shí)指向的都是同一家公司荣刑。所以,這時(shí)候我們需要做公司名的對(duì)齊伦乔,用到的技術(shù)細(xì)節(jié)可以參考前面講到的實(shí)體對(duì)齊技術(shù)厉亏。
6.3 知識(shí)圖譜的設(shè)計(jì)
圖譜的設(shè)計(jì)是一門(mén)藝術(shù),不僅要對(duì)業(yè)務(wù)有很深的理解烈和、也需要對(duì)未來(lái)業(yè)務(wù)可能的變化有一定預(yù)估爱只,從而設(shè)計(jì)出最貼近現(xiàn)狀并且性能高效的系統(tǒng)。在知識(shí)圖譜中斥杜? **
基于這些常見(jiàn)的問(wèn)題虱颗,我們從以往的設(shè)計(jì)經(jīng)驗(yàn)中抽象出了一系列的設(shè)計(jì)原則。這些設(shè)計(jì)原則就類(lèi)似于傳統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)中的范式蔗喂,來(lái)引導(dǎo)相關(guān)人員設(shè)計(jì)出更合理的知識(shí)圖譜系統(tǒng)忘渔,同時(shí)保證系統(tǒng)的高效性。
接下來(lái)缰儿,我們舉幾個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明其中的一些原則畦粮。 首先是,業(yè)務(wù)原則(Business Principle)乖阵,它的含義是 “一切要從業(yè)務(wù)[]邏輯宣赔,而且設(shè)計(jì)時(shí)也要想好未來(lái)業(yè)務(wù)可能的變化”。
舉個(gè)例子瞪浸,可以觀(guān)察一下下面這個(gè)圖譜儒将,并試問(wèn)自己背后的業(yè)務(wù)[]邏輯是什么。通過(guò)一番觀(guān)察对蒲,其實(shí)也很難看出到底業(yè)務(wù)流程是什么樣的钩蚊。做個(gè)簡(jiǎn)單的解釋?zhuān)@里的實(shí)體-“申請(qǐng)”意思就是application贡翘,如果對(duì)這個(gè)領(lǐng)域有所了解,其實(shí)就是進(jìn)件實(shí)體砰逻。在下面的圖中鸣驱,申請(qǐng)和電話(huà)實(shí)體之間的“has_phone”,“parent phone”是什么意思呢蝠咆?
接下來(lái)再看一下下面的圖踊东,跟之前的區(qū)別在于我們把申請(qǐng)人從原有的屬性中抽取出來(lái)并設(shè)置成了一個(gè)單獨(dú)的實(shí)體。在這種情況下刚操,整個(gè)業(yè)務(wù)[]邏輯闸翅。
接下來(lái)再看一個(gè)原則叫做效率原則(Efficiency Principle)。** 效率原則讓知識(shí)圖譜設(shè)計(jì)成小而輕的存儲(chǔ)載體赡茸。**
比如在下面的知識(shí)圖譜上反而影響效率
另外缎脾,從分析原則(Analytics Principle)的角度,我們不需要把跟關(guān)系分析無(wú)關(guān)的實(shí)體放在圖譜當(dāng)中占卧;從冗余原則(Redundancy Principle)的角度遗菠,有些重復(fù)性信息、高頻信息可以放到傳統(tǒng)數(shù)據(jù)庫(kù)當(dāng)中华蜒。
6.4 把數(shù)據(jù)存入知識(shí)圖譜
存儲(chǔ)上我們要面臨存儲(chǔ)系統(tǒng)的選擇辙纬,但由于我們?cè)O(shè)計(jì)的知識(shí)圖譜所承載的信息量。 通常來(lái)講叭喜,對(duì)于10億節(jié)點(diǎn)以下規(guī)模的圖譜來(lái)說(shuō)Neo4j已經(jīng)足夠了贺拣。
6.5 上層應(yīng)用的開(kāi)發(fā)
等我們構(gòu)建好知識(shí)圖譜來(lái)說(shuō),首要任務(wù)就是挖掘關(guān)系網(wǎng)絡(luò)中隱藏的欺詐風(fēng)險(xiǎn)捂蕴。從算法的角度來(lái)講譬涡,有兩種不同的場(chǎng)景:一種是基于規(guī)則的;另一種是基于概率的啥辨。鑒于目前AI技術(shù)的現(xiàn)狀涡匀,基于規(guī)則的方法論還是在垂直領(lǐng)域的應(yīng)用中占據(jù)主導(dǎo)地位,但隨著數(shù)據(jù)量的增加以及方法論的提升溉知,基于概率的模型也將會(huì)逐步帶來(lái)更大的價(jià)值陨瘩。
6.5.1 基于規(guī)則的方法論
首先,我們來(lái)看幾個(gè)基于規(guī)則的應(yīng)用级乍,分別是不一致性驗(yàn)證舌劳、基于規(guī)則的特征提取、基于模式的判斷玫荣。
不一致性驗(yàn)證
為了判斷關(guān)系網(wǎng)絡(luò)中存在的風(fēng)險(xiǎn)甚淡,一種簡(jiǎn)單的方法就是做不一致性驗(yàn)證,也就是通過(guò)一些規(guī)則去找出潛在的矛盾點(diǎn)捅厂。這些規(guī)則是以人為的方式提前定義好的贯卦,所以在設(shè)計(jì)規(guī)則這個(gè)事情上需要一些業(yè)務(wù)的知識(shí)底挫。比如在下面的這個(gè)圖中,李明和李飛兩個(gè)人都注明了同樣的公司電話(huà)脸侥,但實(shí)際上從數(shù)據(jù)庫(kù)中判斷這倆人其實(shí)在不同的公司上班,這就是一個(gè)矛盾點(diǎn)盈厘。 類(lèi)似的規(guī)則其實(shí)可以有很多睁枕,不在這里一一列出。
基于規(guī)則提取特征
我們也可以基于規(guī)則從知識(shí)圖譜中提取一些特征沸手,而且這些特征一般基于深度的搜索比如2度外遇,3度甚至更高維度。比如我們可以問(wèn)一個(gè)這樣的問(wèn)題:“申請(qǐng)人二度關(guān)系里有多少個(gè)實(shí)體觸碰了黑名單契吉?”跳仿,從圖中我們很容觀(guān)察到二度關(guān)系中有兩個(gè)實(shí)體觸碰了黑名單(黑名單由紅色來(lái)標(biāo)記)。等這些特征被提取之后捐晶,一般可以作為風(fēng)險(xiǎn)模型的輸入菲语。在此還是想說(shuō)明一點(diǎn),如果特征并不涉及深度的關(guān)系惑灵,其實(shí)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)則足以滿(mǎn)足需求山上。
基于模式的判斷
這種方法比較適用于找出團(tuán)體欺詐,它的核心在于通過(guò)一些模式來(lái)找到有可能存在風(fēng)險(xiǎn)的團(tuán)體或者子圖(sub-graph)英支,然后對(duì)這部分子圖做進(jìn)一步的分析佩憾。 這種模式有很多種,在這里舉幾個(gè)簡(jiǎn)單的例子干花。 比如在下圖中妄帘,三個(gè)實(shí)體共享了很多其他的信息,我們可以看做是一個(gè)團(tuán)體池凄,并對(duì)其做進(jìn)一步的分析抡驼。
再比如,我們也可以從知識(shí)圖譜中找出強(qiáng)連通圖修赞,并把它標(biāo)記出來(lái)匆背,然后做進(jìn)一步風(fēng)險(xiǎn)分析括眠。強(qiáng)連通圖意味著每一個(gè)節(jié)點(diǎn)都可以通過(guò)某種路徑達(dá)到其他的點(diǎn),也就說(shuō)明這些節(jié)點(diǎn)之間有很強(qiáng)的關(guān)系。
6.5.2 基于概率的方法
除了基于規(guī)則的方法耻涛,也可以使用概率統(tǒng)計(jì)的方法。 比如社區(qū)挖掘嘿辟、標(biāo)簽傳播冒萄、聚類(lèi)等技術(shù)都屬于這個(gè)范疇。 對(duì)于這類(lèi)技術(shù)荔泳,在本文里不做詳細(xì)的講解蕉饼,感興趣的讀者可以參考相關(guān)文獻(xiàn)虐杯。
社區(qū)挖掘算法的目的在于從圖中找出一些社區(qū)。對(duì)于社區(qū)昧港,我們可以有多種定義擎椰,但直觀(guān)上可以理解為社區(qū)內(nèi)節(jié)點(diǎn)之間關(guān)系的密度要明顯大于社區(qū)之間的關(guān)系密度。下面的圖表示社區(qū)發(fā)現(xiàn)之后的結(jié)果创肥,圖中總共標(biāo)記了三個(gè)不同的社區(qū)达舒。一旦我們得到這些社區(qū)之后,就可以做進(jìn)一步的風(fēng)險(xiǎn)分析叹侄。
由于社區(qū)挖掘是基于概率的方法論巩搏,好處在于不需要人為地去定義規(guī)則,特別是對(duì)于一個(gè)龐大的關(guān)系網(wǎng)絡(luò)來(lái)說(shuō)趾代,定義規(guī)則這事情本身是一件很復(fù)雜的事情贯底。
標(biāo)簽傳播算法的核心思想在于節(jié)點(diǎn)之間信息的傳遞。這就類(lèi)似于撒强,跟優(yōu)秀的人在一起自己也會(huì)逐漸地變優(yōu)秀是一個(gè)道理禽捆。因?yàn)橥ㄟ^(guò)這種關(guān)系會(huì)不斷地吸取高質(zhì)量的信息,最后使得自己也會(huì)不知不覺(jué)中變得更加優(yōu)秀飘哨。具體細(xì)節(jié)不在這里做更多解釋睦擂。
相比規(guī)則的方法論,基于概率的方法的缺點(diǎn)在于:需要足夠多的數(shù)據(jù)杖玲。如果數(shù)據(jù)量很少顿仇,而且整個(gè)圖譜比較稀疏(Sparse),基于規(guī)則的方法可以成為我們的首選摆马。尤其是對(duì)于金融領(lǐng)域來(lái)說(shuō)臼闻,數(shù)據(jù)標(biāo)簽會(huì)比較少,這也是為什么基于規(guī)則的方法論還是更普遍地應(yīng)用在金融領(lǐng)域中的主要原因囤采。
6.5.3 基于動(dòng)態(tài)網(wǎng)絡(luò)的分析
以上所有的分析都是基于靜態(tài)的關(guān)系圖譜述呐。所謂的靜態(tài)關(guān)系圖譜,意味著我們不考慮圖譜結(jié)構(gòu)本身隨時(shí)間的變化蕉毯,只是聚焦在當(dāng)前知識(shí)圖譜結(jié)構(gòu)上乓搬。然而,我們也知道圖譜的結(jié)構(gòu)是隨時(shí)間變化的代虾,而且這些變化本身也可以跟風(fēng)險(xiǎn)有所關(guān)聯(lián)进肯。
在下面的圖中,我們給出了一個(gè)知識(shí)圖譜T時(shí)刻和T+1時(shí)刻的結(jié)構(gòu)棉磨,我們很容易看出在這兩個(gè)時(shí)刻中間江掩,圖譜結(jié)構(gòu)(或者部分結(jié)構(gòu))發(fā)生了很明顯的變化,這其實(shí)暗示著潛在的風(fēng)險(xiǎn)。那怎么去判斷這些結(jié)構(gòu)上的變化呢环形? 感興趣的讀者可以查閱跟“dynamic network mining”相關(guān)的文獻(xiàn)策泣。
7 知識(shí)圖譜在其他行業(yè)中的應(yīng)用
除了金融領(lǐng)域,知識(shí)圖譜可發(fā)揮價(jià)值的地方抬吟。 在這里簡(jiǎn)單舉幾個(gè)垂直行業(yè)中的應(yīng)用萨咕。
比如對(duì)于教育行業(yè),我們經(jīng)常談?wù)搨€(gè)性化教育火本、因材施教的理念任洞。其核心在于理解學(xué)生當(dāng)前的知識(shí)體系,而且這種知識(shí)體系依賴(lài)于我們所獲取到的數(shù)據(jù)比如交互數(shù)據(jù)发侵、評(píng)測(cè)數(shù)據(jù)、互動(dòng)數(shù)據(jù)等等妆偏。為了分析學(xué)習(xí)路徑以及知識(shí)結(jié)構(gòu)刃鳄,我們則需要針對(duì)于一個(gè)領(lǐng)域的概念[]神經(jīng)網(wǎng)絡(luò)有所理解等等。所有對(duì)學(xué)生的評(píng)測(cè)钱骂、互動(dòng)分析都離不開(kāi)概念圖譜這個(gè)底層的數(shù)據(jù)叔锐。
在證券領(lǐng)域,我們經(jīng)常會(huì)關(guān)心比如“一個(gè)事件發(fā)生了见秽,對(duì)哪些公司產(chǎn)生什么樣的影響愉烙?” 比如有一個(gè)負(fù)面消息是關(guān)于公司1的高管,而且我們知道公司1和公司2有種很密切的合作關(guān)系解取,公司2有個(gè)主營(yíng)產(chǎn)品是由公司3提供的原料基礎(chǔ)上做出來(lái)的步责。
其實(shí)有了這樣的一個(gè)知識(shí)圖譜中做進(jìn)一步推理以及計(jì)算。
8 實(shí)踐上的幾點(diǎn)建議
首先禀苦,知識(shí)圖譜的方式來(lái)解決蔓肯。
深度學(xué)習(xí),概率統(tǒng)計(jì)很難在實(shí)際的垂直應(yīng)用中落地振乏。其實(shí)目前最有效的方式還是基于一些規(guī)則的方法論蔗包,除非我們有非常龐大的數(shù)據(jù)集。
最后慧邮,還是要強(qiáng)調(diào)一點(diǎn)调限,知識(shí)圖譜工程本身還是業(yè)務(wù)為重心,以數(shù)據(jù)為中心误澳。不要低估業(yè)務(wù)和數(shù)據(jù)的重要性耻矮。**
9 結(jié)語(yǔ)
知識(shí)圖譜技術(shù)會(huì)普及到各個(gè)領(lǐng)域當(dāng)中。
很多細(xì)節(jié)性的內(nèi)容很難在一篇文章里面面俱到忆谓、如果想對(duì)知識(shí)圖譜系統(tǒng)淘钟,并把每一個(gè)細(xì)節(jié)中遇到的問(wèn)題以及坑給大家講解。
對(duì)文章內(nèi)容有任何疑問(wèn)的讀者可添加本文作者微信(liwenzhe595675)溝通交流。