隨著移動互聯(lián)網(wǎng)的發(fā)展诫舅,萬物互聯(lián)成為了可能姆吭,這種互聯(lián)所產(chǎn)生的數(shù)據(jù)也在爆發(fā)式地增長窟社,而這些數(shù)據(jù)恰好可以作為分析關(guān)系的有效原料逞盆。如果說以往的智能分析專注在每一個個體上檀蹋,在移動互聯(lián)網(wǎng)時代則除了個體,這種個體之間的關(guān)系也必然成為我們需要深入分析的很重要一部分云芦。在一項(xiàng)任務(wù)中俯逾,只要有關(guān)系分析的需求,知識圖譜就“有可能”派的上用場舅逸。
說到關(guān)系的重要性桌肴,我們先來看一個有意思的理論,六度分隔理論(英語:Six Degrees of Separation)琉历,相信大家也都聽說過坠七,這個理論認(rèn)為世界上任何互不相識的兩人,只需要很少的中間人就能夠建立起聯(lián)系旗笔。
哈佛大學(xué)心理學(xué)教授斯坦利·米爾格拉姆于1967年根據(jù)這個概念做過一次連鎖信實(shí)驗(yàn)彪置,嘗試證明平均只需要6步就可以聯(lián)系任何兩個互不相識的美國人。這種現(xiàn)象换团,并不是說任何人與人之間的聯(lián)系都必須要經(jīng)過6步才會達(dá)到悉稠,而是表達(dá)了這樣一個重要的概念:在任何兩位素不相識的人之間,通過一定的聯(lián)系方式艘包,總能夠產(chǎn)生必然聯(lián)系或關(guān)系的猛。知識圖譜為我們打開了一個全新的認(rèn)識事物的思維方式。
知識圖譜是什么
知識圖譜用一句話說就是用圖的形式去存儲和表示知識想虎。知識圖譜本質(zhì)上是語義網(wǎng)絡(luò)卦尊,是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成舌厨。在知識圖譜里岂却,每個節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。
知識圖譜是關(guān)系的最有效的表示方式躏哩,它用圖的形式描繪了我們的現(xiàn)實(shí)世界署浩。下面我用知識圖譜表示了日本著名動畫導(dǎo)演宮崎駿和他的作品以及他的作品和演員之間的關(guān)系。從圖中可以看出扫尺,宮崎駿導(dǎo)演了包括《龍貓》在內(nèi)的多部電影筋栋,而電影《龍貓》的演員有高木均等。這樣千千萬萬個導(dǎo)演正驻,演員和電影聯(lián)系在一起弊攘,就形成了一個電影的知識圖譜。
該圖是用Neo4j展示的
知識圖譜的由來
知識圖譜是由Google公司在2012年提出來的一個新的概念姑曙。知識圖譜襟交,即一種特殊的語義網(wǎng)絡(luò),它利用實(shí)體伤靠、關(guān)系捣域、屬性這些基本單位,以符號的形式描述了物理世界中不同的概念和概念之間的相互關(guān)系醋界。
知識圖譜旨在通過建立數(shù)據(jù)之間的關(guān)聯(lián)鏈接竟宋,將碎片化的數(shù)據(jù)有機(jī)的組織起來提完, 讓數(shù)據(jù)更加容易被人和機(jī)器理解和處理形纺,并為搜索、挖掘徒欣、分析等提供便利逐样,為人工智能的實(shí)現(xiàn)提供知識庫基礎(chǔ)。
Google為了提升搜索引擎返回的答案質(zhì)量打肝,推出了知識圖譜概念脂新。有知識圖譜的輔助,搜索引擎能夠根據(jù)用戶查詢背后的語義信息粗梭,返回更準(zhǔn)確争便、更結(jié)構(gòu)化的信息。Google知識圖譜的宣傳語“things not strings”道出了知識圖譜的精髓:不要無意義的字符串断医,需要文本背后的對象或事物滞乙。
以羅納爾多為例,當(dāng)用戶以“羅納爾多”作為關(guān)鍵詞進(jìn)行搜索鉴嗤,沒有知識圖譜的情況下斩启,我們只能得到包含這個關(guān)鍵詞的網(wǎng)頁,然后不得不點(diǎn)擊進(jìn)入相關(guān)網(wǎng)頁查找需要的信息醉锅。有了知識圖譜兔簇,搜索引擎在返回相關(guān)網(wǎng)頁的同時,還會返回一個包含查詢對象基本信息的”知識卡片“,如果我們需要的信息就在卡片中垄琐,就無需進(jìn)一步操作了边酒。也就是說,知識圖譜能夠提升查詢效率狸窘,讓我們獲得更精準(zhǔn)甚纲、更結(jié)構(gòu)化的信息。
當(dāng)然朦前,這只是知識圖譜在搜索引擎上的一部分應(yīng)用場景介杆。舉這個例子也是為了表明,知識圖譜這樣一種概念或者技術(shù)韭寸,它的誕生是符合計算機(jī)科學(xué)春哨、互聯(lián)網(wǎng)發(fā)展潮流的。
知識圖譜的存儲
知識圖譜主要有兩種存儲方式:一種是基于RDF的存儲恩伺;另一種是基于圖數(shù)據(jù)庫的存儲赴背。它們之間的區(qū)別如下圖所示。RDF一個重要的設(shè)計原則是數(shù)據(jù)的易發(fā)布以及共享晶渠,圖數(shù)據(jù)庫則把重點(diǎn)放在了高效的圖查詢和搜索上凰荚。其次,RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息褒脯,但圖數(shù)據(jù)庫一般以屬性圖為基本的表示形式便瑟,所以實(shí)體和關(guān)系可以包含屬性,這就意味著更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場景番川。
根據(jù)最新的統(tǒng)計(2018年上半年)到涂,圖數(shù)據(jù)庫仍然是增長最快的存儲系統(tǒng)。相反颁督,關(guān)系型數(shù)據(jù)庫的增長基本保持在一個穩(wěn)定的水平践啄。同時,我們也列出了常用的圖數(shù)據(jù)庫系統(tǒng)以及他們最新使用情況的排名沉御。 其中Neo4j系統(tǒng)目前仍是使用率最高的圖數(shù)據(jù)庫屿讽,它擁有活躍的社區(qū),而且系統(tǒng)本身的查詢效率高吠裆,但唯一的不足就是不支持準(zhǔn)分布式伐谈。相反,OrientDB和JanusGraph(原Titan)支持分布式硫痰,但這些系統(tǒng)相對較新衩婚,社區(qū)不如Neo4j活躍,這也就意味著使用過程當(dāng)中不可避免地會遇到一些刺手的問題效斑。如果選擇使用RDF的存儲系統(tǒng)非春,Jena或許一個比較不錯的選擇。
知識圖譜的應(yīng)用
從一開始的Google搜索,到現(xiàn)在的聊天機(jī)器人奇昙、大數(shù)據(jù)風(fēng)控护侮、證券投資、智能醫(yī)療储耐、自適應(yīng)教育羊初、推薦系統(tǒng),無一不跟知識圖譜相關(guān)什湘,它在技術(shù)領(lǐng)域的熱度也在逐年上升长赞。下面我們簡單介紹下幾個典型的應(yīng)用。
反欺詐
知識圖譜在反欺詐作用非常大闽撤,反欺詐最終目的是識別壞人得哆,把壞人跟其他的未知人群的關(guān)系找出來,從而認(rèn)定其他未知人群是否是壞人哟旗,這個跟信用模型是很不一樣的贩据,如果原來只能看一層的關(guān)系,現(xiàn)在可以看兩層三層四層闸餐,效果就完全不一樣了饱亮,很多團(tuán)伙、中介實(shí)際上是要看很大規(guī)模的一張網(wǎng)舍沙,看很多層關(guān)系近上,關(guān)系之間還有強(qiáng)關(guān)系、弱關(guān)系场勤。
下圖是我們將知識圖譜應(yīng)用于反欺詐中的示例圖:
目前將用戶信息戈锻,設(shè)備信息及社交關(guān)系構(gòu)建了一個異構(gòu)網(wǎng)絡(luò)歼跟,并將該異構(gòu)網(wǎng)絡(luò)圖應(yīng)用在用戶關(guān)聯(lián)分析及反欺詐檢測場景和媳。根據(jù)數(shù)據(jù)圖我們可以對用戶做以下調(diào)查分析,來確定特定的用戶是不是欺詐用戶或者是不是與欺詐用戶有關(guān)聯(lián):
- 通過特定規(guī)則篩選可疑用戶
- 查看與可疑用戶有特定關(guān)聯(lián)的用戶
- 查看與可疑用戶有特定關(guān)聯(lián)的所有用戶組成的子網(wǎng)的網(wǎng)絡(luò)特征及用戶特征
- 分析特定用戶可以通過什么樣的關(guān)聯(lián)關(guān)系關(guān)聯(lián)在一起
- 可分析多層關(guān)聯(lián)關(guān)系的數(shù)據(jù)
通過該方式哈街,我們大大減少了調(diào)查過程中的工作量留瞳,整體提升效率。
智能搜索
智能搜索的功能類似于知識圖譜在Google, Baidu上的應(yīng)用骚秦。也就是說她倘,對于每一個搜索的關(guān)鍵詞,我們可以通過知識圖譜來返回更豐富作箍,更全面的信息硬梁。
推薦引擎
通過知識圖譜,查詢某節(jié)點(diǎn)的消費(fèi)情況可為其推薦關(guān)聯(lián)度高的可能消費(fèi)的商品胞得。
精準(zhǔn)營銷
一個聰明的企業(yè)可以比它的競爭對手以更為有效的方式去挖掘其潛在的客戶荧止。在互聯(lián)網(wǎng)時代,營銷手段多種多樣,但不管有多少種方式跃巡,都離不開一個核心——分析用戶和理解用戶危号。知識圖譜可以結(jié)合多種數(shù)據(jù)源去分析實(shí)體之間的關(guān)系,從而對用戶的行為有更好的理解素邪。比如一個公司的市場經(jīng)理用知識圖譜來分析用戶之間的關(guān)系外莲,去發(fā)現(xiàn)一個組織的共同喜好,從而可以有針對性的對某一類人群制定營銷策略兔朦。
總結(jié)
本文主要介紹了下知識圖譜相關(guān)概念和在大數(shù)據(jù)分析中的一些應(yīng)用偷线。知識圖譜為互聯(lián)網(wǎng)上大數(shù)據(jù)表達(dá)、組織沽甥、管理以及利用提供了一種更為有效的方式淋昭,使得網(wǎng)絡(luò)的智能化水平更高,更加接近于人類的認(rèn)知思維安接,塑造出了反欺詐翔忽、智能營銷、商品推薦等應(yīng)用場景盏檐,給我們提供了更多思考和分析問題的方法歇式。
推薦閱讀:
強(qiáng)烈推薦極客時間王爭老師的《數(shù)據(jù)結(jié)構(gòu)與算法之美》課程,目前已有8萬多人購買胡野,應(yīng)該是極客時間購買人數(shù)最多的課程材失,有需要的可以掃下面二維碼購買。質(zhì)量絕對優(yōu)質(zhì)硫豆,反正我讀了受益匪淺龙巨。比如講Redis的有序集合底層數(shù)據(jù)結(jié)構(gòu)為什么用跳表時,老師會從二叉搜索樹熊响,B+樹開始講起旨别,讓你同時了解了這三種數(shù)據(jù)結(jié)構(gòu)的異同和應(yīng)用場景。