知識圖譜在大數(shù)據(jù)中的應(yīng)用

隨著移動互聯(lián)網(wǎng)的發(fā)展诫舅,萬物互聯(lián)成為了可能姆吭,這種互聯(lián)所產(chǎn)生的數(shù)據(jù)也在爆發(fā)式地增長窟社,而這些數(shù)據(jù)恰好可以作為分析關(guān)系的有效原料逞盆。如果說以往的智能分析專注在每一個個體上檀蹋,在移動互聯(lián)網(wǎng)時代則除了個體,這種個體之間的關(guān)系也必然成為我們需要深入分析的很重要一部分云芦。在一項(xiàng)任務(wù)中俯逾,只要有關(guān)系分析的需求,知識圖譜就“有可能”派的上用場舅逸。

說到關(guān)系的重要性桌肴,我們先來看一個有意思的理論,六度分隔理論(英語:Six Degrees of Separation)琉历,相信大家也都聽說過坠七,這個理論認(rèn)為世界上任何互不相識的兩人,只需要很少的中間人就能夠建立起聯(lián)系旗笔。

哈佛大學(xué)心理學(xué)教授斯坦利·米爾格拉姆于1967年根據(jù)這個概念做過一次連鎖信實(shí)驗(yàn)彪置,嘗試證明平均只需要6步就可以聯(lián)系任何兩個互不相識的美國人。這種現(xiàn)象换团,并不是說任何人與人之間的聯(lián)系都必須要經(jīng)過6步才會達(dá)到悉稠,而是表達(dá)了這樣一個重要的概念:在任何兩位素不相識的人之間,通過一定的聯(lián)系方式艘包,總能夠產(chǎn)生必然聯(lián)系或關(guān)系的猛。知識圖譜為我們打開了一個全新的認(rèn)識事物的思維方式。

知識圖譜是什么

知識圖譜用一句話說就是用圖的形式去存儲和表示知識想虎。知識圖譜本質(zhì)上是語義網(wǎng)絡(luò)卦尊,是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成舌厨。在知識圖譜里岂却,每個節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。

知識圖譜是關(guān)系的最有效的表示方式躏哩,它用圖的形式描繪了我們的現(xiàn)實(shí)世界署浩。下面我用知識圖譜表示了日本著名動畫導(dǎo)演宮崎駿和他的作品以及他的作品和演員之間的關(guān)系。從圖中可以看出扫尺,宮崎駿導(dǎo)演了包括《龍貓》在內(nèi)的多部電影筋栋,而電影《龍貓》的演員有高木均等。這樣千千萬萬個導(dǎo)演正驻,演員和電影聯(lián)系在一起弊攘,就形成了一個電影的知識圖譜。


該圖是用Neo4j展示的

知識圖譜的由來

知識圖譜是由Google公司在2012年提出來的一個新的概念姑曙。知識圖譜襟交,即一種特殊的語義網(wǎng)絡(luò),它利用實(shí)體伤靠、關(guān)系捣域、屬性這些基本單位,以符號的形式描述了物理世界中不同的概念和概念之間的相互關(guān)系醋界。

知識圖譜旨在通過建立數(shù)據(jù)之間的關(guān)聯(lián)鏈接竟宋,將碎片化的數(shù)據(jù)有機(jī)的組織起來提完, 讓數(shù)據(jù)更加容易被人和機(jī)器理解和處理形纺,并為搜索、挖掘徒欣、分析等提供便利逐样,為人工智能的實(shí)現(xiàn)提供知識庫基礎(chǔ)。

Google為了提升搜索引擎返回的答案質(zhì)量打肝,推出了知識圖譜概念脂新。有知識圖譜的輔助,搜索引擎能夠根據(jù)用戶查詢背后的語義信息粗梭,返回更準(zhǔn)確争便、更結(jié)構(gòu)化的信息。Google知識圖譜的宣傳語“things not strings”道出了知識圖譜的精髓:不要無意義的字符串断医,需要文本背后的對象或事物滞乙。

以羅納爾多為例,當(dāng)用戶以“羅納爾多”作為關(guān)鍵詞進(jìn)行搜索鉴嗤,沒有知識圖譜的情況下斩启,我們只能得到包含這個關(guān)鍵詞的網(wǎng)頁,然后不得不點(diǎn)擊進(jìn)入相關(guān)網(wǎng)頁查找需要的信息醉锅。有了知識圖譜兔簇,搜索引擎在返回相關(guān)網(wǎng)頁的同時,還會返回一個包含查詢對象基本信息的”知識卡片“,如果我們需要的信息就在卡片中垄琐,就無需進(jìn)一步操作了边酒。也就是說,知識圖譜能夠提升查詢效率狸窘,讓我們獲得更精準(zhǔn)甚纲、更結(jié)構(gòu)化的信息。


當(dāng)然朦前,這只是知識圖譜在搜索引擎上的一部分應(yīng)用場景介杆。舉這個例子也是為了表明,知識圖譜這樣一種概念或者技術(shù)韭寸,它的誕生是符合計算機(jī)科學(xué)春哨、互聯(lián)網(wǎng)發(fā)展潮流的。

知識圖譜的存儲

知識圖譜主要有兩種存儲方式:一種是基于RDF的存儲恩伺;另一種是基于圖數(shù)據(jù)庫的存儲赴背。它們之間的區(qū)別如下圖所示。RDF一個重要的設(shè)計原則是數(shù)據(jù)的易發(fā)布以及共享晶渠,圖數(shù)據(jù)庫則把重點(diǎn)放在了高效的圖查詢和搜索上凰荚。其次,RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息褒脯,但圖數(shù)據(jù)庫一般以屬性圖為基本的表示形式便瑟,所以實(shí)體和關(guān)系可以包含屬性,這就意味著更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場景番川。


根據(jù)最新的統(tǒng)計(2018年上半年)到涂,圖數(shù)據(jù)庫仍然是增長最快的存儲系統(tǒng)。相反颁督,關(guān)系型數(shù)據(jù)庫的增長基本保持在一個穩(wěn)定的水平践啄。同時,我們也列出了常用的圖數(shù)據(jù)庫系統(tǒng)以及他們最新使用情況的排名沉御。 其中Neo4j系統(tǒng)目前仍是使用率最高的圖數(shù)據(jù)庫屿讽,它擁有活躍的社區(qū),而且系統(tǒng)本身的查詢效率高吠裆,但唯一的不足就是不支持準(zhǔn)分布式伐谈。相反,OrientDB和JanusGraph(原Titan)支持分布式硫痰,但這些系統(tǒng)相對較新衩婚,社區(qū)不如Neo4j活躍,這也就意味著使用過程當(dāng)中不可避免地會遇到一些刺手的問題效斑。如果選擇使用RDF的存儲系統(tǒng)非春,Jena或許一個比較不錯的選擇。


知識圖譜的應(yīng)用

從一開始的Google搜索,到現(xiàn)在的聊天機(jī)器人奇昙、大數(shù)據(jù)風(fēng)控护侮、證券投資、智能醫(yī)療储耐、自適應(yīng)教育羊初、推薦系統(tǒng),無一不跟知識圖譜相關(guān)什湘,它在技術(shù)領(lǐng)域的熱度也在逐年上升长赞。下面我們簡單介紹下幾個典型的應(yīng)用。

反欺詐

知識圖譜在反欺詐作用非常大闽撤,反欺詐最終目的是識別壞人得哆,把壞人跟其他的未知人群的關(guān)系找出來,從而認(rèn)定其他未知人群是否是壞人哟旗,這個跟信用模型是很不一樣的贩据,如果原來只能看一層的關(guān)系,現(xiàn)在可以看兩層三層四層闸餐,效果就完全不一樣了饱亮,很多團(tuán)伙、中介實(shí)際上是要看很大規(guī)模的一張網(wǎng)舍沙,看很多層關(guān)系近上,關(guān)系之間還有強(qiáng)關(guān)系、弱關(guān)系场勤。

下圖是我們將知識圖譜應(yīng)用于反欺詐中的示例圖:



目前將用戶信息戈锻,設(shè)備信息及社交關(guān)系構(gòu)建了一個異構(gòu)網(wǎng)絡(luò)歼跟,并將該異構(gòu)網(wǎng)絡(luò)圖應(yīng)用在用戶關(guān)聯(lián)分析及反欺詐檢測場景和媳。根據(jù)數(shù)據(jù)圖我們可以對用戶做以下調(diào)查分析,來確定特定的用戶是不是欺詐用戶或者是不是與欺詐用戶有關(guān)聯(lián):

  • 通過特定規(guī)則篩選可疑用戶
  • 查看與可疑用戶有特定關(guān)聯(lián)的用戶
  • 查看與可疑用戶有特定關(guān)聯(lián)的所有用戶組成的子網(wǎng)的網(wǎng)絡(luò)特征及用戶特征
  • 分析特定用戶可以通過什么樣的關(guān)聯(lián)關(guān)系關(guān)聯(lián)在一起
  • 可分析多層關(guān)聯(lián)關(guān)系的數(shù)據(jù)

通過該方式哈街,我們大大減少了調(diào)查過程中的工作量留瞳,整體提升效率。

智能搜索

智能搜索的功能類似于知識圖譜在Google, Baidu上的應(yīng)用骚秦。也就是說她倘,對于每一個搜索的關(guān)鍵詞,我們可以通過知識圖譜來返回更豐富作箍,更全面的信息硬梁。

推薦引擎

通過知識圖譜,查詢某節(jié)點(diǎn)的消費(fèi)情況可為其推薦關(guān)聯(lián)度高的可能消費(fèi)的商品胞得。

精準(zhǔn)營銷

一個聰明的企業(yè)可以比它的競爭對手以更為有效的方式去挖掘其潛在的客戶荧止。在互聯(lián)網(wǎng)時代,營銷手段多種多樣,但不管有多少種方式跃巡,都離不開一個核心——分析用戶和理解用戶危号。知識圖譜可以結(jié)合多種數(shù)據(jù)源去分析實(shí)體之間的關(guān)系,從而對用戶的行為有更好的理解素邪。比如一個公司的市場經(jīng)理用知識圖譜來分析用戶之間的關(guān)系外莲,去發(fā)現(xiàn)一個組織的共同喜好,從而可以有針對性的對某一類人群制定營銷策略兔朦。

總結(jié)

本文主要介紹了下知識圖譜相關(guān)概念和在大數(shù)據(jù)分析中的一些應(yīng)用偷线。知識圖譜為互聯(lián)網(wǎng)上大數(shù)據(jù)表達(dá)、組織沽甥、管理以及利用提供了一種更為有效的方式淋昭,使得網(wǎng)絡(luò)的智能化水平更高,更加接近于人類的認(rèn)知思維安接,塑造出了反欺詐翔忽、智能營銷、商品推薦等應(yīng)用場景盏檐,給我們提供了更多思考和分析問題的方法歇式。

推薦閱讀:
強(qiáng)烈推薦極客時間王爭老師的《數(shù)據(jù)結(jié)構(gòu)與算法之美》課程,目前已有8萬多人購買胡野,應(yīng)該是極客時間購買人數(shù)最多的課程材失,有需要的可以掃下面二維碼購買。質(zhì)量絕對優(yōu)質(zhì)硫豆,反正我讀了受益匪淺龙巨。比如講Redis的有序集合底層數(shù)據(jù)結(jié)構(gòu)為什么用跳表時,老師會從二叉搜索樹熊响,B+樹開始講起旨别,讓你同時了解了這三種數(shù)據(jù)結(jié)構(gòu)的異同和應(yīng)用場景。

image
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末汗茄,一起剝皮案震驚了整個濱河市秸弛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌洪碳,老刑警劉巖递览,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異瞳腌,居然都是意外死亡绞铃,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進(jìn)店門嫂侍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來儿捧,“玉大人冷离,你說我怎么就攤上這事〈棵” “怎么了西剥?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長亿汞。 經(jīng)常有香客問我瞭空,道長,這世上最難降的妖魔是什么疗我? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任咆畏,我火速辦了婚禮,結(jié)果婚禮上吴裤,老公的妹妹穿的比我還像新娘旧找。我一直安慰自己,他們只是感情好麦牺,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布钮蛛。 她就那樣靜靜地躺著,像睡著了一般剖膳。 火紅的嫁衣襯著肌膚如雪魏颓。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天吱晒,我揣著相機(jī)與錄音甸饱,去河邊找鬼。 笑死仑濒,一個胖子當(dāng)著我的面吹牛叹话,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播墩瞳,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼驼壶,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了矗烛?” 一聲冷哼從身側(cè)響起财边,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤查库,失蹤者是張志新(化名)和其女友劉穎摄欲,沒想到半個月后梳玫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體虚茶,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡怜奖,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年吉捶,在試婚紗的時候發(fā)現(xiàn)自己被綠了葛闷。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片霹陡。...
    茶點(diǎn)故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡和蚪,死狀恐怖止状,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情攒霹,我是刑警寧澤怯疤,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站催束,受9級特大地震影響集峦,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜抠刺,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一塔淤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧速妖,春花似錦高蜂、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至锦秒,卻和暖如春烘跺,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背脂崔。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工滤淳, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人砌左。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓脖咐,卻偏偏與公主長得像,于是被迫代替她去往敵國和親汇歹。 傳聞我的和親對象是個殘疾皇子屁擅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容