JanusGraph---TinkerPop’s Hadoop-Gremlin

TinkerPop’s Hadoop-Gremlin
JanusGraph with TinkerPop’s Hadoop-Gremlin

  • 利用Hadoop-Gremlin批量導(dǎo)入json數(shù)據(jù)到JanusGraph中召夹,并且比較IncrementalBulkLoader和OneTimeBulkLoader的不同递览。

版本配置

  • 存儲(chǔ)后端:hbase(本地)唬党。索引后端:無波势。
  • janusgraph:janusgraph-0.2.0-hadoop2版本

前期準(zhǔn)備

Schema定義

  • Schema定義寫在文件test-janusgraph-schema.groovy中
def defineGratefulDeadSchema(janusGraph) {
    m = janusGraph.openManagement()
    //人信息節(jié)點(diǎn)label
    person = m.makeVertexLabel("person").make()
    //properties
    //使用IncrementBulkLoader導(dǎo)入時(shí)弦蹂,去掉下面注釋
    //blid  = m.makePropertyKey("bulkLoader.vertex.id").dataType(Long.class).make()
    birth = m.makePropertyKey("birth").dataType(Date.class).make()
    age = m.makePropertyKey("age").dataType(Integer.class).make()
    name = m.makePropertyKey("name").dataType(String.class).make()
   //index
    index = m.buildIndex("nameCompositeIndex", Vertex.class).addKey(name).unique().buildCompositeIndex()
    //使用IncrementBulkLoader導(dǎo)入時(shí)敛腌,去掉下面注釋
    //bidIndex = m.buildIndex("byBulkLoaderVertexId", Vertex.class).addKey(blid).indexOnly(person).buildCompositeIndex()
    m.commit()
}

滿足Schema格式的json文件

{"id":4136,"label":"person","properties":{"name":[{"id":"16t-36w-5j9","value":"lisi"}],"birth":[{"id":"1z9-36w-3yd","value":1509443638951}],"age":[{"id":"101-26w-5qt","value":4136}]}}
{"id":4702,"label":"person","properties":{"name":[{"id":"171-38o-5j9","value":"fu1 "}],"birth":[{"id":"1zh-38o-3yd","value":1509043638952}],"age":[{"id":"1l9-38o-4qt","value":1}]}}
{"id":4700,"label":"person","properties":{"name":[{"id":"171-38o-5j9","value":"fu2 "}],"birth":[{"id":"1zh-38o-3yd","value":1509043638976}],"age":[{"id":"1l9-38o-4qt","value":1}]}}

目標(biāo)圖的配置

  • 下面只列了定制的配置,默認(rèn)配置沒顯示娄昆。
  • 配置信息在janusgraph-test.properties文件中
storage.backend=hbase
schema.default = none
# true:在批量導(dǎo)入或api添加時(shí)佩微,會(huì)進(jìn)行一致性校驗(yàn),否則不會(huì)進(jìn)行
# 本例子中的一致性:在name屬性上建立了唯一索引萌焰,所以name不允許有重復(fù)值哺眯。
storage.batch-loading=true

HadoopGraph圖的配置

  • 保存在hadoop-graphson.properties文件中
  • 其中inputLocation指定了需要導(dǎo)入的json文件路徑。(相對于janusgraph-0.2.0-hadoop2的路徑)
gremlin.graph=org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph
gremlin.hadoop.graphInputFormat=org.apache.tinkerpop.gremlin.hadoop.structure.io.graphson.GraphSONInputFormat
gremlin.hadoop.graphOutputFormat=org.apache.hadoop.mapreduce.lib.output.NullOutputFormat
gremlin.hadoop.inputLocation=./data/zl/test-modern.json
gremlin.hadoop.outputLocation=output
gremlin.hadoop.jarsInDistributedCache=true

#####################################
# GiraphGraphComputer Configuration #
#####################################
giraph.minWorkers=2
giraph.maxWorkers=2
giraph.useOutOfCoreGraph=true
giraph.useOutOfCoreMessages=true
mapred.map.child.java.opts=-Xmx1024m
mapred.reduce.child.java.opts=-Xmx1024m
giraph.numInputThreads=4
giraph.numComputeThreads=4
giraph.maxMessagesInMemory=100000

####################################
# SparkGraphComputer Configuration #
####################################
spark.master=local[*]
spark.executor.memory=1g
spark.serializer=org.apache.spark.serializer.KryoSerializer

文件位置

  • 我將上述文件都放在了D:\soft\janusgraph-0.2.0-hadoop2\data\zl目錄下扒俯,即janusgraph安裝目錄的自己創(chuàng)建的一個(gè)zl文件夾奶卓。


    image.png

開始批量導(dǎo)入

  • 先啟動(dòng)hbase一疯。
  • 以下操作都是在D:\soft\janusgraph-0.2.0-hadoop2目錄下進(jìn)行。
  • 我使用的是Git Bash命令終端夺姑。

使用OneTimeBulkLoader批量導(dǎo)入

  • 1.打開gremlin
./bin/gremlin.bat
  • 2.創(chuàng)建shcema墩邀,可以將下面整個(gè)粘貼到命令行中。會(huì)等待一些時(shí)間盏浙,執(zhí)行完成后眉睹,在hbase中會(huì)看到多了janusgraph表,并且查詢到里面有了數(shù)據(jù)(是配置以及schema數(shù)據(jù))
:load data/zl/test-janusgraph-schema.groovy
graph = JanusGraphFactory.open('data/zl/janusgraph-test.properties')
defineGratefulDeadSchema(graph)
  • 3.使用OneTimeBulkLoader批量導(dǎo)入废膘,導(dǎo)入完成后hbase中又會(huì)多出3行數(shù)據(jù)(json文件中數(shù)據(jù)已經(jīng)被到入成功了)
graph = GraphFactory.open('data/zl/hadoop-graphson.properties')
blvp = BulkLoaderVertexProgram.build().bulkLoader(OneTimeBulkLoader).writeGraph('data/zl/janusgraph-test.properties').create(graph)
graph.compute(SparkGraphComputer).program(blvp).submit().get()
  • 4.查看導(dǎo)入的節(jié)點(diǎn)數(shù)據(jù)
graph = JanusGraphFactory.open('data/zl/janusgraph-test.properties')
g = graph.traversal()
g.V().valueMap()

查到的數(shù)據(jù)類似下面結(jié)構(gòu)

==>[name:[lisi],birth:[Tue Oct 31 17:53:58 CST 2017],age:[10000]]
==>[name:[zhouliang],birth:[Tue Oct 31 17:53:58 CST 2017],age:[10000]]
  • 5.重復(fù)執(zhí)行第4步竹海,都會(huì)導(dǎo)入成功,你會(huì)發(fā)現(xiàn)最后數(shù)據(jù)重復(fù)了殖卑。
  • 6.此時(shí)修改janusgraph-test.properties中的storage.batch-loading=false站削,再次執(zhí)行第4步坊萝,就會(huì)報(bào)錯(cuò)孵稽,提示有唯一性約束沖突,類似下面提示信息
org.janusgraph.core.SchemaViolationException: Adding this property for key [name] and value [lisi] violates a uniqueness constraint [nameCompositeIndex]

使用IncrementBulkLoader批量導(dǎo)入

  • 首先停掉gremlin console
  • 刪除hbase中的janusgraph表
  • 將test-janusgraph-schema.groovy文件中的注釋代碼去掉十偶。
  • 在janusgraph-test.properties設(shè)置storage.batch-loading=true菩鲜。
  • 然后以下操作都是在D:\soft\janusgraph-0.2.0-hadoop2目錄下進(jìn)行。
  • 我使用的是Git Bash命令終端惦积。
  • 1.打開gremlin
./bin/gremlin.bat
  • 2.創(chuàng)建shcema接校,可以將下面整個(gè)粘貼到命令行中。會(huì)等待一些時(shí)間狮崩,執(zhí)行完成后蛛勉,在hbase中會(huì)看到多了janusgraph表,并且查詢到里面有了數(shù)據(jù)(是配置以及schema數(shù)據(jù))睦柴,因?yàn)閟chema多了兩行代碼诽凌,所以數(shù)據(jù)也會(huì)多幾行。
:load data/zl/test-janusgraph-schema.groovy
graph = JanusGraphFactory.open('data/zl/janusgraph-test.properties')
defineGratefulDeadSchema(graph)
  • 3.使用IncrementBulkLoader批量導(dǎo)入坦敌,導(dǎo)入完成后hbase中又會(huì)多出3行數(shù)據(jù)(json文件中數(shù)據(jù)已經(jīng)被到入成功了)
graph = GraphFactory.open('data/zl/hadoop-graphson.properties')
blvp = BulkLoaderVertexProgram.build().writeGraph('data/zl/janusgraph-test.properties').create(graph)
graph.compute(SparkGraphComputer).program(blvp).submit().get()
  • 4.查看導(dǎo)入的節(jié)點(diǎn)數(shù)據(jù)
graph = JanusGraphFactory.open('data/zl/janusgraph-test.properties')
g = graph.traversal()
g.V().valueMap()
  • 查到的數(shù)據(jù)類似下面結(jié)構(gòu)侣诵,注意,有bulkLoader.vertex.id屬性狱窘,且其值為json文件中頂點(diǎn)的id值杜顺。
==>[name:[fu1],birth:[Tue Oct 31 17:53:58 CST 2017],bulkLoader.vertex.id:[4702],age:[10000]]
==>[name:[lisi],birth:[Tue Oct 31 17:53:58 CST 2017],bulkLoader.vertex.id:[4136],age:[10000]]
  • 如果在schema中沒定義bulkLoader.vertex.id屬性就會(huì)報(bào)錯(cuò),類似如下:
Undefined type used in query: bulkLoader.vertex.id
  • 如果沒有定義byBulkLoaderVertexId索引會(huì)有警告提示蘸炸,類似如下:
16:35:41 WARN  org.janusgraph.graphdb.transaction.StandardJanusGraphTx  - Query requires iterating over all vertices [(~label = person AND bulkLoader.vertex.id = 4136)]. For better performance, use indexes
  • 5.重復(fù)執(zhí)行第4步躬络,都會(huì)導(dǎo)入成功,你會(huì)發(fā)現(xiàn)最后數(shù)據(jù)沒有多搭儒,還是原來數(shù)據(jù)穷当。

  • 6.修改test-modern.json文件中頂點(diǎn)屬性值越锈,或修改頂點(diǎn)id值,然后在執(zhí)行第4步膘滨,會(huì)發(fā)現(xiàn)json中id變的頂點(diǎn)會(huì)再次添加成功甘凭;id沒變的頂點(diǎn),但是其屬性值變了火邓,最后到圖中對應(yīng)的頂點(diǎn)的屬性值也變化了丹弱。(其中如果json添加了新的屬性,圖中也會(huì)添加新的屬性铲咨,但是json中屬性變少了躲胳,圖中的對應(yīng)屬性還在)。

  • 7.修改json文件纤勒,將某兩個(gè)頂點(diǎn)的id設(shè)置成相同的坯苹,在執(zhí)行第4步,會(huì)報(bào)錯(cuò)摇天,類似如下:

16:18:04 WARN  org.apache.spark.scheduler.TaskSetManager  - Lost task 0.0 in stage 5.0 (TID 3, localhost): java.lang.IllegalStateException: The property does not exist as the key has no associated value for the provided element: v[4136]:bulkLoader.vertex.id
        at org.apache.tinkerpop.gremlin.structure.Property$Exceptions.propertyDoesNotExist(Property.java:155)
  • 8.此時(shí)修改janusgraph-test.properties中的storage.batch-loading=false粹湃,再次執(zhí)行第4步,如果導(dǎo)入json數(shù)據(jù)的name和圖中的已存在的name值有沖突就會(huì)報(bào)錯(cuò)泉坐,提示有唯一性約束沖突为鳄,類似下面提示信息。
org.janusgraph.core.SchemaViolationException: Adding this property for key [name] and value [lisi] violates a uniqueness constraint [nameCompositeIndex]

結(jié)論

  • storage.batch-loading設(shè)置為false腕让,在批量導(dǎo)入和api添加節(jié)點(diǎn)時(shí)都會(huì)進(jìn)行一致性校驗(yàn)孤钦;否則不會(huì)進(jìn)行校驗(yàn)。
  • OneTimeBulkLoader:一次批量導(dǎo)入數(shù)據(jù)纯丸,不會(huì)保存源圖(此案例是json)中的id偏形,導(dǎo)入數(shù)據(jù)不會(huì)開啟事務(wù)。
  • IncrementBulkLoader:增量導(dǎo)入數(shù)據(jù)觉鼻,并且通過bulkLoader.vertex.id屬性保存源圖中的id值俊扭,對于id已導(dǎo)入過數(shù)據(jù)會(huì)執(zhí)行更新操作。為此每導(dǎo)入一個(gè)頂點(diǎn)數(shù)據(jù)都會(huì)執(zhí)行如下邏輯:獲取要導(dǎo)入頂點(diǎn)的id值滑凉,查詢圖中是否有某個(gè)頂點(diǎn)的bulkLoader.vertex.id值等于id值的统扳,如果等于,則使用要插入的值畅姊,更新該圖中已存在的頂點(diǎn)屬性咒钟;如果不存在,則直接添加若未。
    • 之所以在schema中添加下面代碼朱嘴,就是加快查詢速度。
bidIndex = m.buildIndex("byBulkLoaderVertexId", Vertex.class).addKey(blid).indexOnly(person).buildCompositeIndex()
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市萍嬉,隨后出現(xiàn)的幾起案子乌昔,更是在濱河造成了極大的恐慌,老刑警劉巖壤追,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件磕道,死亡現(xiàn)場離奇詭異,居然都是意外死亡行冰,警方通過查閱死者的電腦和手機(jī)溺蕉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來悼做,“玉大人疯特,你說我怎么就攤上這事「刈撸” “怎么了漓雅?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長朽色。 經(jīng)常有香客問我邻吞,道長,這世上最難降的妖魔是什么纵搁? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任吃衅,我火速辦了婚禮,結(jié)果婚禮上腾誉,老公的妹妹穿的比我還像新娘。我一直安慰自己峻呕,他們只是感情好利职,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著瘦癌,像睡著了一般猪贪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上讯私,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天热押,我揣著相機(jī)與錄音,去河邊找鬼斤寇。 笑死桶癣,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的娘锁。 我是一名探鬼主播牙寞,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了间雀?” 一聲冷哼從身側(cè)響起悔详,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎惹挟,沒想到半個(gè)月后茄螃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡连锯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年责蝠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片萎庭。...
    茶點(diǎn)故事閱讀 38,654評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡霜医,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出驳规,到底是詐尸還是另有隱情肴敛,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布吗购,位于F島的核電站医男,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏捻勉。R本人自食惡果不足惜镀梭,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望踱启。 院中可真熱鬧报账,春花似錦、人聲如沸埠偿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽冠蒋。三九已至羽圃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間抖剿,已是汗流浹背朽寞。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留斩郎,地道東北人脑融。 一個(gè)月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像孽拷,于是被迫代替她去往敵國和親吨掌。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,543評論 2 349

推薦閱讀更多精彩內(nèi)容