JanusGraph---TinkerPop’s Hadoop-Gremlin

TinkerPop’s Hadoop-Gremlin
JanusGraph with TinkerPop’s Hadoop-Gremlin

利用Hadoop-Gremlin批量導(dǎo)入json數(shù)據(jù)到JanusGraph中召夹，并且比較IncrementalBulkLoader和OneTimeBulkLoader的不同递览。

版本配置

存儲(chǔ)后端：hbase（本地）唬党。索引后端：無波势。
janusgraph：janusgraph-0.2.0-hadoop2版本

前期準(zhǔn)備

Schema定義

Schema定義寫在文件test-janusgraph-schema.groovy中

def defineGratefulDeadSchema(janusGraph) {
    m = janusGraph.openManagement()
    //人信息節(jié)點(diǎn)label
    person = m.makeVertexLabel("person").make()
    //properties
    //使用IncrementBulkLoader導(dǎo)入時(shí)弦蹂，去掉下面注釋
    //blid  = m.makePropertyKey("bulkLoader.vertex.id").dataType(Long.class).make()
    birth = m.makePropertyKey("birth").dataType(Date.class).make()
    age = m.makePropertyKey("age").dataType(Integer.class).make()
    name = m.makePropertyKey("name").dataType(String.class).make()
   //index
    index = m.buildIndex("nameCompositeIndex", Vertex.class).addKey(name).unique().buildCompositeIndex()
    //使用IncrementBulkLoader導(dǎo)入時(shí)敛腌，去掉下面注釋
    //bidIndex = m.buildIndex("byBulkLoaderVertexId", Vertex.class).addKey(blid).indexOnly(person).buildCompositeIndex()
    m.commit()
}

滿足Schema格式的json文件

我的json文件怎么來的封拧？將graph導(dǎo)出成json文件复唤。
數(shù)據(jù)存放在test-modern.json中

{"id":4136,"label":"person","properties":{"name":[{"id":"16t-36w-5j9","value":"lisi"}],"birth":[{"id":"1z9-36w-3yd","value":1509443638951}],"age":[{"id":"101-26w-5qt","value":4136}]}}
{"id":4702,"label":"person","properties":{"name":[{"id":"171-38o-5j9","value":"fu1 "}],"birth":[{"id":"1zh-38o-3yd","value":1509043638952}],"age":[{"id":"1l9-38o-4qt","value":1}]}}
{"id":4700,"label":"person","properties":{"name":[{"id":"171-38o-5j9","value":"fu2 "}],"birth":[{"id":"1zh-38o-3yd","value":1509043638976}],"age":[{"id":"1l9-38o-4qt","value":1}]}}

目標(biāo)圖的配置

下面只列了定制的配置，默認(rèn)配置沒顯示娄昆。
配置信息在janusgraph-test.properties文件中

storage.backend=hbase
schema.default = none
# true：在批量導(dǎo)入或api添加時(shí)佩微，會(huì)進(jìn)行一致性校驗(yàn)，否則不會(huì)進(jìn)行
# 本例子中的一致性：在name屬性上建立了唯一索引萌焰，所以name不允許有重復(fù)值哺眯。
storage.batch-loading=true

HadoopGraph圖的配置

保存在hadoop-graphson.properties文件中
其中inputLocation指定了需要導(dǎo)入的json文件路徑。（相對于janusgraph-0.2.0-hadoop2的路徑）

gremlin.graph=org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph
gremlin.hadoop.graphInputFormat=org.apache.tinkerpop.gremlin.hadoop.structure.io.graphson.GraphSONInputFormat
gremlin.hadoop.graphOutputFormat=org.apache.hadoop.mapreduce.lib.output.NullOutputFormat
gremlin.hadoop.inputLocation=./data/zl/test-modern.json
gremlin.hadoop.outputLocation=output
gremlin.hadoop.jarsInDistributedCache=true

#####################################
# GiraphGraphComputer Configuration #
#####################################
giraph.minWorkers=2
giraph.maxWorkers=2
giraph.useOutOfCoreGraph=true
giraph.useOutOfCoreMessages=true
mapred.map.child.java.opts=-Xmx1024m
mapred.reduce.child.java.opts=-Xmx1024m
giraph.numInputThreads=4
giraph.numComputeThreads=4
giraph.maxMessagesInMemory=100000

####################################
# SparkGraphComputer Configuration #
####################################
spark.master=local[*]
spark.executor.memory=1g
spark.serializer=org.apache.spark.serializer.KryoSerializer

文件位置

我將上述文件都放在了D:\soft\janusgraph-0.2.0-hadoop2\data\zl目錄下扒俯，即janusgraph安裝目錄的自己創(chuàng)建的一個(gè)zl文件夾奶卓。

image.png

開始批量導(dǎo)入

先啟動(dòng)hbase一疯。
以下操作都是在D:\soft\janusgraph-0.2.0-hadoop2目錄下進(jìn)行。
我使用的是Git Bash命令終端夺姑。

使用OneTimeBulkLoader批量導(dǎo)入

1.打開gremlin

./bin/gremlin.bat

2.創(chuàng)建shcema墩邀，可以將下面整個(gè)粘貼到命令行中。會(huì)等待一些時(shí)間盏浙，執(zhí)行完成后眉睹，在hbase中會(huì)看到多了janusgraph表，并且查詢到里面有了數(shù)據(jù)（是配置以及schema數(shù)據(jù)）

:load data/zl/test-janusgraph-schema.groovy
graph = JanusGraphFactory.open('data/zl/janusgraph-test.properties')
defineGratefulDeadSchema(graph)

3.使用OneTimeBulkLoader批量導(dǎo)入废膘，導(dǎo)入完成后hbase中又會(huì)多出3行數(shù)據(jù)（json文件中數(shù)據(jù)已經(jīng)被到入成功了）

graph = GraphFactory.open('data/zl/hadoop-graphson.properties')
blvp = BulkLoaderVertexProgram.build().bulkLoader(OneTimeBulkLoader).writeGraph('data/zl/janusgraph-test.properties').create(graph)
graph.compute(SparkGraphComputer).program(blvp).submit().get()

4.查看導(dǎo)入的節(jié)點(diǎn)數(shù)據(jù)

graph = JanusGraphFactory.open('data/zl/janusgraph-test.properties')
g = graph.traversal()
g.V().valueMap()

查到的數(shù)據(jù)類似下面結(jié)構(gòu)

==>[name:[lisi],birth:[Tue Oct 31 17:53:58 CST 2017],age:[10000]]
==>[name:[zhouliang],birth:[Tue Oct 31 17:53:58 CST 2017],age:[10000]]

5.重復(fù)執(zhí)行第4步竹海，都會(huì)導(dǎo)入成功，你會(huì)發(fā)現(xiàn)最后數(shù)據(jù)重復(fù)了殖卑。
6.此時(shí)修改janusgraph-test.properties中的storage.batch-loading=false站削，再次執(zhí)行第4步坊萝，就會(huì)報(bào)錯(cuò)孵稽，提示有唯一性約束沖突，類似下面提示信息

org.janusgraph.core.SchemaViolationException: Adding this property for key [name] and value [lisi] violates a uniqueness constraint [nameCompositeIndex]

使用IncrementBulkLoader批量導(dǎo)入

首先停掉gremlin console
刪除hbase中的janusgraph表
將test-janusgraph-schema.groovy文件中的注釋代碼去掉十偶。
在janusgraph-test.properties設(shè)置storage.batch-loading=true菩鲜。
然后以下操作都是在D:\soft\janusgraph-0.2.0-hadoop2目錄下進(jìn)行。
我使用的是Git Bash命令終端惦积。
1.打開gremlin

./bin/gremlin.bat

2.創(chuàng)建shcema接校，可以將下面整個(gè)粘貼到命令行中。會(huì)等待一些時(shí)間狮崩，執(zhí)行完成后蛛勉，在hbase中會(huì)看到多了janusgraph表，并且查詢到里面有了數(shù)據(jù)（是配置以及schema數(shù)據(jù)）睦柴，因?yàn)閟chema多了兩行代碼诽凌，所以數(shù)據(jù)也會(huì)多幾行。

:load data/zl/test-janusgraph-schema.groovy
graph = JanusGraphFactory.open('data/zl/janusgraph-test.properties')
defineGratefulDeadSchema(graph)

3.使用IncrementBulkLoader批量導(dǎo)入坦敌，導(dǎo)入完成后hbase中又會(huì)多出3行數(shù)據(jù)（json文件中數(shù)據(jù)已經(jīng)被到入成功了）

graph = GraphFactory.open('data/zl/hadoop-graphson.properties')
blvp = BulkLoaderVertexProgram.build().writeGraph('data/zl/janusgraph-test.properties').create(graph)
graph.compute(SparkGraphComputer).program(blvp).submit().get()

4.查看導(dǎo)入的節(jié)點(diǎn)數(shù)據(jù)

graph = JanusGraphFactory.open('data/zl/janusgraph-test.properties')
g = graph.traversal()
g.V().valueMap()

查到的數(shù)據(jù)類似下面結(jié)構(gòu)侣诵，注意，有bulkLoader.vertex.id屬性狱窘，且其值為json文件中頂點(diǎn)的id值杜顺。

==>[name:[fu1],birth:[Tue Oct 31 17:53:58 CST 2017],bulkLoader.vertex.id:[4702],age:[10000]]
==>[name:[lisi],birth:[Tue Oct 31 17:53:58 CST 2017],bulkLoader.vertex.id:[4136],age:[10000]]

如果在schema中沒定義bulkLoader.vertex.id屬性就會(huì)報(bào)錯(cuò)，類似如下：

Undefined type used in query: bulkLoader.vertex.id

如果沒有定義byBulkLoaderVertexId索引會(huì)有警告提示蘸炸，類似如下：

16:35:41 WARN  org.janusgraph.graphdb.transaction.StandardJanusGraphTx  - Query requires iterating over all vertices [(~label = person AND bulkLoader.vertex.id = 4136)]. For better performance, use indexes

5.重復(fù)執(zhí)行第4步躬络，都會(huì)導(dǎo)入成功，你會(huì)發(fā)現(xiàn)最后數(shù)據(jù)沒有多搭儒，還是原來數(shù)據(jù)穷当。
6.修改test-modern.json文件中頂點(diǎn)屬性值越锈，或修改頂點(diǎn)id值，然后在執(zhí)行第4步膘滨，會(huì)發(fā)現(xiàn)json中id變的頂點(diǎn)會(huì)再次添加成功甘凭；id沒變的頂點(diǎn)，但是其屬性值變了火邓，最后到圖中對應(yīng)的頂點(diǎn)的屬性值也變化了丹弱。（其中如果json添加了新的屬性，圖中也會(huì)添加新的屬性铲咨，但是json中屬性變少了躲胳，圖中的對應(yīng)屬性還在）。
7.修改json文件纤勒，將某兩個(gè)頂點(diǎn)的id設(shè)置成相同的坯苹，在執(zhí)行第4步，會(huì)報(bào)錯(cuò)摇天，類似如下：

16:18:04 WARN  org.apache.spark.scheduler.TaskSetManager  - Lost task 0.0 in stage 5.0 (TID 3, localhost): java.lang.IllegalStateException: The property does not exist as the key has no associated value for the provided element: v[4136]:bulkLoader.vertex.id
        at org.apache.tinkerpop.gremlin.structure.Property$Exceptions.propertyDoesNotExist(Property.java:155)

8.此時(shí)修改janusgraph-test.properties中的storage.batch-loading=false粹湃，再次執(zhí)行第4步，如果導(dǎo)入json數(shù)據(jù)的name和圖中的已存在的name值有沖突就會(huì)報(bào)錯(cuò)泉坐，提示有唯一性約束沖突为鳄，類似下面提示信息。

org.janusgraph.core.SchemaViolationException: Adding this property for key [name] and value [lisi] violates a uniqueness constraint [nameCompositeIndex]

結(jié)論

storage.batch-loading設(shè)置為false腕让，在批量導(dǎo)入和api添加節(jié)點(diǎn)時(shí)都會(huì)進(jìn)行一致性校驗(yàn)孤钦；否則不會(huì)進(jìn)行校驗(yàn)。
OneTimeBulkLoader：一次批量導(dǎo)入數(shù)據(jù)纯丸，不會(huì)保存源圖（此案例是json）中的id偏形，導(dǎo)入數(shù)據(jù)不會(huì)開啟事務(wù)。
IncrementBulkLoader：增量導(dǎo)入數(shù)據(jù)觉鼻，并且通過bulkLoader.vertex.id屬性保存源圖中的id值俊扭，對于id已導(dǎo)入過數(shù)據(jù)會(huì)執(zhí)行更新操作。為此每導(dǎo)入一個(gè)頂點(diǎn)數(shù)據(jù)都會(huì)執(zhí)行如下邏輯：獲取要導(dǎo)入頂點(diǎn)的id值滑凉，查詢圖中是否有某個(gè)頂點(diǎn)的bulkLoader.vertex.id值等于id值的统扳，如果等于，則使用要插入的值畅姊，更新該圖中已存在的頂點(diǎn)屬性咒钟；如果不存在，則直接添加若未。
- 之所以在schema中添加下面代碼朱嘴，就是加快查詢速度。

bidIndex = m.buildIndex("byBulkLoaderVertexId", Vertex.class).addKey(blid).indexOnly(person).buildCompositeIndex()

最后編輯于：2017.12.11 07:48:48

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市萍嬉，隨后出現(xiàn)的幾起案子乌昔，更是在濱河造成了極大的恐慌，老刑警劉巖壤追，帶你破解...
沈念sama閱讀 211,817評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件磕道，死亡現(xiàn)場離奇詭異，居然都是意外死亡行冰，警方通過查閱死者的電腦和手機(jī)溺蕉，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,329評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來悼做，“玉大人疯特，你說我怎么就攤上這事「刈撸” “怎么了漓雅？”我有些...
開封第一講書人閱讀 157,354評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長朽色。經(jīng)常有香客問我邻吞，道長，這世上最難降的妖魔是什么纵搁？我笑而不...
開封第一講書人閱讀 56,498評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任吃衅，我火速辦了婚禮，結(jié)果婚禮上腾誉，老公的妹妹穿的比我還像新娘。我一直安慰自己峻呕，他們只是感情好利职，可當(dāng)我...
茶點(diǎn)故事閱讀 65,600評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著瘦癌，像睡著了一般猪贪。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上讯私，一...
開封第一講書人閱讀 49,829評論 1贊 290
城市分裂傳說
那天热押，我揣著相機(jī)與錄音，去河邊找鬼斤寇。笑死桶癣，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的娘锁。我是一名探鬼主播牙寞，決...
沈念sama閱讀 38,979評論 3贊 408
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了间雀？” 一聲冷哼從身側(cè)響起悔详，我...
開封第一講書人閱讀 37,722評論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎惹挟，沒想到半個(gè)月后茄螃，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,189評論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡连锯，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,519評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年责蝠，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片萎庭。...
茶點(diǎn)故事閱讀 38,654評論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡霜医，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出驳规，到底是詐尸還是另有隱情肴敛，我是刑警寧澤，帶...
沈念sama閱讀 34,329評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布吗购，位于F島的核電站医男，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏捻勉。R本人自食惡果不足惜镀梭，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,940評論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望踱启。院中可真熱鬧报账，春花似錦、人聲如沸埠偿。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,762評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽冠蒋。三九已至羽圃，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間抖剿，已是汗流浹背朽寞。一陣腳步聲響...
開封第一講書人閱讀 31,993評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留斩郎，地道東北人脑融。一個(gè)月前我還...
沈念sama閱讀 46,382評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像孽拷，于是被迫代替她去往敵國和親吨掌。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,543評論 2贊 349

JanusGraph---TinkerPop’s Hadoop-Gremlin

版本配置

前期準(zhǔn)備

Schema定義

滿足Schema格式的json文件

目標(biāo)圖的配置

HadoopGraph圖的配置

文件位置

開始批量導(dǎo)入

使用OneTimeBulkLoader批量導(dǎo)入

使用IncrementBulkLoader批量導(dǎo)入

結(jié)論

推薦閱讀更多精彩內(nèi)容