由于對(duì)圖數(shù)據(jù)庫(kù)不熟悉源织,我們?cè)谙驁D數(shù)據(jù)錄入數(shù)據(jù)時(shí)發(fā)現(xiàn)錄入速度不符合要求
我們的錄入思路是:
錄入節(jié)點(diǎn)的同時(shí)铣耘,順便構(gòu)建該節(jié)點(diǎn)與其他節(jié)點(diǎn)的邊芽死,使用了neo4j apoc語(yǔ)法可以一句話實(shí)現(xiàn)霸旗,而且構(gòu)建出的邊還不會(huì)導(dǎo)致圖產(chǎn)生回環(huán)
這個(gè)方法已經(jīng)比我們自己寫(xiě)程序?qū)崿F(xiàn)錄入節(jié)點(diǎn)卓嫂,再通過(guò)查詢構(gòu)造邊的方法快了一些,可是速度還是很慢蜈项,在數(shù)據(jù)量在幾十萬(wàn)的時(shí)候,基本1秒創(chuàng)建一個(gè)節(jié)點(diǎn)和相關(guān)的邊续挟,這個(gè)速度遠(yuǎn)遠(yuǎn)跟不上數(shù)據(jù)產(chǎn)生的速度
想法1
將節(jié)點(diǎn)數(shù)據(jù)錄入與構(gòu)建關(guān)系分開(kāi)紧卒,因?yàn)殇浫牍?jié)點(diǎn)數(shù)據(jù)應(yīng)該不會(huì)這么慢,慢的是新節(jié)點(diǎn)進(jìn)入后诗祸,創(chuàng)建邊的過(guò)程跑芳,這個(gè)數(shù)據(jù)處理還是行級(jí)處理轴总,每次有新節(jié)點(diǎn)進(jìn)入都要執(zhí)行一邊查詢
先將一個(gè)批次所有節(jié)點(diǎn)數(shù)據(jù)錄入,然后對(duì)所有節(jié)點(diǎn)數(shù)據(jù)執(zhí)行一次邊構(gòu)建
難點(diǎn)1
批量數(shù)據(jù)構(gòu)建邊很難保證圖數(shù)據(jù)不產(chǎn)生回環(huán)博个,想要保證節(jié)點(diǎn)邊最后生成的是樹(shù)怀樟,這個(gè)思路需要修改一下
想法2
按照生成樹(shù)的想法構(gòu)建邊,分為2個(gè)步驟
1. 根據(jù)節(jié)點(diǎn)屬性分組盆佣,每個(gè)分組作為一個(gè)節(jié)點(diǎn)集合往堡,集合內(nèi)節(jié)點(diǎn)數(shù)量需要>1
2. 遍歷每個(gè)集合,將集合內(nèi)的第一個(gè)節(jié)點(diǎn)作為根節(jié)點(diǎn)共耍,剩余節(jié)點(diǎn)作為葉節(jié)點(diǎn)虑灰,構(gòu)建邊
將這個(gè)想法告訴AI,來(lái)構(gòu)造我們不熟悉的cypher語(yǔ)句
AI用不到5行代碼實(shí)現(xiàn)了我們的這個(gè)思路痹兜,實(shí)測(cè)可行穆咐,且執(zhí)行速度在幾秒鐘,比最早先的思路快了好幾個(gè)級(jí)別
難點(diǎn)2
這個(gè)想法解決了生成邊的速度慢字旭,容易產(chǎn)生回環(huán)的問(wèn)題对湃,還有一個(gè)問(wèn)題還需要后續(xù)測(cè)試求證,當(dāng)有新的節(jié)點(diǎn)加入遗淳,這個(gè)代碼執(zhí)行時(shí)拍柒,不知道第一個(gè)節(jié)點(diǎn)的位置會(huì)不會(huì)遷移到其他節(jié)點(diǎn)上,如果每次執(zhí)行該代碼洲脂,新節(jié)點(diǎn)都會(huì)擾亂現(xiàn)有節(jié)點(diǎn)排序斤儿,那么還是會(huì)在重新構(gòu)建邊的時(shí)候產(chǎn)生環(huán)型圖,生成多余的邊
針對(duì)這個(gè)問(wèn)題我們有2個(gè)假設(shè)
1. neo4j得到的節(jié)點(diǎn)集合是有序的恐锦,默認(rèn)按照id排序往果,因此第一個(gè)節(jié)點(diǎn)的位置不會(huì)改變
2. 在第1個(gè)假設(shè)成立的基礎(chǔ)上,有新節(jié)點(diǎn)加入圖數(shù)據(jù)一铅,重新執(zhí)行生成邊代碼陕贮,不會(huì)產(chǎn)生多余的邊
這兩個(gè)假設(shè)成立的話,我們就可以繼續(xù)使用這個(gè)代碼進(jìn)行數(shù)據(jù)構(gòu)建潘飘,如果這兩個(gè)假設(shè)不成立肮之,我們還得繼續(xù)找新的思路,來(lái)保證生成樹(shù)的圖數(shù)據(jù)結(jié)構(gòu)卜录,這些就留待后續(xù)測(cè)試吧