目的
利用協(xié)同過濾推薦算法以及使用Apache Gremlin對Apache Gremlin電影推薦圖數(shù)據(jù)文中存儲的電影評級圖數(shù)據(jù)進(jìn)行遍歷吗货,從而給電影觀眾推薦合適的電影。
Apache Gremlin推薦《玩具總動員》
協(xié)同過濾算法
簡單的來說,協(xié)同過濾算法就是A觀眾和B用戶都喜歡《玩具總動員》這部影片赏廓,那么A觀眾和B觀眾就用相同的喜好交集,就可以利用這個將B用戶喜歡的其它影片直接推薦給A用戶哈街。
Apache Gremlin遍歷
利用Gremlin Console查詢《玩具總動員》影片的具體信息如下:
gremlin> v = g.idx(T.v)[[title:'Toy Story (1995)']] >> 1
==>v[1]
gremlin> v.map()
==>movieId=1
==>title=Toy Story (1995)
==>type=Movie
利用Gremlin Console查詢出對《玩具總動員》影片評分超過3星的觀眾(僅返回5個結(jié)果),代碼如下:
gremlin> v.inE('rated').filter{it.getProperty('stars') > 3}.outV.userId[0..4]
==>v[3902]
==>v[3912]
==>v[3916]
==>v[3918]
==>v[3920]
下圖可以更好的幫助我們理解上面的兩個遍歷語言的邏輯:
Gremlin遍歷結(jié)果圖
利用Gremlin Console找出給《玩具總動員》評分超過3星的用戶拒迅,并且找出這些用戶給其它哪些電影的評級超過3星叹卷,代碼如下:
gremlin> v.inE('rated').filter{it.getProperty('stars') > 3}.outV.outE('rated').filter{it.getProperty('stars') > 3}.inV.title[0..4]
==>One Flew Over the Cuckoo's Nest (1975)
==>Erin Brockovich (2000)
==>Bug's Life, A (1998)
==>Ben-Hur (1959)
==>Christmas Story, A (1983)
Gremlin Console也為用戶提供了用戶自定義的遍歷步驟,如下:
gremlin> Gremlin.defineStep('corated',[Vertex,Pipe], { def stars ->
_().inE('rated').filter{it.getProperty('stars') > stars}.outV.outE('rated').filter{it.getProperty('stars') > stars}.inV})
==>null
用戶通過自定義了corated這個遍歷步驟將之前的復(fù)雜的Gremlin遍歷語言進(jìn)行簡化坪它,簡化后如下:
gremlin> v.corated(3).title[0..4]
==>One Flew Over the Cuckoo's Nest (1975)
==>Erin Brockovich (2000)
==>Bug's Life, A (1998)
==>Ben-Hur (1959)
==>Christmas Story, A (1983)
讓我們統(tǒng)計一下對《玩具總動員》評級超過3星的用戶對其它評星也超過3星的影片的數(shù)量,如下:
gremlin> v.corated(3).count()
==>268493
當(dāng)然268493里面有很多的重復(fù)數(shù)據(jù)帝牡,這是因?yàn)檫@些用戶出了《玩具總隊員》外對其它的影片愛好也有重復(fù)的往毡,我們可以通過下面的遍歷語言來進(jìn)行去重統(tǒng)計,如下:
gremlin> v.corated(3).uniqueObject.count()
==>3353
找出與《玩具總動員》有共同評級的前10部電影(這些電影就是要推薦的電影)靶溜,代碼如下:
gremlin> m = [:]
gremlin> v.corated(3).filter{it != v}.title.groupCount(m) >> -1
==>null
gremlin> m.sort{a,b -> b.value <=> a.value}[0..9]
==>Star Wars: Episode V - The Empire Strikes Back (1980)=1000
==>Star Wars: Episode IV - A New Hope (1977)=998
==>American Beauty (1999)=949
==>Matrix, The (1999)=925
==>Raiders of the Lost Ark (1981)=922
==>Silence of the Lambs, The (1991)=887
==>Saving Private Ryan (1998)=878
==>Back to the Future (1985)=876
==>Shawshank Redemption, The (1994)=875
==>Toy Story 2 (1999)=871