【2】Model_2: 1stChebNet(2017)-github:gcn? (https://github.com/tkipf/gcn)? (tensorflow)
{Semi-Supervised Classification with Graph Convolutional Networks}基于圖卷積網(wǎng)絡(luò)的半監(jiān)督分類
文章:https://www.colabug.com/5231014.html
Graph Convolutional Networks
這是一個用tensorflow框架實現(xiàn)的圖卷積神經(jīng)網(wǎng)絡(luò),用來完成圖中的節(jié)點(diǎn)類型分類废酷,即是一個分類模型匆背。
兩篇論文:
【1】Semi-Supervised Classification with Graph Convolutional Networks?(ICLR 2017)
【2】Graph Convolutional Networks?(2016)
從github下載代碼场晶,上傳到服務(wù)器上(盡量保證你的服務(wù)能連接外網(wǎng)粗卜,因為在調(diào)試程序時需要從外網(wǎng)中下載所需的數(shù)據(jù)庶橱,盡量保證你的服務(wù)器有GPU轻专,因為有的代碼常常會用GPU來加速)蚓峦,解壓:unzip gcn-master.zip
查看虛擬環(huán)境名:conda?env list? ? ?
選擇一個虛擬環(huán)境激活:source activate your_env_name
查看python版本:python? ?(python3)
安裝:python setup.py install
成功安裝
查看requirements??
·tensorflow(>0.12)??
·networkx
運(yùn)行模型:
cd gcn
python train.py? ? ? ?或者自定數(shù)據(jù)集運(yùn)行? ?python train.py --dataset citeseer
正常運(yùn)行結(jié)果:
現(xiàn)在開始在本地pycharm中分析源代碼
setup.py可以看到作者Thomas Kipf已經(jīng)他寫的圖卷積網(wǎng)絡(luò)gcn做成了安裝包徽级,剛才運(yùn)行的python setup.py install就是將該gcn模型安裝到python的lib目錄下气破。
運(yùn)行模型命令: python train.py
以下是train.py代碼,我們主要關(guān)心模型的輸入數(shù)據(jù)格式餐抢。
以下截圖是train.py的代碼现使,從中可以看出,數(shù)據(jù)集有三個可選旷痕,模型種類有三個可選碳锈。
數(shù)據(jù)集:'cora','citeseer','pubmed'
模型:'gcn','gcn_cheby','dense'
程序中的數(shù)據(jù)集,有三個整理好的數(shù)據(jù)集:'cora','citeseer','pubmed'
我們自己的數(shù)據(jù)集欺抗,處理成這個模型可用的格式殴胧。
·N*N的鄰接矩陣? (N是圖節(jié)點(diǎn)的個數(shù))
·N*D的特征矩陣? (D是節(jié)點(diǎn)特征向量的維度)
·N*E?的分類標(biāo)簽矩陣? (E是類別個數(shù))
詳細(xì)理解一下數(shù)據(jù):
ind.dataset_str.x文件?是train訓(xùn)練集實例的特征向量,按scipy.sparse.csr.csr_matrix稀疏矩陣存儲的。
ind.dataset_str.tx文件?是test測試集實例的特征向量团滥,按scipy.sparse.csr.csr_matrix稀疏矩陣存儲的竿屹。
ind.dataset_str.allx文件?是所有(有標(biāo)簽和無標(biāo)簽)的train訓(xùn)練實例特征向量,按scipy.sparse.csr.csr_matrix稀疏矩陣存儲的灸姊。? (半監(jiān)督方法拱燃,一些標(biāo)簽數(shù)據(jù),一些無標(biāo)簽數(shù)據(jù))
ind.dataset_str.y文件?是train訓(xùn)練數(shù)據(jù)集的one-hot類型的標(biāo)簽向量力惯,按numpy.ndarray形式存儲的宋梧。
ind.dataset_str.ty文件?是test測試數(shù)據(jù)集的one-hot類型的標(biāo)簽向量,按numpy.ndarray形式存儲的鹤耍。
ind.dataset_str.ally文件?是所有有標(biāo)簽數(shù)據(jù)的one-hot類型標(biāo)簽向量赞警,按numpy.ndarray形式存儲的。
ind.dataset_str.graph文件?是一個字典{index:[index_of_neighbor_nodes]}
ind.dataset_str.test.index文件?是測試數(shù)據(jù)集的index
以上數(shù)據(jù)都用pickle存儲甲喝。
讀取pickle數(shù)據(jù)顯示如下:
再理解load_data()函數(shù)
GCN的實驗效果
這個框架還支持多個圖形實例(可能具有不同大谐⑽)的批量分類,每個實例具有一個鄰接矩陣埠胖。 最好連接各個特征矩陣并構(gòu)建(稀疏)塊對角矩陣糠溜,其中每個塊對應(yīng)于一個圖實例的鄰接矩陣。 對于池化(在圖形級輸出而不是節(jié)點(diǎn)級輸出的情況下)直撤,最好指定一個簡單的池化矩陣非竿,該矩陣從各自的圖形實例中收集特征,如下所示: