簡介
Google Colaboratory是谷歌開放的一款研究工具麻车,主要用于機器學習的開發(fā)和研究。這款工具現(xiàn)在可以免費使用斗这,但是不是永久免費暫時還不確定动猬。Google Colab最大的好處是給廣大的AI開發(fā)者提供了免費的GPU使用!GPU型號是Tesla K80表箭!你可以在上面輕松地跑例如:Keras赁咙、Tensorflow、Pytorch等框架免钻。
實際上就是跟jupyter notebook 差不多彼水,只是有的實驗如果自己的電腦沒有 GPU ,放到實驗室的服務器伯襟,小黑窗口使用調(diào)試代碼很不方便猿涨,于是可以試試這個款,下面是一些個人的使用填坑記錄姆怪。
基本操作
首先 colab 是以來于 google drive ,需要從 google drive 進入,首先 谷歌云盤 :google drive 是長這個樣子的:
然后稽揭,我們在默認的"Colab Notebooks"文件夾中新建一個Colab項目俺附,在空白處點擊右鍵,如圖所示:
創(chuàng)建成功之后就進入 colab 溪掀,每個代碼框可以輸入代碼事镣,默認是python ,左上角可以直接修改命名文件名:
- 執(zhí)行系統(tǒng)命令需要再命令前面加一個"!"揪胃,查看當前目錄文件夾的命令跟 lunix 一樣璃哟,可以看到左邊的文件目錄 sample_data 是默認 colab 執(zhí)行目錄,在空白處點擊右鍵可以上傳文件等喊递;
- 只是在這個位置上傳的文件随闪,當該運行被回收之后,文件會被刪除骚勘,也就是說铐伴,你下一次再想運行上次寫好的代碼時候,需要重新上傳數(shù)據(jù)文件俏讹,這個很不方便
- 使用colab訓練深度學習模型的時候当宴,需要讀入本地采集好的數(shù)據(jù)集。這時候可以將數(shù)據(jù)集先上傳到google drive云端硬盤泽疆,再在colab的notebook讀取google drive的數(shù)據(jù)集(文本户矢、圖片、數(shù)據(jù)表等)殉疼。colab類似一臺linux服務器逗嫡,要使用google drive就需要把drive掛在到主機上。這樣就可以解決運行結(jié)束數(shù)據(jù)文件被刪除的問題
也就是將谷歌云盤看作是虛擬機中的一個硬盤掛載株依,這樣我們就可以使用虛擬機輕松訪問谷歌云盤驱证。 - colab 讀取google drive 的文件首先:讓colab獲得google drive的授權(quán),在google colab里執(zhí)行如下代碼:
!apt-get install -y -qq software-properties-common python-software-properties module-init-tools
!add-apt-repository -y ppa:alessandro-strada/ppa 2>&1 > /dev/null
!apt-get update -qq 2>&1 > /dev/null
!apt-get -y install -qq google-drive-ocamlfuse fuse
from google.colab import auth
auth.authenticate_user()
from oauth2client.client import GoogleCredentials
creds = GoogleCredentials.get_application_default()
import getpass
!google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret} < /dev/null 2>&1 | grep URL
vcode = getpass.getpass()
!echo {vcode} | google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret}
運行代碼會跳出鏈接恋腕,點擊登錄自己的 google 賬號授權(quán)抹锄,復制驗證 id 粘貼到代碼輸出下面,驗證頁面如下:
允許之后會出現(xiàn)驗證id 復制粘貼就好荠藤,接著輸入下面的代碼,指定Google Drive云端硬盤的根目錄伙单,名為drive:
!mkdir -p drive
!google-drive-ocamlfuse drive # 此時colab中出現(xiàn)drive的文件夾,里面就是你的google drive的根目錄文件
然后更換執(zhí)行的工作文件夾即可哈肖,數(shù)據(jù)集在這個文件夾中吻育,就可以在notebook里直接使用了:
import os
os.chdir("drive/Colab Notebooks")
可以看到這個時候,左側(cè)的文件目錄欄出現(xiàn)了 drive 文件夾淤井,將文件上傳到 google drive 之后可以在 colab 中訪問:
另外Colab最多連續(xù)使用12小時布疼,超過時間系統(tǒng)會強制掐斷正在運行的程序并收回占用的虛擬機摊趾。(好像再次連接到虛擬機后,虛擬機是被清空的狀態(tài)游两,需要重新配置和安裝庫等等)
事實上每次斷開網(wǎng)絡(luò)再次連接 google colab 的時候所有的配置都會消失砾层,掛載的 google drive 也不存在,需要重新操作贱案,下載安裝的配置肛炮,如 huggingface transformer 也需要重新下載 !pip install transformers