想免費(fèi)用谷歌資源訓(xùn)練神經(jīng)網(wǎng)絡(luò)鳍征?Colab 詳細(xì)使用教程 —— Jinkey 原創(chuàng)

原文鏈接 https://jinkey.ai/post/tech/xiang-mian-fei-yong-gu-ge-zi-yuan-xun-lian-shen-jing-wang-luo-colab-xiang-xi-shi-yong-jiao-cheng
本文作者 Jinkey(微信公眾號(hào) jinkey-love蝇率,官網(wǎng) https://jinkey.ai
文章允許非篡改署名轉(zhuǎn)載,刪除或修改本段版權(quán)信息轉(zhuǎn)載的胰柑,視為侵犯知識(shí)產(chǎn)權(quán)卡睦,我們保留追求您法律責(zé)任的權(quán)利,特此聲明融涣!

1 簡(jiǎn)介

Colab 是谷歌內(nèi)部類 Jupyter Notebook 的交互式 Python 環(huán)境童番,免安裝快速切換 Python 2和 Python 3 的環(huán)境,支持Google全家桶(TensorFlow威鹿、BigQuery剃斧、GoogleDrive等),支持 pip 安裝任意自定義庫(kù)忽你。
網(wǎng)址:
https://colab.research.google.com

2 庫(kù)的安裝和使用

Colab 自帶了 Tensorflow幼东、Matplotlib、Numpy科雳、Pandas 等深度學(xué)習(xí)基礎(chǔ)庫(kù)根蟹。如果還需要其他依賴,如 Keras糟秘,可以新建代碼塊简逮,輸入

# 安裝最新版本Keras
# https://keras.io/
!pip install keras
# 指定版本安裝
!pip install keras==2.0.9
# 安裝 OpenCV
# https://opencv.org/
!apt-get -qq install -y libsm6 libxext6 && pip install -q -U opencv-python
# 安裝 Pytorch
# http://pytorch.org/
!pip install -q http://download.pytorch.org/whl/cu75/torch-0.2.0.post3-cp27-cp27mu-manylinux1_x86_64.whl torchvision
# 安裝 XGBoost
# https://github.com/dmlc/xgboost
!pip install -q xgboost
# 安裝 7Zip
!apt-get -qq install -y libarchive-dev && pip install -q -U libarchive
# 安裝 GraphViz 和 PyDot
!apt-get -qq install -y graphviz && pip install -q pydot

3 Google Drive 文件操作

授權(quán)登錄

對(duì)于同一個(gè) notebook,登錄操作只需要進(jìn)行一次蚌堵,然后才可以進(jìn)度讀寫操作买决。

# 安裝 PyDrive 操作庫(kù),該操作每個(gè) notebook 只需要執(zhí)行一次
!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

# 授權(quán)登錄吼畏,僅第一次的時(shí)候會(huì)鑒權(quán)
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

執(zhí)行這段代碼后督赤,會(huì)打印以下內(nèi)容,點(diǎn)擊連接進(jìn)行授權(quán)登錄泻蚊,獲取到 token 值填寫到輸入框躲舌,按 Enter 繼續(xù)即可完成登錄。


遍歷目錄

# 列出根目錄的所有文件
# "q" 查詢條件教程詳見:https://developers.google.com/drive/v2/web/search-parameters
file_list = drive.ListFile({'q': "'root' in parents and trashed=false"}).GetList()
for file1 in file_list:
  print('title: %s, id: %s, mimeType: %s' % (file1['title'], file1['id'], file1["mimeType"]))

可以看到控制臺(tái)打印結(jié)果

title: Colab 測(cè)試, id: 1cB5CHKSdL26AMXQ5xrqk2kaBv5LSkIsJ8HuEDyZpeqQ, mimeType: application/vnd.google-apps.document

title: Colab Notebooks, id: 1U9363A12345TP2nSeh2K8FzDKSsKj5Jj, mimeType: application/vnd.google-apps.folder

其中 id 是接下來(lái)的教程獲取文件的唯一標(biāo)識(shí)性雄。根據(jù) mimeType 可以知道 Colab 測(cè)試 文件為 doc 文檔没卸,而 Colab Notebooks 為文件夾(也就是 Colab 的 Notebook 儲(chǔ)存的根目錄),如果想查詢 Colab Notebooks 文件夾下的文件秒旋,查詢條件可以這么寫:

# '目錄 id' in parents
file_list = drive.ListFile({'q': "'1cB5CHKSdL26AMXQ5xrqk2kaBv5LBkIsJ8HuEDyZpeqQ' in parents and trashed=false"}).GetList()

讀取文件內(nèi)容

目前測(cè)試過可以直接讀取內(nèi)容的格式為 .txt(mimeType: text/plain)约计,讀取代碼:

file = drive.CreateFile({'id': "替換成你的 .txt 文件 id"}) 
file.GetContentString()

.csv 如果用GetContentString()只能打印第一行的數(shù)據(jù),要用``

file = drive.CreateFile({'id': "替換成你的 .csv 文件 id"}) 
#這里的下載操作只是緩存迁筛,不會(huì)在你的Google Drive 目錄下多下載一個(gè)文件
file.GetContentFile('iris.csv', "text/csv") 

# 直接打印文件內(nèi)容
with open('iris.csv') as f:
  print f.readlines()
# 用 pandas 讀取
import pandas
pd.read_csv('iris.csv', index_col=[0,1], skipinitialspace=True)

Colab 會(huì)直接以表格的形式輸出結(jié)果(下圖為截取 iris 數(shù)據(jù)集的前幾行)煤蚌, iris 數(shù)據(jù)集地址為 http://aima.cs.berkeley.edu/data/iris.csv ,學(xué)習(xí)的同學(xué)可以執(zhí)行上傳到自己的 Google Drive。

寫文件操作

# 創(chuàng)建一個(gè)文本文件
uploaded = drive.CreateFile({'title': '示例.txt'})
uploaded.SetContentString('測(cè)試內(nèi)容')
uploaded.Upload()
print('創(chuàng)建后文件 id 為 {}'.format(uploaded.get('id')))

更多操作可查看 http://pythonhosted.org/PyDrive/filemanagement.html

4 Google Sheet 電子表格操作

授權(quán)登錄

對(duì)于同一個(gè) notebook尉桩,登錄操作只需要進(jìn)行一次筒占,然后才可以進(jìn)度讀寫操作。

!pip install --upgrade -q gspread
from google.colab import auth
auth.authenticate_user()

import gspread
from oauth2client.client import GoogleCredentials

gc = gspread.authorize(GoogleCredentials.get_application_default())

讀取

把 iris.csv 的數(shù)據(jù)導(dǎo)入創(chuàng)建一個(gè) Google Sheet 文件來(lái)做演示蜘犁,可以放在 Google Drive 的任意目錄

worksheet = gc.open('iris').sheet1

# 獲取一個(gè)列表[
# [第1行第1列, 第1行第2列, ... , 第1行第n列], ... ,[第n行第1列, 第n行第2列, ... , 第n行第n列]]
rows = worksheet.get_all_values()
print(rows)

#  用 pandas 讀取
import pandas as pd
pd.DataFrame.from_records(rows)

打印結(jié)果分別為

[['5.1', '3.5', '1.4', '0.2', 'setosa'], ['4.9', '3', '1.4', '0.2', 'setosa'], ...


寫入

sh = gc.create('谷歌表')

# 打開工作簿和工作表
worksheet = gc.open('谷歌表').sheet1
cell_list = worksheet.range('A1:C2')

import random
for cell in cell_list:
  cell.value = random.randint(1, 10)
worksheet.update_cells(cell_list)

5 下載文件到本地

from google.colab import files
with open('example.txt', 'w') as f:
  f.write('測(cè)試內(nèi)容')
files.download('example.txt')

6 實(shí)戰(zhàn)

這里以我在 Github 的開源LSTM 文本分類項(xiàng)目為例子https://github.com/Jinkeycode/keras_lstm_chinese_document_classification
master/data 目錄下的三個(gè)文件存放到 Google Drive 上翰苫。該示例演示的是對(duì)健康、科技这橙、設(shè)計(jì)三個(gè)類別的標(biāo)題進(jìn)行分類奏窑。

新建

在 Colab 上新建 Python2 的筆記本


安裝依賴

!pip install keras
!pip install jieba
!pip install h5py

import h5py
import jieba as jb
import numpy as np
import keras as krs
import tensorflow as tf
from sklearn.preprocessing import LabelEncoder

加載數(shù)據(jù)

授權(quán)登錄

# 安裝 PyDrive 操作庫(kù),該操作每個(gè) notebook 只需要執(zhí)行一次
!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

def login_google_drive():
  # 授權(quán)登錄屈扎,僅第一次的時(shí)候會(huì)鑒權(quán)
  auth.authenticate_user()
  gauth = GoogleAuth()
  gauth.credentials = GoogleCredentials.get_application_default()
  drive = GoogleDrive(gauth)
  return drive

列出 GD 下的所有文件

def list_file(drive):
  file_list = drive.ListFile({'q': "'root' in parents and trashed=false"}).GetList()
  for file1 in file_list:
    print('title: %s, id: %s, mimeType: %s' % (file1['title'], file1['id'], file1["mimeType"]))
    

drive = login_google_drive()
list_file(drive)

緩存數(shù)據(jù)到工作環(huán)境

def cache_data():
  # id 替換成上一步讀取到的對(duì)應(yīng)文件 id
  health_txt = drive.CreateFile({'id': "117GkBtuuBP3wVjES0X0L4wVF5rp5Cewi"}) 
  tech_txt = drive.CreateFile({'id': "14sDl4520Tpo1MLPydjNBoq-QjqOKk9t6"})
  design_txt = drive.CreateFile({'id': "1J4lndcsjUb8_VfqPcfsDeOoB21bOLea3"})
  #這里的下載操作只是緩存良哲,不會(huì)在你的Google Drive 目錄下多下載一個(gè)文件
  
  health_txt.GetContentFile('health.txt', "text/plain")
  tech_txt.GetContentFile('tech.txt', "text/plain")
  design_txt.GetContentFile('design.txt', "text/plain")
  
  print("緩存成功")
  
cache_data()

讀取工作環(huán)境的數(shù)據(jù)

def load_data():
    titles = []
    print("正在加載健康類別的數(shù)據(jù)...")
    with open("health.txt", "r") as f:
        for line in f.readlines():
            titles.append(line.strip())

    print("正在加載科技類別的數(shù)據(jù)...")
    with open("tech.txt", "r") as f:
        for line in f.readlines():
            titles.append(line.strip())


    print("正在加載設(shè)計(jì)類別的數(shù)據(jù)...")
    with open("design.txt", "r") as f:
        for line in f.readlines():
            titles.append(line.strip())

    print("一共加載了 %s 個(gè)標(biāo)題" % len(titles))

    return titles
  
titles = load_data()

加載標(biāo)簽

def load_label():
    arr0 = np.zeros(shape=[12000, ])
    arr1 = np.ones(shape=[12000, ])
    arr2 = np.array([2]).repeat(7318)
    target = np.hstack([arr0, arr1, arr2])
    print("一共加載了 %s 個(gè)標(biāo)簽" % target.shape)

    encoder = LabelEncoder()
    encoder.fit(target)
    encoded_target = encoder.transform(target)
    dummy_target = krs.utils.np_utils.to_categorical(encoded_target)

    return dummy_target
  
target = load_label()

文本預(yù)處理

max_sequence_length = 30
embedding_size = 50

# 標(biāo)題分詞
titles = [".".join(jb.cut(t, cut_all=True)) for t in titles]

# ?word2vec 詞袋化
vocab_processor = tf.contrib.learn.preprocessing.VocabularyProcessor(max_sequence_length, min_frequency=1)
text_processed = np.array(list(vocab_processor.fit_transform(titles)))

# 讀取詞標(biāo)簽
dict = vocab_processor.vocabulary_._mapping
sorted_vocab = sorted(dict.items(), key = lambda x : x[1])

構(gòu)建神經(jīng)網(wǎng)絡(luò)

這里使用 Embedding 和 lstm 作為前兩層,通過 softmax 激活輸出結(jié)果

# 配置網(wǎng)絡(luò)結(jié)構(gòu)
def build_netword(num_vocabs):
    # 配置網(wǎng)絡(luò)結(jié)構(gòu)
    model = krs.Sequential()
    model.add(krs.layers.Embedding(num_vocabs, embedding_size, input_length=max_sequence_length))
    model.add(krs.layers.LSTM(32, dropout=0.2, recurrent_dropout=0.2))
    model.add(krs.layers.Dense(3))
    model.add(krs.layers.Activation("softmax"))
    model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=["accuracy"])

    return model
  
num_vocabs = len(dict.items())
model = build_netword(num_vocabs=num_vocabs)

import time
start = time.time()
# 訓(xùn)練模型
model.fit(text_processed, target, batch_size=512, epochs=10, )
finish = time.time()
print("訓(xùn)練耗時(shí):%f 秒" %(finish-start))

預(yù)測(cè)樣本

sen 可以換成你自己的句子助隧,預(yù)測(cè)結(jié)果為[健康類文章概率, 科技類文章概率, 設(shè)計(jì)類文章概率], 概率最高的為那一類的文章,但最大概率低于 0.8 時(shí)判定為無(wú)法分類的文章滑沧。

sen = "做好商業(yè)設(shè)計(jì)需要學(xué)習(xí)的小技巧"
sen_prosessed = " ".join(jb.cut(sen, cut_all=True))
sen_prosessed = vocab_processor.transform([sen_prosessed])
sen_prosessed = np.array(list(sen_prosessed))
result = model.predict(sen_prosessed)

catalogue = list(result[0]).index(max(result[0]))
threshold=0.8
if max(result[0]) > threshold:
    if catalogue == 0:
        print("這是一篇關(guān)于健康的文章")
    elif catalogue == 1:
        print("這是一篇關(guān)于科技的文章")
    elif catalogue == 2:
        print("這是一篇關(guān)于設(shè)計(jì)的文章")
    else:
        print("這篇文章沒有可信分類")
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末并村,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子滓技,更是在濱河造成了極大的恐慌哩牍,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件令漂,死亡現(xiàn)場(chǎng)離奇詭異膝昆,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)叠必,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門荚孵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人纬朝,你說(shuō)我怎么就攤上這事收叶。” “怎么了共苛?”我有些...
    開封第一講書人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵判没,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我隅茎,道長(zhǎng)澄峰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任辟犀,我火速辦了婚禮俏竞,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己胞此,他們只是感情好臣咖,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著漱牵,像睡著了一般夺蛇。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上酣胀,一...
    開封第一講書人閱讀 51,631評(píng)論 1 305
  • 那天刁赦,我揣著相機(jī)與錄音,去河邊找鬼闻镶。 笑死甚脉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的铆农。 我是一名探鬼主播牺氨,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼墩剖!你這毒婦竟也來(lái)了猴凹?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤岭皂,失蹤者是張志新(化名)和其女友劉穎郊霎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體爷绘,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡书劝,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了土至。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片购对。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖毙籽,靈堂內(nèi)的尸體忽然破棺而出洞斯,到底是詐尸還是另有隱情,我是刑警寧澤坑赡,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布烙如,位于F島的核電站,受9級(jí)特大地震影響毅否,放射性物質(zhì)發(fā)生泄漏亚铁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一螟加、第九天 我趴在偏房一處隱蔽的房頂上張望徘溢。 院中可真熱鬧吞琐,春花似錦、人聲如沸然爆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)曾雕。三九已至奴烙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間剖张,已是汗流浹背切诀。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留搔弄,地道東北人幅虑。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像顾犹,于是被迫代替她去往敵國(guó)和親倒庵。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容