轉(zhuǎn)載自https://zhuanlan.zhihu.com/p/27238630旅敷,有刪改
姓名:樂仁華 學號:16140220023
【嵌牛導讀】:本文主要介紹tensorflow的數(shù)據(jù)讀取機制以及實現(xiàn)例子
【嵌牛鼻子】:tensorflow螺戳,數(shù)據(jù)讀取
【嵌牛提問】:tensorflow下的數(shù)據(jù)讀取機制是怎么樣的而涉?怎么使用?
【嵌牛正文】:
一.tensorflow數(shù)據(jù)讀取機制圖解
首先需要思考的一個問題是涎才,什么是數(shù)據(jù)讀缺昊Α?以圖像數(shù)據(jù)為例掘托,讀取數(shù)據(jù)的過程可以用下圖來表示:
假設我們的硬盤中有一個圖片數(shù)據(jù)集0001.jpg,0002.jpg籍嘹,0003.jpg……我們只需要把它們讀取到內(nèi)存中闪盔,然后提供給GPU或是CPU進行計算就可以了。這聽起來很容易辱士,但事實遠沒有那么簡單泪掀。事實上,我們必須要把數(shù)據(jù)先讀入后才能進行計算颂碘,假設讀入用時0.1s异赫,計算用時0.9s,那么就意味著每過1s,GPU都會有0.1s無事可做塔拳,這就大大降低了運算的效率鼠证。
如何解決這個問題?方法就是將讀入數(shù)據(jù)和計算分別放在兩個線程中靠抑,將數(shù)據(jù)讀入內(nèi)存的一個隊列量九,如下圖所示:
讀取線程源源不斷地將文件系統(tǒng)中的圖片讀入到一個內(nèi)存的隊列中,而負責計算的是另一個線程颂碧,計算需要數(shù)據(jù)時荠列,直接從內(nèi)存隊列中取就可以了。這樣就可以解決GPU因為IO而空閑的問題载城!
而在tensorflow中肌似,為了方便管理,在內(nèi)存隊列前又添加了一層所謂的“文件名隊列”诉瓦。
為什么要添加這一層文件名隊列川队?我們首先得了解機器學習中的一個概念:epoch。對于一個數(shù)據(jù)集來講垦搬,運行一個epoch就是將這個數(shù)據(jù)集中的圖片全部計算一遍呼寸。如一個數(shù)據(jù)集中有三張圖片A.jpg艳汽、B.jpg猴贰、C.jpg,那么跑一個epoch就是指對A河狐、B米绕、C三張圖片都計算了一遍。兩個epoch就是指先對A馋艺、B栅干、C各計算一遍,然后再全部計算一遍捐祠,也就是說每張圖片都計算了兩遍碱鳞。
tensorflow使用文件名隊列+內(nèi)存隊列雙隊列的形式讀入文件,可以很好地管理epoch踱蛀。下面我們用圖片的形式來說明這個機制的運行方式窿给。如下圖,還是以數(shù)據(jù)集A.jpg, B.jpg, C.jpg為例率拒,假定我們要跑一個epoch崩泡,那么我們就在文件名隊列中把A、B猬膨、C各放入一次角撞,并在之后標注隊列結(jié)束。
程序運行后,內(nèi)存隊列首先讀入A(此時A從文件名隊列中出隊):
再依次讀入B和C:
此時谒所,如果再嘗試讀入热康,系統(tǒng)由于檢測到了“結(jié)束”,就會自動拋出一個異常(OutOfRange)百炬。外部捕捉到這個異常后就可以結(jié)束程序了褐隆。這就是tensorflow中讀取數(shù)據(jù)的基本機制。如果我們要跑2個epoch而不是1個epoch剖踊,那只要在文件名隊列中將A庶弃、B、C依次放入兩次再標記結(jié)束就可以了德澈。
二歇攻、tensorflow讀取數(shù)據(jù)機制的對應函數(shù)
如何在tensorflow中創(chuàng)建上述的兩個隊列呢?
對于文件名隊列梆造,我們使用tf.train.string_input_producer函數(shù)缴守。這個函數(shù)需要傳入一個文件名list,系統(tǒng)會自動將它轉(zhuǎn)為一個文件名隊列镇辉。
此外tf.train.string_input_producer還有兩個重要的參數(shù)屡穗,一個是num_epochs,它就是我們上文中提到的epoch數(shù)忽肛。另外一個就是shuffle村砂,shuffle是指在一個epoch內(nèi)文件的順序是否被打亂。若設置shuffle=False屹逛,如下圖础废,每個epoch內(nèi),數(shù)據(jù)還是按照A罕模、B评腺、C的順序進入文件名隊列,這個順序不會改變:
如果設置shuffle=True淑掌,那么在一個epoch內(nèi)蒿讥,數(shù)據(jù)的前后順序就會被打亂,如下圖所示:
在tensorflow中抛腕,內(nèi)存隊列不需要我們自己建立芋绸,我們只需要使用reader對象從文件名隊列中讀取數(shù)據(jù)就可以了,具體實現(xiàn)可以參考下面的實戰(zhàn)代碼兽埃。
除了tf.train.string_input_producer外侥钳,我們還要額外介紹一個函數(shù):tf.train.start_queue_runners。初學者會經(jīng)常在代碼中看到這個函數(shù)柄错,但往往很難理解它的用處舷夺,在這里苦酱,有了上面的鋪墊后,我們就可以解釋這個函數(shù)的作用了给猾。
在我們使用tf.train.string_input_producer創(chuàng)建文件名隊列后疫萤,整個系統(tǒng)其實還是處于“停滯狀態(tài)”的,也就是說敢伸,我們文件名并沒有真正被加入到隊列中(如下圖所示)扯饶。此時如果我們開始計算,因為內(nèi)存隊列中什么也沒有池颈,計算單元就會一直等待尾序,導致整個系統(tǒng)被阻塞。
而使用tf.train.start_queue_runners之后躯砰,才會啟動填充隊列的線程每币,這時系統(tǒng)就不再“停滯”。此后計算單元就可以拿到數(shù)據(jù)并進行計算琢歇,整個程序也就跑起來了兰怠,這就是函數(shù)tf.train.start_queue_runners的用處。
三李茫、實戰(zhàn)代碼
我們用一個具體的例子感受tensorflow中的數(shù)據(jù)讀取揭保。如圖,假設我們在當前文件夾中已經(jīng)有A.jpg魄宏、B.jpg秸侣、C.jpg三張圖片,我們希望讀取這三張圖片5個epoch并且把讀取的結(jié)果重新存到read文件夾中娜庇。
對應的代碼如下:
# 導入tensorflow
import tensorflow as tf
# 新建一個Session
with tf.Session() as sess:
# 我們要讀三幅圖片A.jpg, B.jpg, C.jpg
filename = ['A.jpg', 'B.jpg', 'C.jpg']
# string_input_producer會產(chǎn)生一個文件名隊列
filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)
# reader從文件名隊列中讀數(shù)據(jù)塔次。對應的方法是reader.read
reader = tf.WholeFileReader()
key, value = reader.read(filename_queue)
# tf.train.string_input_producer定義了一個epoch變量方篮,要對它進行初始化
tf.local_variables_initializer().run()
# 使用start_queue_runners之后名秀,才會開始填充隊列
threads = tf.train.start_queue_runners(sess=sess)
i = 0
while True:
i += 1
# 獲取圖片數(shù)據(jù)并保存
image_data = sess.run(value)
with open('read/test_%d.jpg' % i, 'wb') as f:
f.write(image_data)
我們這里使用filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)建立了一個會跑5個epoch的文件名隊列。并使用reader讀取藕溅,reader每次讀取一張圖片并保存匕得。
運行代碼后,我們得到就可以看到read文件夾中的圖片巾表,正好是按順序的5個epoch:
如果我們設置filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)中的shuffle=True汁掠,那么在每個epoch內(nèi)圖像就會被打亂,如圖所示: