解析tensorflow數(shù)據(jù)讀取機制

轉(zhuǎn)載自https://zhuanlan.zhihu.com/p/27238630旅敷,有刪改

姓名:樂仁華 學號:16140220023

【嵌牛導讀】:本文主要介紹tensorflow的數(shù)據(jù)讀取機制以及實現(xiàn)例子

【嵌牛鼻子】:tensorflow螺戳,數(shù)據(jù)讀取

【嵌牛提問】:tensorflow下的數(shù)據(jù)讀取機制是怎么樣的而涉?怎么使用?

【嵌牛正文】:

一.tensorflow數(shù)據(jù)讀取機制圖解

首先需要思考的一個問題是涎才,什么是數(shù)據(jù)讀缺昊Α?以圖像數(shù)據(jù)為例掘托,讀取數(shù)據(jù)的過程可以用下圖來表示:


image.png

假設我們的硬盤中有一個圖片數(shù)據(jù)集0001.jpg,0002.jpg籍嘹,0003.jpg……我們只需要把它們讀取到內(nèi)存中闪盔,然后提供給GPU或是CPU進行計算就可以了。這聽起來很容易辱士,但事實遠沒有那么簡單泪掀。事實上,我們必須要把數(shù)據(jù)先讀入后才能進行計算颂碘,假設讀入用時0.1s异赫,計算用時0.9s,那么就意味著每過1s,GPU都會有0.1s無事可做塔拳,這就大大降低了運算的效率鼠证。

如何解決這個問題?方法就是將讀入數(shù)據(jù)和計算分別放在兩個線程中靠抑,將數(shù)據(jù)讀入內(nèi)存的一個隊列量九,如下圖所示:


image.png

讀取線程源源不斷地將文件系統(tǒng)中的圖片讀入到一個內(nèi)存的隊列中,而負責計算的是另一個線程颂碧,計算需要數(shù)據(jù)時荠列,直接從內(nèi)存隊列中取就可以了。這樣就可以解決GPU因為IO而空閑的問題载城!

而在tensorflow中肌似,為了方便管理,在內(nèi)存隊列前又添加了一層所謂的“文件名隊列”诉瓦。
為什么要添加這一層文件名隊列川队?我們首先得了解機器學習中的一個概念:epoch。對于一個數(shù)據(jù)集來講垦搬,運行一個epoch就是將這個數(shù)據(jù)集中的圖片全部計算一遍呼寸。如一個數(shù)據(jù)集中有三張圖片A.jpg艳汽、B.jpg猴贰、C.jpg,那么跑一個epoch就是指對A河狐、B米绕、C三張圖片都計算了一遍。兩個epoch就是指先對A馋艺、B栅干、C各計算一遍,然后再全部計算一遍捐祠,也就是說每張圖片都計算了兩遍碱鳞。
tensorflow使用文件名隊列+內(nèi)存隊列雙隊列的形式讀入文件,可以很好地管理epoch踱蛀。下面我們用圖片的形式來說明這個機制的運行方式窿给。如下圖,還是以數(shù)據(jù)集A.jpg, B.jpg, C.jpg為例率拒,假定我們要跑一個epoch崩泡,那么我們就在文件名隊列中把A、B猬膨、C各放入一次角撞,并在之后標注隊列結(jié)束。


image.png

程序運行后,內(nèi)存隊列首先讀入A(此時A從文件名隊列中出隊):


image.png

再依次讀入B和C:


image.png

image.png

此時谒所,如果再嘗試讀入热康,系統(tǒng)由于檢測到了“結(jié)束”,就會自動拋出一個異常(OutOfRange)百炬。外部捕捉到這個異常后就可以結(jié)束程序了褐隆。這就是tensorflow中讀取數(shù)據(jù)的基本機制。如果我們要跑2個epoch而不是1個epoch剖踊,那只要在文件名隊列中將A庶弃、B、C依次放入兩次再標記結(jié)束就可以了德澈。

二歇攻、tensorflow讀取數(shù)據(jù)機制的對應函數(shù)

如何在tensorflow中創(chuàng)建上述的兩個隊列呢?
對于文件名隊列梆造,我們使用tf.train.string_input_producer函數(shù)缴守。這個函數(shù)需要傳入一個文件名list,系統(tǒng)會自動將它轉(zhuǎn)為一個文件名隊列镇辉。
此外tf.train.string_input_producer還有兩個重要的參數(shù)屡穗,一個是num_epochs,它就是我們上文中提到的epoch數(shù)忽肛。另外一個就是shuffle村砂,shuffle是指在一個epoch內(nèi)文件的順序是否被打亂。若設置shuffle=False屹逛,如下圖础废,每個epoch內(nèi),數(shù)據(jù)還是按照A罕模、B评腺、C的順序進入文件名隊列,這個順序不會改變:


image.png

如果設置shuffle=True淑掌,那么在一個epoch內(nèi)蒿讥,數(shù)據(jù)的前后順序就會被打亂,如下圖所示:


image.png

在tensorflow中抛腕,內(nèi)存隊列不需要我們自己建立芋绸,我們只需要使用reader對象從文件名隊列中讀取數(shù)據(jù)就可以了,具體實現(xiàn)可以參考下面的實戰(zhàn)代碼兽埃。

除了tf.train.string_input_producer外侥钳,我們還要額外介紹一個函數(shù):tf.train.start_queue_runners。初學者會經(jīng)常在代碼中看到這個函數(shù)柄错,但往往很難理解它的用處舷夺,在這里苦酱,有了上面的鋪墊后,我們就可以解釋這個函數(shù)的作用了给猾。
在我們使用tf.train.string_input_producer創(chuàng)建文件名隊列后疫萤,整個系統(tǒng)其實還是處于“停滯狀態(tài)”的,也就是說敢伸,我們文件名并沒有真正被加入到隊列中(如下圖所示)扯饶。此時如果我們開始計算,因為內(nèi)存隊列中什么也沒有池颈,計算單元就會一直等待尾序,導致整個系統(tǒng)被阻塞。


image.png

而使用tf.train.start_queue_runners之后躯砰,才會啟動填充隊列的線程每币,這時系統(tǒng)就不再“停滯”。此后計算單元就可以拿到數(shù)據(jù)并進行計算琢歇,整個程序也就跑起來了兰怠,這就是函數(shù)tf.train.start_queue_runners的用處。


image.png

三李茫、實戰(zhàn)代碼

我們用一個具體的例子感受tensorflow中的數(shù)據(jù)讀取揭保。如圖,假設我們在當前文件夾中已經(jīng)有A.jpg魄宏、B.jpg秸侣、C.jpg三張圖片,我們希望讀取這三張圖片5個epoch并且把讀取的結(jié)果重新存到read文件夾中娜庇。


image.png

對應的代碼如下:

# 導入tensorflow
import tensorflow as tf 

# 新建一個Session
with tf.Session() as sess:
    # 我們要讀三幅圖片A.jpg, B.jpg, C.jpg
    filename = ['A.jpg', 'B.jpg', 'C.jpg']
    # string_input_producer會產(chǎn)生一個文件名隊列
    filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)
    # reader從文件名隊列中讀數(shù)據(jù)塔次。對應的方法是reader.read
    reader = tf.WholeFileReader()
    key, value = reader.read(filename_queue)
    # tf.train.string_input_producer定義了一個epoch變量方篮,要對它進行初始化
    tf.local_variables_initializer().run()
    # 使用start_queue_runners之后名秀,才會開始填充隊列
    threads = tf.train.start_queue_runners(sess=sess)
    i = 0
    while True:
        i += 1
        # 獲取圖片數(shù)據(jù)并保存
        image_data = sess.run(value)
        with open('read/test_%d.jpg' % i, 'wb') as f:
            f.write(image_data)

我們這里使用filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)建立了一個會跑5個epoch的文件名隊列。并使用reader讀取藕溅,reader每次讀取一張圖片并保存匕得。
運行代碼后,我們得到就可以看到read文件夾中的圖片巾表,正好是按順序的5個epoch:


image.png

如果我們設置filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)中的shuffle=True汁掠,那么在每個epoch內(nèi)圖像就會被打亂,如圖所示:


image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末集币,一起剝皮案震驚了整個濱河市考阱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌鞠苟,老刑警劉巖乞榨,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件秽之,死亡現(xiàn)場離奇詭異,居然都是意外死亡吃既,警方通過查閱死者的電腦和手機考榨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來鹦倚,“玉大人河质,你說我怎么就攤上這事≌鹦穑” “怎么了掀鹅?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長媒楼。 經(jīng)常有香客問我淫半,道長,這世上最難降的妖魔是什么匣砖? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任科吭,我火速辦了婚禮,結(jié)果婚禮上猴鲫,老公的妹妹穿的比我還像新娘对人。我一直安慰自己,他們只是感情好拂共,可當我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布牺弄。 她就那樣靜靜地躺著,像睡著了一般宜狐。 火紅的嫁衣襯著肌膚如雪势告。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天抚恒,我揣著相機與錄音咱台,去河邊找鬼。 笑死俭驮,一個胖子當著我的面吹牛回溺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播混萝,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼遗遵,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了逸嘀?” 一聲冷哼從身側(cè)響起车要,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎崭倘,沒想到半個月后翼岁,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體维哈,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年登澜,在試婚紗的時候發(fā)現(xiàn)自己被綠了阔挠。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡脑蠕,死狀恐怖购撼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情谴仙,我是刑警寧澤迂求,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站晃跺,受9級特大地震影響揩局,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜掀虎,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一凌盯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧烹玉,春花似錦驰怎、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至继效,卻和暖如春症杏,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背瑞信。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工厉颤, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人喧伞。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓走芋,卻偏偏與公主長得像绩郎,于是被迫代替她去往敵國和親潘鲫。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容