解析tensorflow數(shù)據(jù)讀取機制

轉(zhuǎn)載自https://zhuanlan.zhihu.com/p/27238630旅敷，有刪改

姓名：樂仁華學號：16140220023

【嵌牛導讀】：本文主要介紹tensorflow的數(shù)據(jù)讀取機制以及實現(xiàn)例子

【嵌牛鼻子】：tensorflow螺戳，數(shù)據(jù)讀取

【嵌牛提問】：tensorflow下的數(shù)據(jù)讀取機制是怎么樣的而涉？怎么使用？

【嵌牛正文】：

一.tensorflow數(shù)據(jù)讀取機制圖解

首先需要思考的一個問題是涎才，什么是數(shù)據(jù)讀缺昊Α？以圖像數(shù)據(jù)為例掘托，讀取數(shù)據(jù)的過程可以用下圖來表示：

image.png

假設我們的硬盤中有一個圖片數(shù)據(jù)集0001.jpg，0002.jpg籍嘹，0003.jpg……我們只需要把它們讀取到內(nèi)存中闪盔，然后提供給GPU或是CPU進行計算就可以了。這聽起來很容易辱士，但事實遠沒有那么簡單泪掀。事實上，我們必須要把數(shù)據(jù)先讀入后才能進行計算颂碘，假設讀入用時0.1s异赫，計算用時0.9s，那么就意味著每過1s，GPU都會有0.1s無事可做塔拳，這就大大降低了運算的效率鼠证。

如何解決這個問題？方法就是將讀入數(shù)據(jù)和計算分別放在兩個線程中靠抑，將數(shù)據(jù)讀入內(nèi)存的一個隊列量九，如下圖所示：

image.png

讀取線程源源不斷地將文件系統(tǒng)中的圖片讀入到一個內(nèi)存的隊列中，而負責計算的是另一個線程颂碧，計算需要數(shù)據(jù)時荠列，直接從內(nèi)存隊列中取就可以了。這樣就可以解決GPU因為IO而空閑的問題载城！

而在tensorflow中肌似，為了方便管理，在內(nèi)存隊列前又添加了一層所謂的“文件名隊列”诉瓦。
為什么要添加這一層文件名隊列川队？我們首先得了解機器學習中的一個概念：epoch。對于一個數(shù)據(jù)集來講垦搬，運行一個epoch就是將這個數(shù)據(jù)集中的圖片全部計算一遍呼寸。如一個數(shù)據(jù)集中有三張圖片A.jpg艳汽、B.jpg猴贰、C.jpg，那么跑一個epoch就是指對A河狐、B米绕、C三張圖片都計算了一遍。兩個epoch就是指先對A馋艺、B栅干、C各計算一遍，然后再全部計算一遍捐祠，也就是說每張圖片都計算了兩遍碱鳞。
tensorflow使用文件名隊列+內(nèi)存隊列雙隊列的形式讀入文件，可以很好地管理epoch踱蛀。下面我們用圖片的形式來說明這個機制的運行方式窿给。如下圖，還是以數(shù)據(jù)集A.jpg, B.jpg, C.jpg為例率拒，假定我們要跑一個epoch崩泡，那么我們就在文件名隊列中把A、B猬膨、C各放入一次角撞，并在之后標注隊列結(jié)束。

image.png

程序運行后，內(nèi)存隊列首先讀入A（此時A從文件名隊列中出隊）：

image.png

再依次讀入B和C：

image.png

此時谒所，如果再嘗試讀入热康，系統(tǒng)由于檢測到了“結(jié)束”，就會自動拋出一個異常（OutOfRange）百炬。外部捕捉到這個異常后就可以結(jié)束程序了褐隆。這就是tensorflow中讀取數(shù)據(jù)的基本機制。如果我們要跑2個epoch而不是1個epoch剖踊，那只要在文件名隊列中將A庶弃、B、C依次放入兩次再標記結(jié)束就可以了德澈。

二歇攻、tensorflow讀取數(shù)據(jù)機制的對應函數(shù)

如何在tensorflow中創(chuàng)建上述的兩個隊列呢？
對于文件名隊列梆造，我們使用tf.train.string_input_producer函數(shù)缴守。這個函數(shù)需要傳入一個文件名list，系統(tǒng)會自動將它轉(zhuǎn)為一個文件名隊列镇辉。
此外tf.train.string_input_producer還有兩個重要的參數(shù)屡穗，一個是num_epochs，它就是我們上文中提到的epoch數(shù)忽肛。另外一個就是shuffle村砂，shuffle是指在一個epoch內(nèi)文件的順序是否被打亂。若設置shuffle=False屹逛，如下圖础废，每個epoch內(nèi)，數(shù)據(jù)還是按照A罕模、B评腺、C的順序進入文件名隊列，這個順序不會改變：

image.png

如果設置shuffle=True淑掌，那么在一個epoch內(nèi)蒿讥，數(shù)據(jù)的前后順序就會被打亂，如下圖所示：

image.png

在tensorflow中抛腕，內(nèi)存隊列不需要我們自己建立芋绸，我們只需要使用reader對象從文件名隊列中讀取數(shù)據(jù)就可以了，具體實現(xiàn)可以參考下面的實戰(zhàn)代碼兽埃。

除了tf.train.string_input_producer外侥钳，我們還要額外介紹一個函數(shù)：tf.train.start_queue_runners。初學者會經(jīng)常在代碼中看到這個函數(shù)柄错，但往往很難理解它的用處舷夺，在這里苦酱，有了上面的鋪墊后，我們就可以解釋這個函數(shù)的作用了给猾。
在我們使用tf.train.string_input_producer創(chuàng)建文件名隊列后疫萤，整個系統(tǒng)其實還是處于“停滯狀態(tài)”的，也就是說敢伸，我們文件名并沒有真正被加入到隊列中（如下圖所示）扯饶。此時如果我們開始計算，因為內(nèi)存隊列中什么也沒有池颈，計算單元就會一直等待尾序，導致整個系統(tǒng)被阻塞。

image.png

而使用tf.train.start_queue_runners之后躯砰，才會啟動填充隊列的線程每币，這時系統(tǒng)就不再“停滯”。此后計算單元就可以拿到數(shù)據(jù)并進行計算琢歇，整個程序也就跑起來了兰怠，這就是函數(shù)tf.train.start_queue_runners的用處。

image.png

三李茫、實戰(zhàn)代碼

我們用一個具體的例子感受tensorflow中的數(shù)據(jù)讀取揭保。如圖，假設我們在當前文件夾中已經(jīng)有A.jpg魄宏、B.jpg秸侣、C.jpg三張圖片，我們希望讀取這三張圖片5個epoch并且把讀取的結(jié)果重新存到read文件夾中娜庇。

image.png

對應的代碼如下：

# 導入tensorflow
import tensorflow as tf 

# 新建一個Session
with tf.Session() as sess:
    # 我們要讀三幅圖片A.jpg, B.jpg, C.jpg
    filename = ['A.jpg', 'B.jpg', 'C.jpg']
    # string_input_producer會產(chǎn)生一個文件名隊列
    filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)
    # reader從文件名隊列中讀數(shù)據(jù)塔次。對應的方法是reader.read
    reader = tf.WholeFileReader()
    key, value = reader.read(filename_queue)
    # tf.train.string_input_producer定義了一個epoch變量方篮，要對它進行初始化
    tf.local_variables_initializer().run()
    # 使用start_queue_runners之后名秀，才會開始填充隊列
    threads = tf.train.start_queue_runners(sess=sess)
    i = 0
    while True:
        i += 1
        # 獲取圖片數(shù)據(jù)并保存
        image_data = sess.run(value)
        with open('read/test_%d.jpg' % i, 'wb') as f:
            f.write(image_data)

我們這里使用filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)建立了一個會跑5個epoch的文件名隊列。并使用reader讀取藕溅，reader每次讀取一張圖片并保存匕得。
運行代碼后，我們得到就可以看到read文件夾中的圖片巾表，正好是按順序的5個epoch：

image.png

如果我們設置filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)中的shuffle=True汁掠，那么在每個epoch內(nèi)圖像就會被打亂，如圖所示：

image.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末集币，一起剝皮案震驚了整個濱河市考阱，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌鞠苟，老刑警劉巖乞榨，帶你破解...
沈念sama閱讀 222,627評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件秽之，死亡現(xiàn)場離奇詭異，居然都是意外死亡吃既，警方通過查閱死者的電腦和手機考榨，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,180評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來鹦倚，“玉大人河质，你說我怎么就攤上這事≌鹦穑” “怎么了掀鹅？”我有些...
開封第一講書人閱讀 169,346評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長媒楼。經(jīng)常有香客問我淫半，道長，這世上最難降的妖魔是什么匣砖？我笑而不...
開封第一講書人閱讀 60,097評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任科吭，我火速辦了婚禮，結(jié)果婚禮上猴鲫，老公的妹妹穿的比我還像新娘对人。我一直安慰自己，他們只是感情好拂共，可當我...
茶點故事閱讀 69,100評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布牺弄。她就那樣靜靜地躺著，像睡著了一般宜狐。火紅的嫁衣襯著肌膚如雪势告。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,696評論 1贊 312
城市分裂傳說
那天抚恒，我揣著相機與錄音咱台，去河邊找鬼。笑死俭驮，一個胖子當著我的面吹牛回溺，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播混萝，決...
沈念sama閱讀 41,165評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼遗遵，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了逸嘀？” 一聲冷哼從身側(cè)響起车要，我...
開封第一講書人閱讀 40,108評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎崭倘，沒想到半個月后翼岁，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體维哈，經(jīng)...
沈念sama閱讀 46,646評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,709評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年登澜，在試婚紗的時候發(fā)現(xiàn)自己被綠了阔挠。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,861評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡脑蠕，死狀恐怖购撼，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情谴仙，我是刑警寧澤迂求，帶...
沈念sama閱讀 36,527評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站晃跺，受9級特大地震影響揩局，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜掀虎，卻給世界環(huán)境...
茶點故事閱讀 42,196評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一凌盯、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧烹玉，春花似錦驰怎、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,698評論 0贊 25
一樁弒父案县忌，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至继效，卻和暖如春症杏，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背瑞信。一陣腳步聲響...
開封第一講書人閱讀 33,804評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工厉颤，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人喧伞。一個月前我還...
沈念sama閱讀 49,287評論 3贊 379
代替公主和親
正文我出身青樓走芋，卻偏偏與公主長得像绩郎，于是被迫代替她去往敵國和親潘鲫。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,860評論 2贊 361

解析tensorflow數(shù)據(jù)讀取機制

姓名：樂仁華 學號：16140220023

一.tensorflow數(shù)據(jù)讀取機制圖解

二歇攻、tensorflow讀取數(shù)據(jù)機制的對應函數(shù)

三李茫、實戰(zhàn)代碼

推薦閱讀更多精彩內(nèi)容

姓名：樂仁華學號：16140220023