在這一篇文章里,我們將繼續(xù)上一篇文章的工作,并且在上一篇文章的前提下加入數(shù)據(jù)集的制作,最終我們將完成這個(gè)全連接神經(jīng)網(wǎng)絡(luò)的小栗子.
先說說我們上一篇文章我們的自制數(shù)據(jù)集的一切缺點(diǎn),第一,數(shù)據(jù)集過于分散,在一個(gè)文件夾里讀取難免導(dǎo)致內(nèi)存利用率低,而我們將會使用TensorFlow的tfrecords()函數(shù)來講圖片和標(biāo)簽制作成這種二進(jìn)制文件,這樣我們的內(nèi)存利用率會增加不少.
將數(shù)據(jù)保存為tfrecords文件可以視為這樣一個(gè)流程:
提取features -> 保存為Example結(jié)構(gòu)對象 -> TFRecordWriter寫入文件
而如果我們要存儲訓(xùn)練數(shù)據(jù)的時(shí)候,我們會使用tf.train.Example()來去存儲,并且訓(xùn)練數(shù)據(jù)的特征用鍵值對來表示.
現(xiàn)在讓我們看看代碼:
1:首先,我們先加入文件的路徑.這些文件是從mnist數(shù)據(jù)集中隨機(jī)找了一些,當(dāng)然,我們也可以換成別的.
定義變量,加入引用的路徑:
2:制作數(shù)據(jù)集.
首先我們新建一個(gè)writer.
然后使用for循環(huán)來去遍歷我們文件中的每一張圖和每一張圖的標(biāo)簽
最后我們把每張圖片及其標(biāo)簽封裝到example中
最終將其序列化后即可完成.
這樣我們的數(shù)據(jù)集就已經(jīng)制作完成了.
3:讀取tfrecords()文件
具體代碼:
先從read_tfRecord函數(shù)說起:
在這個(gè)函數(shù)中,我們主要使用的是:
filename_queue = tf.train.string_input_producer([tfRecord_path])
在使用這個(gè)函數(shù)后,這個(gè)函數(shù)會產(chǎn)生一個(gè)先進(jìn)先出的隊(duì)列,文本閱讀器會用它來讀取數(shù)據(jù).
而這個(gè)隊(duì)列,我們在get_tfrecord中使用到:
具體的參數(shù),在此說明下:
tf.train.string_input_producer( string_tensor, #存儲圖像和標(biāo)簽信息的 TFRecord 文件名列表
num_epochs=None, #循環(huán)讀取的輪數(shù)(可選)
shuffle=True,#布爾值(可選)朴沿,如果為 True惰匙,則在每輪隨機(jī)打亂讀取順序
seed=None,#隨機(jī)讀取時(shí)設(shè)置的種子(可選)
capacity=32, #設(shè)置隊(duì)列容量
shared_name=None, #如果設(shè)置,該隊(duì)列將在多個(gè)會話中以給定名 稱共享。所
name=None,#操作的名稱(可選)
cancel_op=None)#取消隊(duì)列(None)
接著說reader_tfrecord中:
reader = tf.TFRecordReader() #新建一個(gè) reader
這個(gè)操作是把讀出的樣本在serialized_example中進(jìn)行解析,標(biāo)簽和圖片的鍵名應(yīng)該和制作 tfrecords 的鍵名相同.該函數(shù)可以將 tf.train.Example 協(xié)議內(nèi)存塊(protocol buffer)解析為張量。
img = tf.decode_raw(features['img_raw'], tf.uint8) #將 img_raw 字符串轉(zhuǎn)換為 8 位無符號整型 img.set_shape([784]) #將形狀變?yōu)橐恍?784 列
img = tf.cast(img, tf.float32) * (1. / 255) #變成 0 到 1 之間的浮點(diǎn)數(shù)
label = tf.cast(features['label'], tf.float32)#把標(biāo)簽列表變?yōu)楦↑c(diǎn)數(shù)
return image,label #返回圖片和標(biāo)簽(跳回到 get_tfrecord)
回到get_tfrecord中:
tf.train.shuffle_batch(),隨機(jī)讀取一個(gè)batch的數(shù)據(jù)
這個(gè)函數(shù)值得說說,完整的格式如下:
tf.train.shuffle_batch(
tensors, #待亂序處理的列表中的樣本(圖像和標(biāo)簽)
batch_size, #從隊(duì)列中提取的新批量大小
capacity, #隊(duì)列中元素的最大數(shù)量
min_after_dequeue, #出隊(duì)后隊(duì)列中的最小數(shù)量元素,用于確保元素 的混合級別
num_threads=1, #排列 tensors 的線程數(shù)
seed=None, #用于隊(duì)列內(nèi)的隨機(jī)洗牌
enqueue_many=False, #tensor 中的每個(gè)張量是否是一個(gè)例子
shapes=None, #每個(gè)示例的形狀
allow_smaller_final_batch=False, #如果為 True,則在 隊(duì)列中剩余數(shù)量不足時(shí)允許最終批次更小。
shared_name=None, #如果設(shè)置悟泵,該隊(duì)列將在多個(gè)會話中以給定名稱 共享。
name=None #操作的名稱)
最后返回的圖片和標(biāo)簽為隨機(jī)抽取的 batch_size 組
而在下一篇文章中,我們將在反向傳播文件中修改圖片標(biāo)簽的獲取接口,并且利用多線程來去提高圖片和標(biāo)簽的批處理獲取效率.