[tf] TFRecord + Dataset 進行數(shù)據(jù)的寫入和讀取

  • Record顧名思義主要是為了記錄數(shù)據(jù)的寸莫。
  • 使用TFRocord存儲數(shù)據(jù)的好處:
    • 為了更加方便的建圖尖滚,原來使用placeholder的話,還要每次feed_dict一下庐氮,使用TFRecord+ Dataset 的時候直接就把數(shù)據(jù)讀入操作當(dāng)成一個圖中的節(jié)點语稠,就不用每次都feed了。
    • 可以方便的和Estimator進行對接。
  • TFRecord以字典的方式進行數(shù)據(jù)的創(chuàng)建仙畦。

將數(shù)據(jù)寫入TFRecord 文件

創(chuàng)建一個writer

writer = tf.python_io.TFRecordWriter('%s.tfrecord' %'data')

創(chuàng)建存儲類型tf_feature

.tfrecord里面寫數(shù)據(jù)的時候首先要先定義寫入數(shù)據(jù)項(feature)的類型输涕。

  • int64tf.train.Feature(int64_list = tf.train.Int64List(value=輸入))
  • float32tf.train.Feature(float_list = tf.train.FloatList(value=輸入))
  • stringtf.train.Feature(bytes_list=tf.train.BytesList(value=輸入))
  • 注:輸入必須是list(向量),由于tensorflow feature類型只接受list數(shù)據(jù)慨畸,但是如果數(shù)據(jù)類型是矩陣或者張量的時候莱坎,有兩種解決方法:
    • 轉(zhuǎn)成list類型:將張量fattenlist(也就是向量),再用寫入list的方式寫入寸士。
    • 轉(zhuǎn)成string類型:將張量用.tostring()轉(zhuǎn)換成string類型型奥,再用tf.train.Feature(bytes_list=tf.train.BytesList(value=[input.tostring()]))來存儲。
    • 形狀信息:不管那種方式都會使數(shù)據(jù)丟失形狀信息碉京,所以在向該樣本中寫入feature時應(yīng)該額外加入shape信息作為額外feature。shape信息是int類型螟深,這里我是用原feature名字+'_shape'來指定shape信息的feature名谐宙。
# 這里我們將會寫3個樣本,每個樣本里有4個feature:標(biāo)量界弧,向量凡蜻,矩陣,張量
for i in range(3):
    # 創(chuàng)建字典
    features={}
    # 寫入標(biāo)量垢箕,類型Int64划栓,由于是標(biāo)量,所以"value=[scalars[i]]" 變成list
    features['scalar'] = tf.train.Feature(int64_list=tf.train.Int64List(value=[scalars[i]]))
    
    # 寫入向量条获,類型float忠荞,本身就是list,所以"value=vectors[i]"沒有中括號
    features['vector'] = tf.train.Feature(float_list = tf.train.FloatList(value=vectors[i]))
    
    # 寫入矩陣帅掘,類型float委煤,本身是矩陣,一種方法是將矩陣flatten成list
    features['matrix'] = tf.train.Feature(float_list = tf.train.FloatList(value=matrices[i].reshape(-1)))
    # 然而矩陣的形狀信息(2,3)會丟失修档,需要存儲形狀信息碧绞,隨后可轉(zhuǎn)回原形狀
    features['matrix_shape'] = tf.train.Feature(int64_list = tf.train.Int64List(value=matrices[i].shape))
    
    # 寫入張量,類型float吱窝,本身是三維張量讥邻,另一種方法是轉(zhuǎn)變成字符類型存儲,隨后再轉(zhuǎn)回原類型
    features['tensor']         = tf.train.Feature(bytes_list=tf.train.BytesList(value=[tensors[i].tostring()]))
    # 存儲丟失的形狀信息(806,806,3)
    features['tensor_shape'] = tf.train.Feature(int64_list = tf.train.Int64List(value=tensors[i].shape))

將 tf_feature 轉(zhuǎn)換成 tf_example 以及進行序列化

# 將存有所有feature的字典送入tf.train.Features中
tf_features = tf.train.Features(feature= features)
# 再將其變成一個樣本example
tf_example = tf.train.Example(features = tf_features)
# 序列化該樣本
tf_serialized = tf_example.SerializeToString()

寫入樣本 關(guān)閉文件

# 寫入一個序列化的樣本
writer.write(tf_serialized)
# 由于上面有循環(huán)3次院峡,所以到此我們已經(jīng)寫了3個樣本
# 關(guān)閉文件    
writer.close()

使用Dataset讀取數(shù)據(jù)

之前的一篇Dataset的介紹 介紹了Dataset的基本用法兴使,下面的介紹如何和TFRecord配合使用。

dataset = tf.data.TFRecordDataset(filenames)
# 這樣的話就是讀取兩次數(shù)據(jù)撕予,數(shù)據(jù)量就是兩倍
dataset = tf.data.TFRecordDataset(["test.tfrecord","test.tfrecord"])

解析feature信息鲫惶。

是寫入的逆過程,所以會需要寫入時的信息:使用庫pandas实抡。

  • isbyte是用于記錄該feature是否字符化了欠母。
  • default是所讀的樣本該feature值如果有確實欢策,用什么進行填補,一般是使用np.NaN
  • length_type:是指示讀取向量的方式是否是定長赏淌。
data_info = pd.DataFrame({'name':['scalar','vector','matrix','matrix_shape','tensor','tensor_shape'],
                         'type':[scalars[0].dtype,vectors[0].dtype,matrices[0].dtype,tf.int64, tensors[0].dtype,tf.int64],
                         'shape':[scalars[0].shape,(3,),matrices[0].shape,(len(matrices[0].shape),),tensors[0].shape,(len(tensors[0].shape),)],
                         'isbyte':[False,False,True,False,False,False],
                         'length_type':['fixed','fixed','var','fixed','fixed','fixed']},
                         columns=['name','type','shape','isbyte','length_type','default'])

創(chuàng)建解析函數(shù)

example_proto踩寇,也就是序列化后的數(shù)據(jù)(也就是讀取到的TFRecord數(shù)據(jù))。

def parse_function(example_proto):
    # 只接受一個輸入:example_proto六水,也就是序列化后的樣本tf_serialized

解析方式有兩種:

  • 定長特征解析:tf.FixedLenFeature(shape, dtype, default_value)
    • shape:可當(dāng)reshape來用俺孙,如vectorshape(3,)改動成了(1,3)
      注:如果寫入的feature使用了.tostring()shape就是()
    • dtype:必須是tf.float32掷贾,tf.int64睛榄, tf.string中的一種。
    • default_valuefeature值缺失時所指定的值想帅。
  • 不定長特征解析:tf.VarLenFeature(dtype)
  • 注:可以不明確指定shape场靴,但得到的tensorSparseTensor
dics = {# 這里沒用default_value港准,隨后的都是None
            'scalar': tf.FixedLenFeature(shape=(), dtype=tf.int64, default_value=None), 
             
            # vector的shape刻意從原本的(3,)指定成(1,3)
            'vector': tf.FixedLenFeature(shape=(1,3), dtype=tf.float32), 
            
            # 使用 VarLenFeature來解析
            'matrix': tf.VarLenFeature(dtype=dtype('float32')), 
            'matrix_shape': tf.FixedLenFeature(shape=(2,), dtype=tf.int64), 
            # tensor在寫入時 使用了toString()旨剥,shape是()
            # 但這里的type不是tensor的原type,而是字符化后所用的tf.string浅缸,隨后再回轉(zhuǎn)成原tf.uint8類型
            'tensor': tf.FixedLenFeature(shape=(), dtype=tf.string), 
            'tensor_shape': tf.FixedLenFeature(shape=(3,), dtype=tf.int64)}

進行解析

  • 得到的parsed_example也是一個字典轨帜,其中每個key是對應(yīng)feature的名字,value是相應(yīng)的feature解析值衩椒。如果使用了下面兩種情況蚌父,則還需要對這些值進行轉(zhuǎn)變。其他情況則不用烟具。

  • string類型:tf.decode_raw(parsed_feature, type) 來解碼
    注:這里type必須要和當(dāng)初.tostring()化前的一致梢什。如tensor轉(zhuǎn)變前是tf.uint8,這里就需是tf.uint8朝聋;轉(zhuǎn)變前是tf.float32嗡午,則tf.float32

  • VarLen解析:由于得到的是SparseTensor,所以視情況需要用tf.sparse_tensor_to_dense(SparseTensor)來轉(zhuǎn)變成DenseTensor冀痕。

# 把序列化樣本和解析字典送入函數(shù)里得到解析的樣本
parsed_example = tf.parse_single_example(example_proto, dics)
# 解碼字符
parsed_example['tensor'] = tf.decode_raw(parsed_example['tensor'], tf.uint8)
# 稀疏表示 轉(zhuǎn)為 密集表示
parsed_example['matrix'] = tf.sparse_tensor_to_dense(parsed_example['matrix'])

轉(zhuǎn)變形狀

# 轉(zhuǎn)變matrix形狀
parsed_example['matrix'] = tf.reshape(parsed_example['matrix'], parsed_example['matrix_shape'])
# 轉(zhuǎn)變tensor形狀
parsed_example['tensor'] = tf.reshape(parsed_example['tensor'], parsed_example['tensor_shape'])

執(zhí)行解析函數(shù)

new_dataset = dataset.map(parse_function)

創(chuàng)建迭代器

  • 有了解析過的數(shù)據(jù)集后荔睹,接下來就是獲取當(dāng)中的樣本。
  • make_one_shot_iterator():表示只將數(shù)據(jù)讀取一次言蛇,然后就拋棄這個數(shù)據(jù)了
# 創(chuàng)建獲取數(shù)據(jù)集中樣本的迭代器
iterator = new_dataset.make_one_shot_iterator()

獲取樣本

# 獲得下一個樣本
next_element = iterator.get_next()
# 創(chuàng)建Session
sess = tf.InteractiveSession()

# 獲取
i = 1
while True:
    # 不斷的獲得下一個樣本
    try:
        # 獲得的值直接屬于graph的一部分僻他,所以不再需要用feed_dict來喂
        scalar,vector,matrix,tensor = sess.run([next_element['scalar'],
                                                next_element['vector'],
                                                next_element['matrix'],
                                                next_element['tensor']])
    # 如果遍歷完了數(shù)據(jù)集,則返回錯誤
    except tf.errors.OutOfRangeError:
        print("End of dataset")
        break
    else:
        # 顯示每個樣本中的所有feature的信息腊尚,只顯示scalar的值
        print('==============example %s ==============' %i)
        print('scalar: value: %s | shape: %s | type: %s' %(scalar, scalar.shape, scalar.dtype))
        print('vector shape: %s | type: %s' %(vector.shape, vector.dtype))
        print('matrix shape: %s | type: %s' %(matrix.shape, matrix.dtype))
        print('tensor shape: %s | type: %s' %(tensor.shape, tensor.dtype))
    i+=1
plt.imshow(tensor)

進行shuffle

  • buffer_size=10000:的含義是先創(chuàng)建一個大小為10000的buffer吨拗,然后對這個buffer進行打亂,如果buffersize過大的話雖然打亂效果很好,但是更加的占用內(nèi)存劝篷,如果buffersize小的話打亂效果不好哨鸭,一般可以設(shè)置為一個batch_size的10倍。
shuffle_dataset = new_dataset.shuffle(buffer_size=10000)
iterator = shuffle_dataset.make_one_shot_iterator()
next_element = iterator.get_next()

設(shè)置batch

batch_dataset = shuffle_dataset.batch(4)
iterator = batch_dataset.make_one_shot_iterator()
next_element = iterator.get_next()

Batch_padding

  • 可以在每個batch內(nèi)進行padding娇妓。
  • padded_shapes指定了內(nèi)部數(shù)據(jù)是如何pad的像鸡。
  • rank數(shù)要與元數(shù)據(jù)對應(yīng)
  • rank中的任何一維被設(shè)定成None-1時都表示將pad到該batch下的最大長度。
batch_padding_dataset = new_dataset.padded_batch(4, 
                        padded_shapes={'scalar': [],
                                       'vector': [-1,5],
                                       'matrix': [None,None],
                                       'matrix_shape': [None],
                                       'tensor': [None,None,None],
                                       'tensor_shape': [None]})
iterator = batch_padding_dataset.make_one_shot_iterator()
next_element = iterator.get_next()

設(shè)置epoch

使用.repeat(num_epochs)來指定要遍歷幾遍整個數(shù)據(jù)集哈恰。

num_epochs = 2
epoch_dataset = new_dataset.repeat(num_epochs)
iterator = epoch_dataset.make_one_shot_iterator()
next_element = iterator.get_next()
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末只估,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子着绷,更是在濱河造成了極大的恐慌蛔钙,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件荠医,死亡現(xiàn)場離奇詭異夸楣,居然都是意外死亡,警方通過查閱死者的電腦和手機子漩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,347評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來石洗,“玉大人幢泼,你說我怎么就攤上這事〗采溃” “怎么了缕棵?”我有些...
    開封第一講書人閱讀 157,435評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長涉兽。 經(jīng)常有香客問我招驴,道長,這世上最難降的妖魔是什么枷畏? 我笑而不...
    開封第一講書人閱讀 56,509評論 1 284
  • 正文 為了忘掉前任别厘,我火速辦了婚禮,結(jié)果婚禮上拥诡,老公的妹妹穿的比我還像新娘触趴。我一直安慰自己,他們只是感情好渴肉,可當(dāng)我...
    茶點故事閱讀 65,611評論 6 386
  • 文/花漫 我一把揭開白布冗懦。 她就那樣靜靜地躺著,像睡著了一般仇祭。 火紅的嫁衣襯著肌膚如雪披蕉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,837評論 1 290
  • 那天,我揣著相機與錄音没讲,去河邊找鬼眯娱。 笑死,一個胖子當(dāng)著我的面吹牛食零,可吹牛的內(nèi)容都是我干的困乒。 我是一名探鬼主播,決...
    沈念sama閱讀 38,987評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼贰谣,長吁一口氣:“原來是場噩夢啊……” “哼娜搂!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起吱抚,我...
    開封第一講書人閱讀 37,730評論 0 267
  • 序言:老撾萬榮一對情侶失蹤百宇,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后秘豹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體携御,經(jīng)...
    沈念sama閱讀 44,194評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,525評論 2 327
  • 正文 我和宋清朗相戀三年既绕,在試婚紗的時候發(fā)現(xiàn)自己被綠了啄刹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,664評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡凄贩,死狀恐怖誓军,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情疲扎,我是刑警寧澤昵时,帶...
    沈念sama閱讀 34,334評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站椒丧,受9級特大地震影響壹甥,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜壶熏,卻給世界環(huán)境...
    茶點故事閱讀 39,944評論 3 313
  • 文/蒙蒙 一句柠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧棒假,春花似錦俄占、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,764評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至祝拯,卻和暖如春甚带,著一層夾襖步出監(jiān)牢的瞬間她肯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,997評論 1 266
  • 我被黑心中介騙來泰國打工鹰贵, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留晴氨,地道東北人。 一個月前我還...
    沈念sama閱讀 46,389評論 2 360
  • 正文 我出身青樓碉输,卻偏偏與公主長得像籽前,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子敷钾,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,554評論 2 349