tf.Data
作用:根據(jù)簡(jiǎn)單的可重用的片段構(gòu)建復(fù)雜的輸入管道
介紹一下倆個(gè)主要的抽象類:
1. Dataset: 一系列元素, 每個(gè)元素包含一個(gè)或者多個(gè)Tensor對(duì)象勃黍,這些對(duì)象稱之為組件剑辫,每個(gè)組件都有一個(gè)tf.DType, tf.TensorShape
2. Iterator:從數(shù)據(jù)集中提取元素的主要方法诊沪。
? ? Iterator.get_next()會(huì)在執(zhí)行的時(shí)候生成下一個(gè)元素
? ? 迭代器類型如下:
? ? ? ? 單次
? ? ? ? 可初始化
? ? ? ? 可重新初始化
? ? ? ? 可饋送
基本機(jī)制
啟動(dòng)輸入管道步驟:
? ? 1. 定義來(lái)源贸毕,?
? ? ? ? ? ? 如果 要從內(nèi)存中構(gòu)建Dataset忆谓,則可以使用tf.data.Dataset.from_tensors()或者tf.data.Dataset.from_tensor_slices()盟迟。
? ? ? ? ? ? 如果輸入數(shù)據(jù)是在磁盤(pán)上并且以TFRecord格式存儲(chǔ)在磁盤(pán)上的話秋泳,使用tf.data.TFRecordDataset。
? ? 2. 轉(zhuǎn)換為新的Dataset
? ? ? ? ? ? 單元素轉(zhuǎn)換map
? ? ? ? ? ? 多元素轉(zhuǎn)換batch
? ? 3. 定義迭代器對(duì)象消費(fèi)Dataset
讀取輸入數(shù)據(jù)
1. NumPy數(shù)組
? ? 如果輸入數(shù)據(jù)都在內(nèi)存中
? ? 1.1 可以簡(jiǎn)單地將他們轉(zhuǎn)成Tensor攒菠, 并使用Dataset.from_tensor_slices()
? ? 會(huì)將數(shù)據(jù)作為tf.constant()存在圖中迫皱,適合小數(shù)據(jù)集
? ? 內(nèi)存浪費(fèi)
? ? 1.2 根據(jù)tf.placeholder()張量定義Dataset, 并在數(shù)據(jù)集初始化Iterator時(shí)饋送NumPy數(shù)組????
? ? code:
2. TFRecord數(shù)據(jù)
tf.data.TFRecordDataset
3. 文本數(shù)據(jù)
tf.data.TextLineDataset()
4. CSV數(shù)據(jù)
tf.contrib.data.CsvDataset
使用Dataset.map()預(yù)處理數(shù)據(jù)
許多輸入管道都從TFRecord格式文件中提取tf.train.Example協(xié)議緩沖區(qū)消息