使用PAI深度學(xué)習(xí)讀取OSS文件

在PAI上, 使用TensorFlow讀取OSS文件

作者: 萬(wàn)千鈞
轉(zhuǎn)載需注明出處

本文適合有一定TensorFlow基礎(chǔ), 且準(zhǔn)備使用PAI的同學(xué)閱讀

tf.gfile.Copy(oldpath, newpath, overwrite=False) # 拷貝文件
tf.gfile.DeleteRecursively(dirname) # 遞歸刪除目錄下所有文件
tf.gfile.Exists(filename) # 文件是否存在
tf.gfile.FastGFile(name, mode='r') # 無(wú)阻塞讀取文件
tf.gfile.GFile(name, mode='r') # 讀取文件
tf.gfile.Glob(filename) # 列出文件夾下所有文件, 支持pattern
tf.gfile.IsDirectory(dirname) # 返回dirname是否為一個(gè)目錄
tf.gfile.ListDirectory(dirname) # 列出dirname下所有文件
tf.gfile.MakeDirs(dirname) # 在dirname下創(chuàng)建一個(gè)文件夾, 如果父目錄不存在, 會(huì)自動(dòng)創(chuàng)建父目錄. 如果
文件夾已經(jīng)存在, 且文件夾可寫(xiě), 會(huì)返回成功
tf.gfile.MkDir(dirname) # 在dirname處創(chuàng)建一個(gè)文件夾
tf.gfile.Remove(filename) # 刪除filename
tf.gfile.Rename(oldname, newname, overwrite=False) # 重命名
tf.gfile.Stat(dirname) # 返回目錄的統(tǒng)計(jì)數(shù)據(jù)
tf.gfile.Walk(top, inOrder=True) # 返回目錄的文件樹(shù)

具體的文檔可以參照這里(可能需要翻墻)

如果是一批一批的讀取文件, 一般會(huì)采用tf.WhoFileReader() 和 tf.train.batch() /
tf.train.shuffer_batch()

接下來(lái)會(huì)重點(diǎn)介紹常用的 tf.gfile.Glob, tf.gfile.FastGFile, tf.WhoFileReader() 和
tf.train.shuffer_batch()

讀取文件一般有兩步

獲取文件列表
讀取文件

如果是批量讀取, 還有第三步

創(chuàng)建batch

從代碼上手:
在使用PAI的時(shí)候, 通常需要在右側(cè)設(shè)置讀取目錄, 代碼文件等參數(shù), 這些參數(shù)都會(huì)通過(guò)--XXX的形式傳入

tf.flags可以提供了這個(gè)功能

import tensorflow as tf

FLAGS = tf.flags.FLAGS
# 前面的buckets, checkpointDir都是固定的, 不建議更改

tf.flags.DEFINE_string('buckets', 'oss://XXX', '訓(xùn)練圖片所在文件夾')
tf.flags.DEFINE_string('batch_size', '15', 'batch大小')

# 獲取文件列表

files = tf.gfile.Glob(os.path.join(FLAGS.buckets,'*.jpg')) # 如我想列出buckets下所有jpg文件路徑

接下來(lái)就分兩種情況了

(小規(guī)模讀取時(shí)建議) tf.gfile.FastGfile()

for path in files:
    file_content = tf.gfile.FastGFile(path, 'rb').read() # 一定記得使用rb讀取, 不然很多情況下都會(huì)報(bào)錯(cuò)
    image = tf.image.decode_jpeg(file_content, channels=3) # 本教程以JPG圖片為例

(大批量讀取時(shí)建議) tf.WhoFileReader()

reader = tf.WholeFileReader()  # 實(shí)例化一個(gè)reader
fileQueue = tf.train.string_input_producer(files)  # 創(chuàng)建一個(gè)供reader讀取的隊(duì)列
file_name, file_content = reader.read(fileQueue)  # 使reader從隊(duì)列中讀取一個(gè)文件
image_content = tf.image.decode_jpeg(file_content, channels=3)  # 講讀取結(jié)果解碼為圖片
label = XXX  # 這里省略處理label的過(guò)程
batch = tf.train.shuffle_batch([label, image_content], batch_size=FLAGS.batch_size, num_threads=4,
                               capacity=1000 + 3 * FLAGS.batch_size, min_after_dequeue=1000)

sess = tf.Session()  # 創(chuàng)建Session
tf.train.start_queue_runners(sess=sess)  # 重要!!! 這個(gè)函數(shù)是啟動(dòng)隊(duì)列, 不加這句線程會(huì)一直阻塞
labels, images = sess.run(batch)  # 獲取結(jié)果

現(xiàn)在解釋下其中重要的部分

tf.train.string_input_producer, 這個(gè)是把files轉(zhuǎn)換成一個(gè)隊(duì)列, 并且需要 tf.train.start_queue_runners 來(lái)啟動(dòng)隊(duì)列
tf.train.shuffle_batch 參數(shù)解釋

batch_size 批大小, 每次運(yùn)行這個(gè)batch, 返回多少個(gè)數(shù)據(jù)
num_threads 運(yùn)行線程數(shù), 在PAI上4個(gè)就好
capacity 隨機(jī)取文件范圍, 比如你的數(shù)據(jù)集有10000個(gè)數(shù)據(jù), 你想從5000個(gè)數(shù)據(jù)中隨機(jī)取, capacity就設(shè)置成5000.
min_after_dequeue 維持隊(duì)列的最小長(zhǎng)度, 這里只要注意不要大于capacity即可

2. 寫(xiě)入數(shù)據(jù)

1.直接使用tf.gfile.FastGFile()寫(xiě)入

tf.gfile.FastGFile(FLAGS.checkpointDir + 'example.txt', 'wb').write('hello world')

通過(guò)tf.gfile.Copy()拷貝

tf.gfile.Copy('./example.txt', FLAGS.checkpointDir + 'example.txt')

通過(guò)這兩種方法, 文件都會(huì)出現(xiàn)在 '輸出目錄/model/example.txt' 下

3. 費(fèi)用開(kāi)支

這里只討論讀取文件所需要的費(fèi)用開(kāi)支

原則上來(lái)說(shuō), PAI不跨區(qū)域讀取OSS是不收費(fèi)的, 但是OSS的API是收費(fèi)的. PAI在使用 tf.gile.Glob 的時(shí)候
會(huì)產(chǎn)生GET請(qǐng)求, 在寫(xiě)入tensorboard的時(shí)候, 也會(huì)產(chǎn)生PUT請(qǐng)求. 這兩種請(qǐng)求都是按次收費(fèi)的, 具體價(jià)格如下

標(biāo)準(zhǔn)型單價(jià): 0.01元/萬(wàn)次

低頻訪問(wèn)型單價(jià): 0.1元/萬(wàn)次

歸檔型單價(jià): 0.1元/萬(wàn)次

當(dāng)數(shù)據(jù)集有幾十萬(wàn)圖片, 通過(guò)tf.gile.Glob一次就需要幾毛錢(qián). 所以減少費(fèi)用開(kāi)支的方法就是減少GET請(qǐng)求次數(shù)

這里給出幾種解決思路

最好的解決思路, 把所有會(huì)使用到的數(shù)據(jù), 一并上傳傳到OSS, 然后使用tensorflow拷貝到運(yùn)行時(shí)目錄, 最后通過(guò)tensorflow讀取, 這樣是最節(jié)省開(kāi)支的.
通過(guò)tfrecords, 在本地, 提前把幾十上百?gòu)垐D片通過(guò)tfrecords存下來(lái), 這樣讀取的時(shí)候可以減少GET請(qǐng)求

把訓(xùn)練使用的圖片隨著代碼的壓縮包一起傳上去, 不走OSS讀取

三種方法都可以顯著的減少開(kāi)支.

4.使用中需要注意的

事實(shí)上, 每次讀取傳過(guò)來(lái)的地址就是 oss://你的buckets名字/XXX, 本以為不需要在PAI界面上設(shè)置, 直接讀取這個(gè)目錄就好, 事實(shí)上并不如此.

PAI沒(méi)有權(quán)限讀取不在數(shù)據(jù)源目錄和輸出目錄下的文件, 所以在使用路徑前, 確保他們已經(jīng)在控制臺(tái)右側(cè)設(shè)置過(guò).

右側(cè)控制臺(tái)截圖

OSS路徑推薦使用
FLAGS.checkpointDir
FLAGS.summaryDIr
這樣的形式傳入, 經(jīng)過(guò)測(cè)試好像也只有這兩個(gè)目錄下有寫(xiě)權(quán)限
FLAGS.buckets下所有文件夾都有讀寫(xiě)權(quán)限

最后編輯于：2017.12.09 15:49:27

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末唱星，一起剝皮案震驚了整個(gè)濱河市蝶桶，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌取劫，老刑警劉巖祈坠，帶你破解...
沈念sama閱讀 216,919評(píng)論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異像啼，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)品擎，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,567評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)埋合，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人萄传，你說(shuō)我怎么就攤上這事甚颂。” “怎么了秀菱？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,316評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵振诬，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我衍菱，道長(zhǎng)赶么，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,294評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任脊串，我火速辦了婚禮辫呻，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘琼锋。我一直安慰自己放闺，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,318評(píng)論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布缕坎。她就那樣靜靜地躺著怖侦，像睡著了一般。火紅的嫁衣襯著肌膚如雪谜叹。梳的紋絲不亂的頭發(fā)上匾寝，一...
開(kāi)封第一講書(shū)人閱讀 51,245評(píng)論 1贊 299
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音荷腊，去河邊找鬼艳悔。笑死，一個(gè)胖子當(dāng)著我的面吹牛女仰，可吹牛的內(nèi)容都是我干的很钓。我是一名探鬼主播，決...
沈念sama閱讀 40,120評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼董栽，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了企孩？” 一聲冷哼從身側(cè)響起锭碳，我...
開(kāi)封第一講書(shū)人閱讀 38,964評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎勿璃，沒(méi)想到半個(gè)月后擒抛，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體推汽，經(jīng)...
沈念sama閱讀 45,376評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,592評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年歧沪，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了歹撒。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,764評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡诊胞，死狀恐怖暖夭，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情撵孤，我是刑警寧澤迈着，帶...
沈念sama閱讀 35,460評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站邪码，受9級(jí)特大地震影響裕菠，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜闭专，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,070評(píng)論 3贊 327
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一奴潘、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧影钉，春花似錦画髓、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,697評(píng)論 0贊 22
一樁弒父案雀扶，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至肆汹，卻和暖如春愚墓，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背昂勉。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,846評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工浪册，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人岗照。一個(gè)月前我還...
沈念sama閱讀 47,819評(píng)論 2贊 370
代替公主和親
正文我出身青樓村象，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親攒至。傳聞我的和親對(duì)象是個(gè)殘疾皇子厚者，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,665評(píng)論 2贊 354

使用PAI深度學(xué)習(xí)讀取OSS文件

使用PAI深度學(xué)習(xí)讀取OSS文件

在PAI上, 使用TensorFlow讀取OSS文件

本文適合有一定TensorFlow基礎(chǔ), 且準(zhǔn)備使用PAI的同學(xué)閱讀

目錄

1. 在PAI上讀取數(shù)據(jù)

接下來(lái)就分兩種情況了

2. 寫(xiě)入數(shù)據(jù)

3. 費(fèi)用開(kāi)支

4.使用中需要注意的

推薦閱讀更多精彩內(nèi)容