處理下載 IMDB 數(shù)據(jù)集錯誤

學習https://tensorflow.google.cn/tutorials/keras/text_classification_with_hub例子，存在兩個問題：

1. 下載數(shù)據(jù)集很慢

INFO:absl:Downloading http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz into C:\Users\DEEP\tensorflow_datasets\downloads\ai.stanfor.edu_amaas_

解決辦法：自己先下載下來，建一個tomcat服務酿箭，然后加入

imdb._DOWNLOAD_URL='http://localhost:8080/aclImdb_v1.tar.gz' #修改下載地址

# 將訓練集按照 6:4 的比例進行切割拉背，從而最終我們將得到15,000

# 個訓練樣本, 10,000 個驗證樣本以及 25,000 個測試樣本

train_validation_split = tfds.Split.TRAIN.subsplit([6,4])

(train_data, validation_data), test_data = tfds.load(

name="imdb_reviews",

split=(train_validation_split, tfds.Split.TEST),

as_supervised=True)

2. 數(shù)據(jù)分組錯誤

File "C:\ProgramData\Anaconda3\lib\site-packages\tensorflow_datasets\core\tfrecords_reader.py", line 356, in _str_to_relative_instruction

? ? raise AssertionError('Unrecognized instruction format: %s' % spec)

AssertionError: Unrecognized instruction format: NamedSplit('train')(tfds.percent[0:60])

解決辦法：這是由于tensorflow_datasets\core\splits.py對于_SubSplit轉str沒有做特別處理，結果便是NamedSplit('train')(tfds.percent[0:60])

而_SUB_SPEC_RE??tensorflow_datasets/core/tfrecords_reader.py

42 _SUB_SPEC_RE=re.compile(r'''

43 ^

44 (?P\w+)

45 (\[

46 ((?P-?\d+)

47 (?P%)?)?

48 :

49 ((?P-?\d+)

50 (?P%)?)?

51 \])?

52 $

53 ''',re.X)

無法匹配。所以需要改成需要的形式：

imdb._DOWNLOAD_URL='http://localhost:8080/aclImdb_v1.tar.gz'

# 將訓練集按照 6:4 的比例進行切割芍躏，從而最終我們將得到15,000

# 個訓練樣本, 10,000 個驗證樣本以及 25,000 個測試樣本

train_validation_split ="train[:60%]","train[60%:]"

(train_data, validation_data), test_data = tfds.load(

name="imdb_reviews",

split=(train_validation_split, tfds.Split.TEST),

as_supervised=True)

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末奠涌，一起剝皮案震驚了整個濱河市宪巨，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌溜畅，老刑警劉巖捏卓，帶你破解...
沈念sama閱讀 211,290評論 6贊 491
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異慈格，居然都是意外死亡怠晴，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,107評論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門浴捆，熙熙樓的掌柜王于貴愁眉苦臉地迎上來蒜田，“玉大人，你說我怎么就攤上這事选泻∥镆兀” “怎么了？”我有些...
開封第一講書人閱讀 156,872評論 0贊 347
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵滔金，是天一觀的道長色解。經(jīng)常有香客問我，道長餐茵，這世上最難降的妖魔是什么科阎？我笑而不...
開封第一講書人閱讀 56,415評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮忿族，結果婚禮上锣笨，老公的妹妹穿的比我還像新娘。我一直安慰自己道批，他們只是感情好错英，可當我...
茶點故事閱讀 65,453評論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著隆豹，像睡著了一般椭岩。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,784評論 1贊 290
城市分裂傳說
那天判哥，我揣著相機與錄音献雅，去河邊找鬼。笑死塌计，一個胖子當著我的面吹牛挺身，可吹牛的內容都是我干的。我是一名探鬼主播锌仅，決...
沈念sama閱讀 38,927評論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼章钾，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了热芹？” 一聲冷哼從身側響起贱傀，我...
開封第一講書人閱讀 37,691評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎剿吻，沒想到半個月后窍箍，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體串纺，經(jīng)...
沈念sama閱讀 44,137評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡丽旅，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 36,472評論 2贊 326
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了纺棺。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片榄笙。...
茶點故事閱讀 38,622評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖祷蝌，靈堂內的尸體忽然破棺而出茅撞，到底是詐尸還是另有隱情，我是刑警寧澤巨朦，帶...
沈念sama閱讀 34,289評論 4贊 329
?日本核電站爆炸內幕
正文年R本政府宣布米丘，位于F島的核電站，受9級特大地震影響糊啡，放射性物質發(fā)生泄漏拄查。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,887評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一棚蓄、第九天我趴在偏房一處隱蔽的房頂上張望堕扶。院中可真熱鬧，春花似錦梭依、人聲如沸稍算。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,741評論 0贊 21
一樁弒父案役拴，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽糊探。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間侧到，已是汗流浹背勃教。一陣腳步聲響...
開封第一講書人閱讀 31,977評論 1贊 265
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留匠抗，地道東北人故源。一個月前我還...
沈念sama閱讀 46,316評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像汞贸，于是被迫代替她去往敵國和親绳军。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 43,490評論 2贊 348

處理下載 IMDB 數(shù)據(jù)集錯誤

推薦閱讀更多精彩內容