TensorFlow 語言模型訓(xùn)練實(shí)戰(zhàn)

實(shí)驗(yàn)1:PTB數(shù)據(jù)集實(shí)驗(yàn)

教程: https://www.tensorflow.org/versions/r0.12/tutorials/recurrent/

數(shù)據(jù)地址: http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz

下載解壓后疏尿,./simple-examples/data下的文件:

README
ptb.char.test.txt
ptb.char.train.txt
ptb.char.valid.txt
ptb.test.txt
ptb.train.txt
ptb.valid.txt

ptb.*.txt 格式一樣涯保,每行一個句子脆诉,每個單詞用空格相隔,分別作為訓(xùn)練集晴楔、驗(yàn)證集和測試集

ptb.char.*.txt 格式一樣扯键,每個字符用空格相隔,每個單詞用"_"相隔

代碼地址: https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/ptb_word_lm.py

運(yùn)行code:

cd models/rnn/ptb
python ptb_word_lm.py --data_path=./simple-examples/data/ --model medium

迭代39次习蓬,最后兩次迭代結(jié)果如下:

Epoch: 38 Learning rate: 0.001
0.008 perplexity: 53.276 speed: 8650 wps 
0.107 perplexity: 47.396 speed: 8614 wps 
0.206 perplexity: 49.082 speed: 8635 wps 
0.306 perplexity: 48.002 speed: 8643 wps 
0.405 perplexity: 47.800 speed: 8646 wps 
0.505 perplexity: 47.917 speed: 8649 wps 
0.604 perplexity: 47.110 speed: 8650 wps 
0.704 perplexity: 47.361 speed: 8651 wps 
0.803 perplexity: 46.620 speed: 8652 wps 
0.903 perplexity: 45.850 speed: 8652 wps 
Epoch: 38 Train Perplexity: 45.906
Epoch: 38 Valid Perplexity: 88.246
Epoch: 39 Learning rate: 0.001
0.008 perplexity: 52.994 speed: 8653 wps 
0.107 perplexity: 47.077 speed: 8655 wps 
0.206 perplexity: 48.910 speed: 8493 wps 
0.306 perplexity: 48.088 speed: 8545 wps 
0.405 perplexity: 47.966 speed: 8573 wps 
0.505 perplexity: 47.977 speed: 8589 wps 
0.604 perplexity: 47.122 speed: 8601 wps 
0.704 perplexity: 47.305 speed: 8609 wps 
0.803 perplexity: 46.564 speed: 8615 wps 
0.903 perplexity: 45.826 speed: 8620 wps 
Epoch: 39 Train Perplexity: 45.873
Epoch: 39 Valid Perplexity: 88.185
Test Perplexity: 83.922

在Tesla M40 24GB上訓(xùn)練花了大約70分鐘。

其他參考:
http://www.cnblogs.com/edwardbi/p/5554353.html

實(shí)驗(yàn)2:Char-RNN 實(shí)驗(yàn)

代碼和教程: https://github.com/sherjilozair/char-rnn-tensorflow

訓(xùn)練數(shù)據(jù):福爾摩斯探案全集 (下載地址)

下載下來是純文本文件措嵌,一共66766行躲叼。按照教程放在./data/sherlock下并重命名為input.txt.

目標(biāo): 訓(xùn)練語言模型,然后輸出句子

訓(xùn)練

python train.py --data_dir=./data/sherlock > 1.log 2>&1&

有很多參數(shù)可調(diào)铅匹,結(jié)果默認(rèn)保存在目錄./save下押赊。訓(xùn)練一共花了約1小時22分。

默認(rèn)是迭代50個epoch包斑,實(shí)驗(yàn)中發(fā)現(xiàn)采用默認(rèn)參數(shù)大約迭代10個epoch訓(xùn)練loss就沒下降了,所以訓(xùn)練時可以加參數(shù) --num_epochs 10.

測試

python sample.py --save_dir ./save -n 100

輸出100個字符:

示例1(含空格)
   very occasion I could never see, this people, for if Lestrade to the Fingers for me. These pinded
示例2(含空格)
   CHAPTER V CORA" 2I Uppard in his leggy. You will give she.

     "But you
     remember that
示例3(含空格)
   CHAPTEBENII
     But the pushfuit who had honour had danger with such an instrumented. This sprang

語句并不是很通順涕俗,但是單詞基本上還是對的罗丰。

如果要進(jìn)一步提升效果的話,可以清洗下語料再姑,使每個輸入都是完整的句子萌抵,同時嘗試不同的模型參數(shù)。

不過更值得嘗試的是中文數(shù)據(jù),下次找一篇中文小說訓(xùn)練看看绍填。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末霎桅,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子讨永,更是在濱河造成了極大的恐慌滔驶,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,470評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件卿闹,死亡現(xiàn)場離奇詭異揭糕,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)锻霎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評論 3 392
  • 文/潘曉璐 我一進(jìn)店門著角,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人旋恼,你說我怎么就攤上這事吏口。” “怎么了冰更?”我有些...
    開封第一講書人閱讀 162,577評論 0 353
  • 文/不壞的土叔 我叫張陵产徊,是天一觀的道長。 經(jīng)常有香客問我冬殃,道長囚痴,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,176評論 1 292
  • 正文 為了忘掉前任审葬,我火速辦了婚禮深滚,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘涣觉。我一直安慰自己痴荐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評論 6 388
  • 文/花漫 我一把揭開白布官册。 她就那樣靜靜地躺著生兆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪膝宁。 梳的紋絲不亂的頭發(fā)上鸦难,一...
    開封第一講書人閱讀 51,155評論 1 299
  • 那天,我揣著相機(jī)與錄音员淫,去河邊找鬼合蔽。 笑死,一個胖子當(dāng)著我的面吹牛介返,可吹牛的內(nèi)容都是我干的拴事。 我是一名探鬼主播沃斤,決...
    沈念sama閱讀 40,041評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼刃宵!你這毒婦竟也來了衡瓶?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,903評論 0 274
  • 序言:老撾萬榮一對情侶失蹤牲证,失蹤者是張志新(化名)和其女友劉穎哮针,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體从隆,經(jīng)...
    沈念sama閱讀 45,319評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡诚撵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了键闺。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片寿烟。...
    茶點(diǎn)故事閱讀 39,703評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖辛燥,靈堂內(nèi)的尸體忽然破棺而出筛武,到底是詐尸還是另有隱情,我是刑警寧澤挎塌,帶...
    沈念sama閱讀 35,417評論 5 343
  • 正文 年R本政府宣布徘六,位于F島的核電站,受9級特大地震影響榴都,放射性物質(zhì)發(fā)生泄漏待锈。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評論 3 325
  • 文/蒙蒙 一嘴高、第九天 我趴在偏房一處隱蔽的房頂上張望竿音。 院中可真熱鬧,春花似錦拴驮、人聲如沸春瞬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宽气。三九已至,卻和暖如春潜沦,著一層夾襖步出監(jiān)牢的瞬間萄涯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評論 1 269
  • 我被黑心中介騙來泰國打工唆鸡, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留窃判,地道東北人。 一個月前我還...
    沈念sama閱讀 47,711評論 2 368
  • 正文 我出身青樓喇闸,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子燃乍,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評論 2 353

推薦閱讀更多精彩內(nèi)容