為你寫(xiě)詩(shī)



基于 Tensorflow 實(shí)現(xiàn)自動(dòng)作詩(shī)(古詩(shī))機(jī)器人。文本的 Demo 是踩在巨人 Tensorflow 的肩膀上育勺,參考 char-rnn-tensorflow 實(shí)現(xiàn)但荤。

本文將簡(jiǎn)單介紹 Demo 的使用、數(shù)據(jù)預(yù)處理過(guò)程(即是 Tensor 生成過(guò)程)涧至、訓(xùn)練過(guò)程和詩(shī)歌生成的過(guò)程腹躁。至于 RNN 模型相關(guān),概念好多南蓬,對(duì)于半路出家的筆者還需要時(shí)間扣扣細(xì)節(jié)纺非,查查資料,以免寫(xiě)出來(lái)誤人子弟(捂臉)赘方。文中涉及到的相關(guān)概念如有偏頗或錯(cuò)誤烧颖,請(qǐng)各位大神不吝賜教,批評(píng)指出窄陡,這里先謝過(guò)炕淮。

相關(guān) Github 源碼


版權(quán)聲明:本文為 frendy 原創(chuàng)文章,可以隨意轉(zhuǎn)載跳夭,但請(qǐng)務(wù)必在明確位置注明出處涂圆。


有圖有真相:

001.png

原理



將古詩(shī)轉(zhuǎn)成張量 Tensor,使用 Tensorflow 的 RNN 模型進(jìn)行訓(xùn)練币叹,F(xiàn)low 起來(lái)润歉。


環(huán)境



Tensorflow 1.0.1

可參考《 Win 10 安裝 Tensorflow 踩坑記


使用方法



下面是本文 Demo 的使用方法,相關(guān)參數(shù)可在腳本里自行修改調(diào)整套硼。

1. 訓(xùn)練
python3 trainer.py
2. 生成詩(shī)歌

2.1 隨機(jī)生成:

python3 generator.py

2.2 藏頭詩(shī)生成:

python3 generator.py --prime 執(zhí)子之手
002.png

數(shù)據(jù)預(yù)處理



預(yù)處理生成 Tensor卡辰,這里筆者用大家都熟悉的《憫農(nóng)》來(lái)舉例分析:

** reading text file =
^鋤禾日當(dāng)午,汗滴禾下土邪意。誰(shuí)知盤(pán)中餐九妈,粒粒皆辛苦。$
** counter = dict_items([('汗', 1), ('$', 1), ('滴', 1), ('午', 1), ('苦', 1), ('粒', 2), ('雾鬼。', 2), ('土', 1), ('辛', 1), ('日', 1), ('知', 1), ('中', 1), ('皆', 1), ('當(dāng)', 1), ('餐', 1), ('禾', 2), ('^', 1), ('鋤', 1), ('萌朱,', 2), ('盤(pán)', 1), ('下', 1), ('誰(shuí)', 1)])
** vocab_size = 23
** chars = ('粒', '。', '禾', '策菜,', '汗', '$', '滴', '午', '苦', '土', '辛', '日', '知', '中', '皆', '當(dāng)', '餐', '^', '鋤', '盤(pán)', '下', '誰(shuí)', '*')
** vocab = {'辛': 10, '滴': 6, '午': 7, '苦': 8, '誰(shuí)': 21, '粒': 0, '晶疼。': 1, '土': 9, '汗': 4, '日': 11, '知': 12, '中': 13, '皆': 14, '當(dāng)': 15, '餐': 16, '禾': 2, '*': 22, '^': 17, '鋤': 18, ',': 3, '盤(pán)': 19, '下': 20, '$': 5}
** tensor = [[17, 18, 2, 11, 15, 7, 3, 4, 6, 2, 20, 9, 1, 21, 12, 19, 13, 16, 3, 0, 0, 14, 10, 8, 1, 5]]

今天有朋友問(wèn)又憨,張量到底是什么翠霍?這里引用百度百科的描述,張量源于力學(xué)蠢莺,是矢量概念的推廣寒匙,矢量是一階張量。本文的 Demo 是把大量詩(shī)歌轉(zhuǎn)換成了二階張量(矩陣)來(lái)表示躏将。


訓(xùn)練數(shù)據(jù)準(zhǔn)備



由于數(shù)據(jù)量大锄弱,機(jī)器可能不夠用(比如內(nèi)存不夠等等),因此分批訓(xùn)練還是必要的祸憋。此外涉及到模型持久化相關(guān)的会宪,這里也不贅述啦。這里想提一個(gè)生成訓(xùn)練數(shù)據(jù)時(shí)的細(xì)節(jié)蚯窥,筆者糾結(jié)了很久:

ydata[:-1] = xdata[1:]

x 和 y 要錯(cuò)一位掸鹅?為什么需要這樣處理?查了很久拦赠,原來(lái) rnn 的輸入和輸出要錯(cuò)一位巍沙。這里說(shuō)明什么?說(shuō)明理論還是不能馬虎的矛紫,找時(shí)間還是要深入啃啃 rnn 的原理赎瞎。


模型參數(shù)



其實(shí)下面怎么設(shè)置還是有學(xué)問(wèn)的,后面有時(shí)間還是得做做幾組對(duì)照實(shí)驗(yàn)颊咬。

參數(shù) 說(shuō)明
rnn_size rnn 的 cell 內(nèi)神經(jīng)元數(shù)目
num_layers rnn 層數(shù)
model rnn 類(lèi)型务甥,這里筆者選用的是 lstm
batch_size batch 大小(多少批數(shù)據(jù))
num_epochs epoch 數(shù)目(一批數(shù)據(jù)有多少個(gè))
save_every 保存的頻次
grad_clip 梯度 clip(防止梯度爆炸)
learning_rate 學(xué)習(xí)率喳篇,決定每一步學(xué)習(xí)的步長(zhǎng)
decay_rate 學(xué)習(xí)率削減時(shí)用到的參數(shù)
... ...

訓(xùn)練模型



這里筆者直接摘出核心敞临,其實(shí)采用的是 softmax 回歸模型來(lái)給不同的字符對(duì)象分配概率,如下所示:

self.logits = tf.matmul(output, softmax_w) + softmax_b
self.probs = tf.nn.softmax(self.logits)

表示成矩陣如下:

001.png

進(jìn)一步寫(xiě)成表達(dá)式如下:

002.png

是的麸澜,就是 MNIST 手寫(xiě)數(shù)字分類(lèi)問(wèn)題里那個(gè) softmax 回歸模型挺尿,點(diǎn)這里看相關(guān)推導(dǎo),筆者沒(méi)能啃進(jìn)去(捂臉)。


生成 Sample



下面是數(shù)據(jù)流變換過(guò)程编矾,還是以大家都熟悉的《憫農(nóng)》為例熟史,這里筆者以字符 “鋤” 開(kāi)頭。其實(shí)窄俏,下面一系列變換直接照搬了 char-rnn 里隨機(jī)選擇字符的方法蹂匹,為什么這么處理?還望有大神不吝賜教凹蜈,這里先謝過(guò)限寞。

** vocab = {'^': 6, '土': 21, '汗': 4, ',': 3, '午': 7, '鋤': 10, '誰(shuí)': 19, '辛': 14, '粒': 0, '苦': 17, '知': 16, '當(dāng)': 9, '下': 11, '日': 20, '皆': 15, '仰坦。': 2, '禾': 1, '盤(pán)': 5, '餐': 12, '$': 18, '中': 8, '滴': 13, '*': 22}

** chars = ^鋤

** x = [[ 6 10]]
sess.run([self.probs,self.final_state],{self.input_data: x,self.initial_state: state})

** probs[-1] = weights = 
  [ 0.04201746  0.05162039  0.05662962  0.03021749  0.02953894  0.03858508
  0.03475175  0.04856787  0.05444941  0.0520597   0.02933978  0.03519193
  0.03243973  0.05847431  0.03798598  0.03890398  0.05775708  0.04891997
  0.05474302  0.0344351   0.04930111  0.04917176  0.03489855]
t = np.cumsum(weights)

** t = 
  [ 0.04201746  0.09363785  0.15026747  0.18048497  0.21002391  0.24860899
  0.28336075  0.33192861  0.38637802  0.43843773  0.46777752  0.50296944
  0.53540915  0.59388345  0.63186944  0.67077339  0.72853047  0.77745044
  0.83219343  0.86662853  0.91592962  0.96510136  0.99999988]
s = np.sum(weights)

** s = 0.9999998807907104
sample = int(np.searchsorted(t, np.random.rand(1)*s))

** sample = 7

** vocab[sample] = 午

好了履植,到這里我們的結(jié)果已經(jīng)生成為 “鋤午”。接下來(lái)以 “午” 為輸入悄晃,同理預(yù)測(cè)下一個(gè)字符玫霎,遇到 “,” 或者 “传泊∈竺欤” 則結(jié)束本句生成即可。


文末詩(shī)一首眷细,送給看到文章的你:

萬(wàn)樹(shù)旦已見(jiàn)拦盹,事值逾蒼林。
如何求圣惡溪椎,意意具華時(shí)普舆。

001.png


qrcode_card.png


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市校读,隨后出現(xiàn)的幾起案子沼侣,更是在濱河造成了極大的恐慌,老刑警劉巖歉秫,帶你破解...
    沈念sama閱讀 211,348評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蛾洛,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡雁芙,警方通過(guò)查閱死者的電腦和手機(jī)轧膘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)兔甘,“玉大人谎碍,你說(shuō)我怎么就攤上這事《幢海” “怎么了蟆淀?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,936評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵拯啦,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我熔任,道長(zhǎng)褒链,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,427評(píng)論 1 283
  • 正文 為了忘掉前任笋敞,我火速辦了婚禮碱蒙,結(jié)果婚禮上荠瘪,老公的妹妹穿的比我還像新娘夯巷。我一直安慰自己,他們只是感情好哀墓,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,467評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布趁餐。 她就那樣靜靜地躺著,像睡著了一般篮绰。 火紅的嫁衣襯著肌膚如雪后雷。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,785評(píng)論 1 290
  • 那天吠各,我揣著相機(jī)與錄音臀突,去河邊找鬼。 笑死贾漏,一個(gè)胖子當(dāng)著我的面吹牛候学,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播纵散,決...
    沈念sama閱讀 38,931評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼梳码,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了伍掀?” 一聲冷哼從身側(cè)響起掰茶,我...
    開(kāi)封第一講書(shū)人閱讀 37,696評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蜜笤,沒(méi)想到半個(gè)月后濒蒋,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,141評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡把兔,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,483評(píng)論 2 327
  • 正文 我和宋清朗相戀三年沪伙,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片垛贤。...
    茶點(diǎn)故事閱讀 38,625評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡焰坪,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出聘惦,到底是詐尸還是另有隱情某饰,我是刑警寧澤儒恋,帶...
    沈念sama閱讀 34,291評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏稼虎。R本人自食惡果不足惜么介,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,892評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望烫映。 院中可真熱鬧,春花似錦、人聲如沸酣藻。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)辽剧。三九已至,卻和暖如春税产,著一層夾襖步出監(jiān)牢的瞬間怕轿,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工辟拷, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留撞羽,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓衫冻,卻偏偏與公主長(zhǎng)得像诀紊,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子羽杰,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,492評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容