這篇博客主要討論CRNN 的工作原理婉支, 主要討論的論文是 An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition
https://arxiv.org/abs/1507.05717
使用的開開源代碼如下
https://github.com/solivr/tf-crnn
這里討論這篇PAMI 的文章主要的原因有兩個(gè)
1. 端到端的訓(xùn)練, 而且模型非常通俗易懂
2. 性能比較好,而且模型小 (參數(shù)少)
這個(gè)模型作為一個(gè)基礎(chǔ)的入門 自然場景文字識(shí)別 是非常好的阳藻, 涉及的方方面面也很全了嚎。? 接下來就會(huì)討論模型+代碼復(fù)現(xiàn)壤玫。
CRNN 的模型介紹
圖上的Figure 1, 是從下往上看的精绎。 輸入是截好圖的 圖片, 然后通過卷積杏头, 卷積層盈包, 再輸入到兩層的bi-directional? LSTM, 然后是 transcription 層, 把多余的字母融合成一個(gè)醇王。 這個(gè)模型會(huì)和對(duì)應(yīng)的開源 代碼一起討論呢燥。
卷積層
這個(gè)卷積層的實(shí)現(xiàn)并不復(fù)雜, 就從源代碼 model.py 里截圖做簡短說明
這個(gè)卷積 層的實(shí)現(xiàn)和VGG 基本一樣寓娩, 就是3x3 kernel叛氨, 然后激活函數(shù), 然后pool棘伴。
RNN 層
RNN 層的實(shí)現(xiàn)也是中規(guī)中矩寞埠, 很容易理解。 但是這里有個(gè)重點(diǎn)就是RNN 需要有時(shí)間方向的信息焊夸, 但是我們輸出的結(jié)果其實(shí)是? 一個(gè) image features 的張量 (tensor)仁连。這個(gè)張量的維度是 batch, width, height, features. 在這里, 作者 將? height , features 融合在一起阱穗, 把 width 當(dāng)做LSTM 的時(shí)間 time steps,? 這樣就變成了 [batch, width, height*features] 對(duì)應(yīng)LSTM 的輸入 [batch_size, n_steps, n_input]. 這個(gè)假設(shè)是有代價(jià)的饭冬。
這個(gè)代價(jià)要從 作者提出的神經(jīng)網(wǎng)絡(luò)里來計(jì)算。 下圖就是詳細(xì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)揪阶。
Table 1. Network configuration summary. The first row is the top layer. ‘k’, ‘s’ and ‘p’ stand for kernel size, stride and padding size respectively
看見四個(gè) max pooling 了嘛昌抠, 他們會(huì)導(dǎo)致 張量的維度變化。 而卷積層鲁僚,因?yàn)橛衟adding 的存在炊苫, feature map 的大小是不變的. 當(dāng)然裁厅, 有個(gè)例外, 這個(gè)就是L13? 層劝评, padding 是0 姐直,所以維度有一點(diǎn)點(diǎn)變化倦淀。 batch normalizaiton 就更不會(huì)導(dǎo)致維度的變化了蒋畜。
按照這篇論文, 圖片的大小都被re-scale 100 X 32 的大小撞叽, 其中32 大概相當(dāng)于圖片中文字的高度姻成。? 這樣一個(gè)神經(jīng)網(wǎng)絡(luò)輸出的維度 就如 Table 1 的第三列了。
這里高亮了愿棋, L14 層的輸出科展, 因?yàn)檫@個(gè)是有物理含義的。 相當(dāng)于有24 個(gè)單詞 (包含CTC 中的空格)糠雨, 每個(gè)單詞的word vector? 512.? 根據(jù)CTC loss 的工作原理才睹, 輸出的sequence label 的長度必須小于或等于 input sequence 的長度。 所以? 安裝目前的網(wǎng)絡(luò)甘邀, 最多能識(shí)別的單詞長度 就是 24 個(gè)琅攘。 當(dāng)然了, 一個(gè)英文單詞長度超過24 的也很少了松邪。
Transcription 層
Transcription? 就是把每個(gè)width 的預(yù)測 (per-frame prediction) 變成 標(biāo)記序列坞琴。 這里邊有兩個(gè)方法。
1. 沒有詞庫的方法
2. 有詞庫的方法
沒有詞庫的話逗抑, 這個(gè)過程就是 Connectionist Temporal Classification (CTC) Loss 計(jì)算的過程剧辐。我以前的博客有詳細(xì)討論這個(gè) loss function.
http://www.reibang.com/p/e073c9d91b20
有詞庫呢,? 就會(huì)把預(yù)測的結(jié)果 和詞庫中相似的詞一一計(jì)算概率邮府, 然后選擇概率最大的那一個(gè)荧关。 但是這個(gè)方法實(shí)在太簡單粗暴了,? 當(dāng)詞庫的單詞很多的時(shí)候褂傀, 就會(huì)花很多時(shí)間來計(jì)算概率忍啤。 而paper作者發(fā)現(xiàn), 可以先用沒有詞庫的方法紊服, 也就是CTC loss 算出一個(gè)sequence label,? 然后尋找最相近的方法來確定單詞 (search the nearest neighbour hood method)檀轨。
CRNN 的 代碼復(fù)現(xiàn)
數(shù)據(jù)集
CRNN 訓(xùn)練使用的數(shù)據(jù)集是 Synthetic Word Dataset, 鏈接如下
http://www.robots.ox.ac.uk/~vgg/data/text/
這個(gè)數(shù)據(jù)集解壓后 大概35 G 的大小 。 先截個(gè)圖讓大家感受一下 他的樣子欺嗤。
每個(gè)圖的名字就是他的label, 然后前面有標(biāo)號(hào)参萄。
但是這個(gè)數(shù)據(jù)集有坑。
這個(gè)數(shù)據(jù)集里的 label 并不是完全正確的煎饼, 很有可能圖片里寫著 I am very happy,? 然而label 里卻只寫著happy.
這種情況我想到了一個(gè)比較簡單的篩選方法讹挎, 就是比較圖片的寬度(W)和 label sequence 的長度 L。 如果L * 100/24? > W,? 就說明這個(gè)圖片的寬度是足夠預(yù)測對(duì)應(yīng)的文字的。 其中100筒溃, 24 马篮, 有在模型 RNN 層中解釋。
開源代碼 解讀
這個(gè)github 的開源代碼 我本身是跑過的怜奖。 代碼寫的非常棒浑测, 這里主要解釋了模型如何訓(xùn)練。 首先是輸入數(shù)據(jù)歪玲, 讀者需要自己準(zhǔn)備一個(gè)csv 文件迁央。? 這個(gè)文件的內(nèi)容就是圖片路徑+圖片文字(label), label 需要用 “|” 隔開。
其次是要設(shè)計(jì) configuration file,就是config_template.json 滥崩, 截圖如下
這個(gè)文件比較好理解岖圈, 里面確定了 learing_rate,? 還有其他。 其中csv_files_train, csv_file_test 就是我們上面討論的csv 文件钙皮。? ? 還有一件文件 lookup_letters_digits_symbols.json 沒介紹蜂科。這個(gè)很好理解, 就是用數(shù)字做label短条, 給每個(gè)字母和數(shù)字导匣。?
CRNN 的 代碼復(fù)現(xiàn)
最后放一個(gè)我跑的訓(xùn)練結(jié)果, 用ICDAR 2003 做測試 集慌烧, 用? Synthetic Word Dataset 做訓(xùn)練集逐抑。
我的準(zhǔn)確率 用了四個(gè) GPU 訓(xùn)練了三天, 沒用詞庫屹蚊, 達(dá)到大約 86.5%的準(zhǔn)確率, CER 0.055厕氨。?這里邊準(zhǔn)確率 是指成功預(yù)測 一個(gè)sequence lable,? 而 CER 就是character error rate.
原稿筆記鏈接如下
https://shimo.im/docs/oDFzLoOXmYsAypwR/