NLP 之自然場景文字識(shí)別 2 CRNN tensorflow

這篇博客主要討論CRNN 的工作原理婉支, 主要討論的論文是 An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

https://arxiv.org/abs/1507.05717

使用的開開源代碼如下

https://github.com/solivr/tf-crnn

這里討論這篇PAMI 的文章主要的原因有兩個(gè)

1. 端到端的訓(xùn)練, 而且模型非常通俗易懂

2. 性能比較好,而且模型小 (參數(shù)少)

這個(gè)模型作為一個(gè)基礎(chǔ)的入門 自然場景文字識(shí)別 是非常好的阳藻, 涉及的方方面面也很全了嚎。? 接下來就會(huì)討論模型+代碼復(fù)現(xiàn)壤玫。

CRNN 的模型介紹



圖上的Figure 1, 是從下往上看的精绎。 輸入是截好圖的 圖片, 然后通過卷積杏头, 卷積層盈包, 再輸入到兩層的bi-directional? LSTM, 然后是 transcription 層, 把多余的字母融合成一個(gè)醇王。 這個(gè)模型會(huì)和對(duì)應(yīng)的開源 代碼一起討論呢燥。

卷積層

這個(gè)卷積層的實(shí)現(xiàn)并不復(fù)雜, 就從源代碼 model.py 里截圖做簡短說明

這個(gè)卷積 層的實(shí)現(xiàn)和VGG 基本一樣寓娩, 就是3x3 kernel叛氨, 然后激活函數(shù), 然后pool棘伴。

RNN 層

RNN 層的實(shí)現(xiàn)也是中規(guī)中矩寞埠, 很容易理解。 但是這里有個(gè)重點(diǎn)就是RNN 需要有時(shí)間方向的信息焊夸, 但是我們輸出的結(jié)果其實(shí)是? 一個(gè) image features 的張量 (tensor)仁连。這個(gè)張量的維度是 batch, width, height, features. 在這里, 作者 將? height , features 融合在一起阱穗, 把 width 當(dāng)做LSTM 的時(shí)間 time steps,? 這樣就變成了 [batch, width, height*features] 對(duì)應(yīng)LSTM 的輸入 [batch_size, n_steps, n_input]. 這個(gè)假設(shè)是有代價(jià)的饭冬。

這個(gè)代價(jià)要從 作者提出的神經(jīng)網(wǎng)絡(luò)里來計(jì)算。 下圖就是詳細(xì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)揪阶。


Table 1. Network configuration summary. The first row is the top layer. ‘k’, ‘s’ and ‘p’ stand for kernel size, stride and padding size respectively

看見四個(gè) max pooling 了嘛昌抠, 他們會(huì)導(dǎo)致 張量的維度變化。 而卷積層鲁僚,因?yàn)橛衟adding 的存在炊苫, feature map 的大小是不變的. 當(dāng)然裁厅, 有個(gè)例外, 這個(gè)就是L13? 層劝评, padding 是0 姐直,所以維度有一點(diǎn)點(diǎn)變化倦淀。 batch normalizaiton 就更不會(huì)導(dǎo)致維度的變化了蒋畜。

按照這篇論文, 圖片的大小都被re-scale 100 X 32 的大小撞叽, 其中32 大概相當(dāng)于圖片中文字的高度姻成。? 這樣一個(gè)神經(jīng)網(wǎng)絡(luò)輸出的維度 就如 Table 1 的第三列了。

這里高亮了愿棋, L14 層的輸出科展, 因?yàn)檫@個(gè)是有物理含義的。 相當(dāng)于有24 個(gè)單詞 (包含CTC 中的空格)糠雨, 每個(gè)單詞的word vector? 512.? 根據(jù)CTC loss 的工作原理才睹, 輸出的sequence label 的長度必須小于或等于 input sequence 的長度。 所以? 安裝目前的網(wǎng)絡(luò)甘邀, 最多能識(shí)別的單詞長度 就是 24 個(gè)琅攘。 當(dāng)然了, 一個(gè)英文單詞長度超過24 的也很少了松邪。

Transcription 層

Transcription? 就是把每個(gè)width 的預(yù)測 (per-frame prediction) 變成 標(biāo)記序列坞琴。 這里邊有兩個(gè)方法。

1. 沒有詞庫的方法

2. 有詞庫的方法

沒有詞庫的話逗抑, 這個(gè)過程就是 Connectionist Temporal Classification (CTC) Loss 計(jì)算的過程剧辐。我以前的博客有詳細(xì)討論這個(gè) loss function.

http://www.reibang.com/p/e073c9d91b20

有詞庫呢,? 就會(huì)把預(yù)測的結(jié)果 和詞庫中相似的詞一一計(jì)算概率邮府, 然后選擇概率最大的那一個(gè)荧关。 但是這個(gè)方法實(shí)在太簡單粗暴了,? 當(dāng)詞庫的單詞很多的時(shí)候褂傀, 就會(huì)花很多時(shí)間來計(jì)算概率忍啤。 而paper作者發(fā)現(xiàn), 可以先用沒有詞庫的方法紊服, 也就是CTC loss 算出一個(gè)sequence label,? 然后尋找最相近的方法來確定單詞 (search the nearest neighbour hood method)檀轨。

CRNN 的 代碼復(fù)現(xiàn)

數(shù)據(jù)集

CRNN 訓(xùn)練使用的數(shù)據(jù)集是 Synthetic Word Dataset, 鏈接如下

http://www.robots.ox.ac.uk/~vgg/data/text/

這個(gè)數(shù)據(jù)集解壓后 大概35 G 的大小 。 先截個(gè)圖讓大家感受一下 他的樣子欺嗤。

每個(gè)圖的名字就是他的label, 然后前面有標(biāo)號(hào)参萄。

但是這個(gè)數(shù)據(jù)集有坑。

這個(gè)數(shù)據(jù)集里的 label 并不是完全正確的煎饼, 很有可能圖片里寫著 I am very happy,? 然而label 里卻只寫著happy.

這種情況我想到了一個(gè)比較簡單的篩選方法讹挎, 就是比較圖片的寬度(W)和 label sequence 的長度 L。 如果L * 100/24? > W,? 就說明這個(gè)圖片的寬度是足夠預(yù)測對(duì)應(yīng)的文字的。 其中100筒溃, 24 马篮, 有在模型 RNN 層中解釋。

開源代碼 解讀

這個(gè)github 的開源代碼 我本身是跑過的怜奖。 代碼寫的非常棒浑测, 這里主要解釋了模型如何訓(xùn)練。 首先是輸入數(shù)據(jù)歪玲, 讀者需要自己準(zhǔn)備一個(gè)csv 文件迁央。? 這個(gè)文件的內(nèi)容就是圖片路徑+圖片文字(label), label 需要用 “|” 隔開。



其次是要設(shè)計(jì) configuration file,就是config_template.json 滥崩, 截圖如下

這個(gè)文件比較好理解岖圈, 里面確定了 learing_rate,? 還有其他。 其中csv_files_train, csv_file_test 就是我們上面討論的csv 文件钙皮。? ? 還有一件文件 lookup_letters_digits_symbols.json 沒介紹蜂科。這個(gè)很好理解, 就是用數(shù)字做label短条, 給每個(gè)字母和數(shù)字导匣。?


CRNN 的 代碼復(fù)現(xiàn)

最后放一個(gè)我跑的訓(xùn)練結(jié)果, 用ICDAR 2003 做測試 集慌烧, 用? Synthetic Word Dataset 做訓(xùn)練集逐抑。

我的準(zhǔn)確率 用了四個(gè) GPU 訓(xùn)練了三天, 沒用詞庫屹蚊, 達(dá)到大約 86.5%的準(zhǔn)確率, CER 0.055厕氨。?這里邊準(zhǔn)確率 是指成功預(yù)測 一個(gè)sequence lable,? 而 CER 就是character error rate.

原稿筆記鏈接如下

https://shimo.im/docs/oDFzLoOXmYsAypwR/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市汹粤,隨后出現(xiàn)的幾起案子命斧,更是在濱河造成了極大的恐慌,老刑警劉巖嘱兼,帶你破解...
    沈念sama閱讀 221,430評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件国葬,死亡現(xiàn)場離奇詭異,居然都是意外死亡芹壕,警方通過查閱死者的電腦和手機(jī)汇四,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,406評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來踢涌,“玉大人通孽,你說我怎么就攤上這事≌霰冢” “怎么了背苦?”我有些...
    開封第一講書人閱讀 167,834評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵互捌,是天一觀的道長。 經(jīng)常有香客問我行剂,道長秕噪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,543評(píng)論 1 296
  • 正文 為了忘掉前任厚宰,我火速辦了婚禮腌巾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘固阁。我一直安慰自己壤躲,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,547評(píng)論 6 397
  • 文/花漫 我一把揭開白布备燃。 她就那樣靜靜地躺著,像睡著了一般凌唬。 火紅的嫁衣襯著肌膚如雪并齐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,196評(píng)論 1 308
  • 那天客税,我揣著相機(jī)與錄音况褪,去河邊找鬼。 笑死更耻,一個(gè)胖子當(dāng)著我的面吹牛测垛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播秧均,決...
    沈念sama閱讀 40,776評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼食侮,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了目胡?” 一聲冷哼從身側(cè)響起锯七,我...
    開封第一講書人閱讀 39,671評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎誉己,沒想到半個(gè)月后眉尸,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,221評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡巨双,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,303評(píng)論 3 340
  • 正文 我和宋清朗相戀三年噪猾,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片筑累。...
    茶點(diǎn)故事閱讀 40,444評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡袱蜡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出疼阔,到底是詐尸還是另有隱情戒劫,我是刑警寧澤半夷,帶...
    沈念sama閱讀 36,134評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站迅细,受9級(jí)特大地震影響巫橄,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜茵典,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,810評(píng)論 3 333
  • 文/蒙蒙 一湘换、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧统阿,春花似錦彩倚、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,285評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至结澄,卻和暖如春哥谷,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背麻献。 一陣腳步聲響...
    開封第一講書人閱讀 33,399評(píng)論 1 272
  • 我被黑心中介騙來泰國打工们妥, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人勉吻。 一個(gè)月前我還...
    沈念sama閱讀 48,837評(píng)論 3 376
  • 正文 我出身青樓监婶,卻偏偏與公主長得像,于是被迫代替她去往敵國和親齿桃。 傳聞我的和親對(duì)象是個(gè)殘疾皇子惑惶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,455評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容