--> 在六七月份參加了一個(gè)比賽,做的項(xiàng)目是提取圖片中的文字信息殿漠,首先是接觸了一些文本檢測(cè)算法(如CTPN犀暑,East)帽揪,后研究了文本識(shí)別算法(我認(rèn)為較好的是CRNN)。代碼實(shí)現(xiàn)是參考算法提出者的pytorch,python3版本的crnn實(shí)現(xiàn)脚囊。因?yàn)閜ython版本的迭代龟糕,導(dǎo)致代碼重使用比較難,其中涉及到ctc悔耘,python編碼讲岁,中文數(shù)據(jù)集,如何將模型finetune到自己的應(yīng)用場(chǎng)景上種種問(wèn)題衬以。實(shí)現(xiàn)的深度學(xué)習(xí)框架是pytorch缓艳,雖然TensorFlow也可以,但是比較多坑看峻。其實(shí)是什么框架實(shí)現(xiàn)的都沒(méi)關(guān)系阶淘,現(xiàn)在語(yǔ)法都是比較簡(jiǎn)單,看懂不難备籽!
因?yàn)樽约阂呀?jīng)踩了很多坑舶治,也填好了這些坑,就將自己填好的項(xiàng)目貢獻(xiàn)給大家车猬!
(https://github.com/Sierkinhane/crnn_chinese_characters_rec) 代碼地址
這次分享的是文本識(shí)別算法CRNN霉猛,具體的內(nèi)容我就不涉及了,這篇文章主要是做算法代碼的實(shí)現(xiàn)(參考原作者)珠闰,建議大家研讀算法一定要看作者發(fā)的Paper惜浅! CRNN論文地址:http://arxiv.org/abs/1507.05717(作者是華中科技大學(xué)的老師)
先放一些效果圖,利用360萬(wàn)的中文數(shù)據(jù)訓(xùn)練集伏嗜,最后可以finetune到97.7%的驗(yàn)證準(zhǔn)確率坛悉,訓(xùn)練好的模型在train_models文件夾
第一、二張圖片是最近修改的一個(gè)demo承绸,第三裸影、四張圖是CTPN算法和CRNN的結(jié)合,可以將圖片上的任何文字信息提取军熏。因?yàn)镃TPN要求的環(huán)境比較復(fù)雜轩猩,所以這次只放出CRNN的代碼,因?yàn)镃RNN實(shí)現(xiàn)環(huán)境比較簡(jiǎn)單荡澎。
現(xiàn)在開(kāi)始介紹代碼:
代碼的實(shí)現(xiàn)必須是Linux環(huán)境(因?yàn)樯婕暗絯arp-ctc的安裝均践,最好是Ubuntu16.04,能跳的坑我基本都填了)
1. Warp-ctc安裝
首先得安裝warp-ctc https://github.com/SeanNaren/Warp-ctc摩幔,這是pytorch版本的ctc實(shí)現(xiàn)(計(jì)算序列l(wèi)oss彤委,具體看論文),安裝方法按照作者的步驟即可或衡,如果遇到問(wèn)題可以私聊我焦影。我是在Ubuntu16.04安裝的车遂,并沒(méi)有太大問(wèn)題,但是在17.04就遇到很多問(wèn)題偷办,所以最好用Ubuntu16.04作為代碼實(shí)現(xiàn)環(huán)境艰额。
2. 測(cè)試
安裝好ctc后澄港,直接運(yùn)行終端輸入 python3 test.py 試下效果椒涯,測(cè)試圖片在test_images文件夾下。
3. 訓(xùn)練
正確的訓(xùn)練效果如圖回梧。
訓(xùn)練之前首先制作數(shù)據(jù)集废岂,因?yàn)?60萬(wàn)的中文數(shù)據(jù)集制作成lmdb格式的數(shù)據(jù)有十幾G,就沒(méi)直接放到Github中狱意。
先下載360萬(wàn)中文數(shù)據(jù)集:https://pan.baidu.com/s/1ufYbnZAZ1q0AlK7yZ08cvQ
對(duì)于數(shù)據(jù)集我想說(shuō)明一下湖苞,在文字識(shí)別領(lǐng)域有比較多的識(shí)別場(chǎng)景,例如場(chǎng)景文本識(shí)別详囤,比較正規(guī)的圖片信息識(shí)別财骨,這些不同的應(yīng)用場(chǎng)景需要對(duì)應(yīng)不同的數(shù)據(jù)集訓(xùn)練,這次我自己應(yīng)用到的場(chǎng)景比較正規(guī)的字體識(shí)別藏姐,所以這個(gè)訓(xùn)練集不一定能夠用到所有場(chǎng)景隆箩,但也確實(shí)提供了一個(gè)不錯(cuò)數(shù)據(jù)集資源!還有就是訓(xùn)練集最好是具有語(yǔ)義信息羔杨,如果只是將文字隨機(jī)的組合生成圖片作為訓(xùn)練集捌臊,模型收斂會(huì)更慢并且準(zhǔn)確率受限!
下圖是部分訓(xùn)練集
(這個(gè)數(shù)據(jù)是在Github中找到的兜材,暫時(shí)沒(méi)找到他的地址理澎,很感謝作者的奉獻(xiàn)!)
數(shù)據(jù)集是隨機(jī)選取定長(zhǎng)的字?jǐn)?shù)曙寡,經(jīng)過(guò)模糊糠爬、傾斜、顏色變化等操作之后生成的举庶,比較具有一般性执隧,能很好地提升模型的Robust。
下載好數(shù)據(jù)集之后如果解壓出錯(cuò)灯变,不完整殴玛,可以用好壓進(jìn)行修復(fù)。
接下來(lái)是制作lmdb格式的數(shù)據(jù)添祸。
圖片與之對(duì)應(yīng)的標(biāo)簽我鏈接:https://pan.baidu.com/s/1jfAKQVjD-SMJSffOwGhh8A 密碼:u7bo滚粟,只需要將下載好的數(shù)據(jù)集放到lmdb文件中,根據(jù)情況修改to_lmdb.py中的文件名 運(yùn)行該py程序就可以制作lmdb格式的數(shù)據(jù)刃泌!
制作好數(shù)據(jù)集之后將它放到lmdb_dataset文件夾中調(diào)出終端:
python3 crnn_main.py --train_root 訓(xùn)練數(shù)據(jù)集路徑 --val_root 驗(yàn)證集路徑 --cuda (如果有cuda加速可選)
大概流程就是這樣了凡壤,最主要的還是自己看待自己琢磨署尤!
(不定長(zhǎng)識(shí)別是將訓(xùn)練集圖片的放縮feed到神經(jīng)網(wǎng)絡(luò)中的尺寸應(yīng)用到測(cè)試中,test.py已經(jīng)標(biāo)注Q窍馈)
(如果有幫助到你曹体,可以在Github給我個(gè)star!)