自然場(chǎng)景文本檢測(cè)識(shí)別技術(shù)綜述

原創(chuàng)：?海翎SigAI

SIGAI特邀作者：海翎（視覺算法研究員）

青蛇: 姐, 圖像文本檢測(cè)和識(shí)別領(lǐng)域現(xiàn)在的研究熱點(diǎn)是什么？

白蛇: 白紙黑字的掃描文檔識(shí)別技術(shù)已經(jīng)很成熟，而自然場(chǎng)景圖像文本識(shí)別的效果還不理想。傾斜字、藝術(shù)字盏求、變形字、模糊字亿眠、形似字碎罚、殘缺字、光影遮蔽纳像、多語言混合文本等應(yīng)用落地面臨的技術(shù)難題還沒被徹底解決荆烈。

青蛇: 文本檢測(cè)模型CTPN中為什么選用VGG16作基礎(chǔ)網(wǎng)絡(luò)?

白蛇:CTPN是2016年被推出的, 而VGG16是那年很流行的特征提取基礎(chǔ)網(wǎng)絡(luò)。如果今年實(shí)施文本檢測(cè), 可以試試Resnet竟趾、FCN憔购、Densenet等后起之秀作基礎(chǔ)網(wǎng)絡(luò)，或許有驚喜岔帽。

摘要

本文介紹圖像文本識(shí)別（OCR）領(lǐng)域的最新技術(shù)進(jìn)展玫鸟。首先介紹應(yīng)用背景，包括面臨的技術(shù)挑戰(zhàn)山卦、典型應(yīng)用場(chǎng)景鞋邑、系統(tǒng)實(shí)施框架等。接著介紹搭建圖文識(shí)別模型過程中經(jīng)常被引用到的多種特征提取基礎(chǔ)網(wǎng)絡(luò)账蓉、物體檢測(cè)網(wǎng)絡(luò)框架枚碗，以及它們被應(yīng)用到圖文識(shí)別任務(wù)中所面臨的場(chǎng)景適配問題。然后介紹最近三年來出現(xiàn)的各種文本邊框檢測(cè)模型铸本、文字內(nèi)容識(shí)別模型肮雨、端到端圖文識(shí)別模型。最后介紹圖文識(shí)別領(lǐng)域的大型公開數(shù)據(jù)集箱玷。

應(yīng)用概述

OCR（Optical Character Recognition, 光學(xué)字符識(shí)別）傳統(tǒng)上指對(duì)輸入掃描文檔圖像進(jìn)行分析處理怨规，識(shí)別出圖像中文字信息陌宿。場(chǎng)景文字識(shí)別（Scene Text Recognition，STR）指識(shí)別自然場(chǎng)景圖片中的文字信息波丰。自然場(chǎng)景圖像中的文字識(shí)別壳坪，其難度遠(yuǎn)大于掃描文檔圖像中的文字識(shí)別，因?yàn)樗奈淖终宫F(xiàn)形式極其豐富：

·允許多種語言文本混合掰烟，字符可以有不同的大小爽蝴、字體、顏色纫骑、亮度蝎亚、對(duì)比度等。

·文本行可能有橫向先馆、豎向发框、彎曲、旋轉(zhuǎn)煤墙、扭曲等式樣梅惯。

·圖像中的文字區(qū)域還可能會(huì)產(chǎn)生變形(透視、仿射變換)番捂、殘缺个唧、模糊等現(xiàn)象。

·自然場(chǎng)景圖像的背景極其多樣设预。如文字可以出現(xiàn)在平面徙歼、曲面或折皺面上；文字區(qū)域附近有復(fù)雜的干擾紋理鳖枕、或者非文字區(qū)域有近似文字的紋理魄梯，比如沙地、草叢宾符、柵欄酿秸、磚墻等。

（本圖摘自新浪微博《光學(xué)字符識(shí)別技術(shù)：讓電腦像人一樣閱讀》）

也有人用OCR技術(shù)泛指所有圖像文字檢測(cè)和識(shí)別技術(shù)魏烫，包括傳統(tǒng)OCR技術(shù)與場(chǎng)景文字識(shí)別技術(shù)辣苏。這是因?yàn)椋瑘?chǎng)景文字識(shí)別技術(shù)可以被看成是傳統(tǒng)OCR技術(shù)的自然演進(jìn)與升級(jí)換代哄褒。

圖像文字檢測(cè)和識(shí)別技術(shù)有著廣泛的應(yīng)用場(chǎng)景稀蟋。已經(jīng)被互聯(lián)網(wǎng)公司落地的相關(guān)應(yīng)用涉及了識(shí)別名片、識(shí)別菜單呐赡、識(shí)別快遞單退客、識(shí)別身份證、識(shí)別營業(yè)證、識(shí)別銀行卡萌狂、識(shí)別車牌档玻、識(shí)別路牌、識(shí)別商品包裝袋茫藏、識(shí)別會(huì)議白板误趴、識(shí)別廣告主干詞、識(shí)別試卷务傲、識(shí)別單據(jù)等等冤留。

已經(jīng)有不少服務(wù)商在提供圖像文字檢測(cè)和識(shí)別服務(wù)，這些服務(wù)商既包括了騰訊树灶、百度、阿里糯而、微軟天通、亞馬遜、谷歌等大型云服務(wù)企業(yè)熄驼，也包括了一些活躍在物流像寒、教育、安防瓜贾、視頻直播诺祸、電子政務(wù)、電子商務(wù)祭芦、旅游導(dǎo)航等垂直細(xì)分行業(yè)的服務(wù)企業(yè)筷笨。這些企業(yè)既可以使用提前訓(xùn)練好的模型直接提供場(chǎng)景圖文識(shí)別、卡證識(shí)別龟劲、掃描文檔識(shí)別等云服務(wù)胃夏，也可以使用客戶提供的數(shù)據(jù)集訓(xùn)練定制化模型（如票據(jù)識(shí)別模型），以及提供定制化AI服務(wù)系統(tǒng)集成等昌跌。

如下圖所示仰禀，傳統(tǒng)技術(shù)解決方案中，是先分別訓(xùn)練文字檢測(cè)和文本識(shí)別兩個(gè)模型蚕愤，然后在服務(wù)實(shí)施階段將這兩個(gè)模型串聯(lián)到數(shù)據(jù)流水線中組成圖文識(shí)別系統(tǒng)答恶。

如下圖所示，最近流行的技術(shù)解決方案中萍诱，是用一個(gè)多目標(biāo)網(wǎng)絡(luò)直接訓(xùn)練出一個(gè)端到端的模型悬嗓。在訓(xùn)練階段，該模型的輸入是訓(xùn)練圖像及圖中文本坐標(biāo)砂沛、文本內(nèi)容烫扼，模型優(yōu)化目標(biāo)是輸出端邊框坐標(biāo)預(yù)測(cè)誤差與文本內(nèi)容預(yù)測(cè)誤差的加權(quán)和。在服務(wù)實(shí)施階段碍庵，原始圖片流過該模型直接輸出預(yù)測(cè)文本信息映企。相比于傳統(tǒng)方案悟狱，該方案中模型訓(xùn)練效率更高、服務(wù)運(yùn)營階段資源開銷更少堰氓。

文本檢測(cè)和識(shí)別技術(shù)處于一個(gè)學(xué)科交叉點(diǎn)挤渐，其技術(shù)演進(jìn)不斷受益于計(jì)算機(jī)視覺處理和自然語言處理兩個(gè)領(lǐng)域的技術(shù)進(jìn)步。它既需要使用視覺處理技術(shù)來提取圖像中文字區(qū)域的圖像特征向量双絮，又需要借助自然語言處理技術(shù)來解碼圖像特征向量為文字結(jié)果浴麻。

模型基礎(chǔ)

從公開論文中可以看到，起源于圖像分類囤攀、檢測(cè)软免、語義分割等視覺處理任務(wù)的各個(gè)基礎(chǔ)網(wǎng)絡(luò)（backbone network），紛紛被征用來提取圖像中文字區(qū)域的特征向量焚挠。同時(shí)膏萧，起源于物體檢測(cè)、語義分割任務(wù)的多個(gè)網(wǎng)絡(luò)框架蝌衔，也被改造后用于提升圖文識(shí)別任務(wù)中的準(zhǔn)確率和執(zhí)行速度榛泛。本章將簡單溫習(xí)一下這些基礎(chǔ)網(wǎng)絡(luò)、網(wǎng)絡(luò)框架的實(shí)現(xiàn)原理噩斟，并介紹圖文識(shí)別任務(wù)中應(yīng)用它們時(shí)所面臨的各種場(chǎng)景適配問題曹锨。

基礎(chǔ)網(wǎng)絡(luò)

圖文識(shí)別任務(wù)中充當(dāng)特征提取模塊的基礎(chǔ)網(wǎng)絡(luò)，可以來源于通用場(chǎng)景的圖像分類模型。例如，VGGNet呕缭，ResNet、InceptionNet覆享、DenseNet、Inside-Outside Net营袜、Se-Net等撒顿。?

圖文識(shí)別任務(wù)中的基礎(chǔ)網(wǎng)絡(luò)，也可以來源于特定場(chǎng)景的專用網(wǎng)絡(luò)模型荚板。例如凤壁，擅長提取圖像細(xì)節(jié)特征的FCN網(wǎng)絡(luò)，擅長做圖形矯正的STN網(wǎng)絡(luò)跪另。

由于大家對(duì)通用網(wǎng)絡(luò)模型已經(jīng)很熟悉拧抖，所以本節(jié)只簡單介紹上述專用網(wǎng)絡(luò)模型。

FCN網(wǎng)絡(luò)

全卷積網(wǎng)絡(luò)（FCN,fully convolutional network）免绿，是去除了全連接(fc)層的基礎(chǔ)網(wǎng)絡(luò)唧席，最初是用于實(shí)現(xiàn)語義分割任務(wù)。FCN的優(yōu)勢(shì)在于利用反卷積（deconvolution）、上池化（unpooling）等上采樣（upsampling）操作淌哟，將特征矩陣恢復(fù)到接近原圖尺寸迹卢，然后對(duì)每一個(gè)位置上的像素做類別預(yù)測(cè)，從而能識(shí)別出更清晰的物體邊界徒仓「睿基于FCN的檢測(cè)網(wǎng)絡(luò)，不再經(jīng)過候選區(qū)域回歸出物體邊框, 而是根據(jù)高分辨率的特征圖直接預(yù)測(cè)物體邊框掉弛。因?yàn)椴恍枰馞aster-RCNN那樣在訓(xùn)練前定義好候選框長寬比例症见，F(xiàn)CN在預(yù)測(cè)不規(guī)則物體邊界時(shí)更加魯棒。由于FCN網(wǎng)絡(luò)最后一層特征圖的像素分辨率較高殃饿，而圖文識(shí)別任務(wù)中需要依賴清晰的文字筆畫來區(qū)分不同字符（特別是漢字）谋作，所以FCN網(wǎng)絡(luò)很適合用來提取文本特征。當(dāng)FCN被用于圖文識(shí)別任務(wù)時(shí)乎芳，最后一層特征圖中每個(gè)像素將被分成文字行（前景）和非文字行（背景）兩個(gè)類別瓷们。

（選自arXiv:1411.4038，’ Fully Convolutional Networks for Semantic Segmentation’）

STN網(wǎng)絡(luò)

空間變換網(wǎng)絡(luò)（STN秒咐，Spatial Transformer Networks）的作用是對(duì)輸入特征圖進(jìn)行空間位置矯正得到輸出特征圖，這個(gè)矯正過程是可以進(jìn)行梯度傳導(dǎo)的碘裕，從而能夠支持端到端的模型訓(xùn)練携取。

如下圖所示，STN網(wǎng)絡(luò)由定位網(wǎng)絡(luò)（Localization Network）?帮孔，網(wǎng)格生成器（Grid generator）雷滋，采樣器（Sampler）共3個(gè)部分組成。定位網(wǎng)絡(luò)根據(jù)原始特征圖U計(jì)算出一套控制參數(shù)文兢，網(wǎng)格生成器這套控制參數(shù)產(chǎn)生采樣網(wǎng)格（sampling grid）晤斩，采樣器根據(jù)采樣網(wǎng)格核函數(shù)將原始圖U中像素對(duì)應(yīng)采樣到目標(biāo)圖V中。

空間變換的控制參數(shù)是根據(jù)原始特征圖U動(dòng)態(tài)生成的姆坚，生成空間變換控制參數(shù)的元參數(shù)則是在模型訓(xùn)練階段學(xué)習(xí)到的澳泵、并且存放于定位網(wǎng)絡(luò)的權(quán)重（weights）矩陣中。

（選自arXiv: 1506.02025’Spatial Transformer Networks’)

檢測(cè)網(wǎng)絡(luò)框架

Faster RCNN作為一個(gè)檢測(cè)網(wǎng)絡(luò)框架兼呵，其目標(biāo)是尋找緊湊包圍被檢測(cè)對(duì)象的邊框（BBOX兔辅，Bounding Box）。如下圖所示击喂，它在Fast RCNN檢測(cè)框架基礎(chǔ)上引入?yún)^(qū)域建議網(wǎng)絡(luò)（RPN维苔，Region Proposal Network），來快速產(chǎn)生與目標(biāo)物體長寬比例接近的多個(gè)候選區(qū)域參考框（anchor）懂昂；它通過ROI（Region of Interest） Pooling層為多種尺寸參考框產(chǎn)生出歸一化固定尺寸的區(qū)域特征介时；它利用共享的CNN卷積網(wǎng)絡(luò)同時(shí)向上述RPN網(wǎng)絡(luò)和ROI Pooling層輸入特征映射（Feature Maps），從而減少卷積層參數(shù)量和計(jì)算量。訓(xùn)練過程中使用到了多目標(biāo)損失函數(shù)沸柔，包括RPN網(wǎng)絡(luò)循衰、ROI Pooling層的邊框分類loss和坐標(biāo)回歸loss。通過這些loss的梯度反向傳播勉失，能夠調(diào)節(jié)候選框的坐標(biāo)羹蚣、并增大它與標(biāo)注對(duì)象邊框的重疊度/交并比(IOU，Intersection over Union）乱凿。RPN網(wǎng)格生成的候選框初始值有固定位置以及長寬比例顽素。如果候選框初始長寬比例設(shè)置得與圖像中物體形狀差別很大，就很難通過回歸找到一個(gè)緊湊包圍它的邊框徒蟆。

（摘自arXiv:1506.01497胁出，’Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks’）

SSD（Single Shot MultiBox Detector），是2016年提出的一種全卷積目標(biāo)檢測(cè)算法段审，截止到目前仍是主要的目標(biāo)檢測(cè)框架之一全蝶，相比Faster RCNN有著明顯的速度優(yōu)勢(shì)。如下圖所示寺枉，SSD是一種one stage算法抑淫，直接預(yù)測(cè)被檢測(cè)對(duì)象的邊框和得分。檢測(cè)過程中姥闪，SSD算法利用多尺度思想進(jìn)行檢測(cè)始苇，在不同尺度的特征圖(feature maps)上產(chǎn)生與目標(biāo)物體長寬比例接近的多個(gè)默認(rèn)框(Default boxes)，進(jìn)行回歸與分類筐喳。最后利用非極大值抑制(Non-maximum suppression)得到最終的檢測(cè)結(jié)果催式。訓(xùn)練過程中，SSD采用Hard negative mining策略進(jìn)行訓(xùn)練避归，使正負(fù)樣本比例保持為1：3荣月，同時(shí)使用多種數(shù)據(jù)增廣(Data augmentation)方式進(jìn)行訓(xùn)練，提高模型性能梳毙。

(摘自arxiv: 1512.02325哺窄，? “SSD: Single Shot MultiBox Detector”)

文本檢測(cè)模型

文本檢測(cè)模型的目標(biāo)是從圖片中盡可能準(zhǔn)確地找出文字所在區(qū)域。

但是账锹，視覺領(lǐng)域常規(guī)物體檢測(cè)方法(SSD, YOLO, Faster-RCNN等)直接套用于文字檢測(cè)任務(wù)效果并不理想堂氯，主要原因如下：

·相比于常規(guī)物體，文字行長度牌废、長寬比例變化范圍很大咽白。

·文本行是有方向性的。常規(guī)物體邊框BBox的四元組描述方式信息量不充足鸟缕。

·自然場(chǎng)景中某些物體局部圖像與字母形狀相似晶框，如果不參考圖像全局信息將有誤報(bào)排抬。

·有些藝術(shù)字體使用了彎曲的文本行，而手寫字體變化模式也很多授段。

·由于豐富的背景圖像干擾蹲蒲，手工設(shè)計(jì)特征在自然場(chǎng)景文本識(shí)別任務(wù)中不夠魯棒。

針對(duì)上述問題根因侵贵，近年來出現(xiàn)了各種基于深度學(xué)習(xí)的技術(shù)解決方案届搁。它們從特征提取、區(qū)域建議網(wǎng)絡(luò)(RPN)窍育、多目標(biāo)協(xié)同訓(xùn)練卡睦、Loss改進(jìn)、非極大值抑制（NMS）漱抓、半監(jiān)督學(xué)習(xí)等角度對(duì)常規(guī)物體檢測(cè)方法進(jìn)行改造表锻，極大提升了自然場(chǎng)景圖像中文本檢測(cè)的準(zhǔn)確率。例如：

·CTPN方案中乞娄，用BLSTM模塊提取字符所在圖像上下文特征瞬逊，以提高文本塊識(shí)別精度。

·RRPN等方案中仪或，文本框標(biāo)注采用BBOX +方向角度值的形式确镊，模型中產(chǎn)生出可旋轉(zhuǎn)的文字區(qū)域候選框，并在邊框回歸計(jì)算過程中找到待測(cè)文本行的傾斜角度范删。

·DMPNet等方案中蕾域，使用四邊形（非矩形）標(biāo)注文本框，來更緊湊的包圍文本區(qū)域瓶逃。

·SegLink? 將單詞切割為更易檢測(cè)的小文字塊，再預(yù)測(cè)鄰近連接將小文字塊連成詞廓块。

·TextBoxes等方案中厢绝，調(diào)整了文字區(qū)域參考框的長寬比例，并將特征層卷積核調(diào)整為長方形带猴，從而更適合檢測(cè)出細(xì)長型的文本行昔汉。

·FTSN方案中，作者使用Mask-NMS代替?zhèn)鹘y(tǒng)BBOX的NMS算法來過濾候選框拴清。

·WordSup方案中靶病，采用半監(jiān)督學(xué)習(xí)策略，用單詞級(jí)標(biāo)注數(shù)據(jù)來訓(xùn)練字符級(jí)文本檢測(cè)模型口予。

下面用近年來出現(xiàn)的多個(gè)模型案例娄周，介紹如何應(yīng)用上述各方法提升圖像文本檢測(cè)的效果。

CTPN模型?

CTPN是目前流傳最廣沪停、影響最大的開源文本檢測(cè)模型煤辨，可以檢測(cè)水平或微斜的文本行裳涛。文本行可以被看成一個(gè)字符sequence，而不是一般物體檢測(cè)中單個(gè)獨(dú)立的目標(biāo)众辨。同一文本行上各個(gè)字符圖像間可以互為上下文端三，在訓(xùn)練階段讓檢測(cè)模型學(xué)習(xí)圖像中蘊(yùn)含的這種上下文統(tǒng)計(jì)規(guī)律，可以使得預(yù)測(cè)階段有效提升文本塊預(yù)測(cè)準(zhǔn)確率鹃彻。CTPN模型的圖像預(yù)測(cè)流程中郊闯，前端使用當(dāng)時(shí)流行的VGG16做基礎(chǔ)網(wǎng)絡(luò)來提取各字符的局部圖像特征，中間使用BLSTM層提取字符序列上下文特征蛛株，然后通過FC全連接層团赁，末端經(jīng)過預(yù)測(cè)分支輸出各個(gè)文字塊的坐標(biāo)值和分類結(jié)果概率值。在數(shù)據(jù)后處理階段泳挥，將合并相鄰的小文字塊為文本行然痊。

（選自arXiv: 1609.03605，’Detecting Text in Natural Image with Connectionist Text Proposal Network’）

RRPN模型

基于旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)（RRPN, Rotation Region Proposal Networks）的方案屉符，將旋轉(zhuǎn)因素并入經(jīng)典區(qū)域候選網(wǎng)絡(luò)（如Faster RCNN）剧浸。這種方案中，一個(gè)文本區(qū)域的ground truth被表示為具有5元組(x,y,h,w,θ)的旋轉(zhuǎn)邊框, 坐標(biāo)(x,y)表示邊框的幾何中心, 高度h設(shè)定為邊框的短邊矗钟，寬度w為長邊唆香，方向是長邊的方向。訓(xùn)練時(shí)吨艇，首先生成含有文本方向角的傾斜候選框躬它，然后在邊框回歸過程中學(xué)習(xí)文本方向角。

（選自arXiv: 1703.01086东涡，’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’）

RRPN中方案中提出了旋轉(zhuǎn)感興趣區(qū)域（RRoI冯吓，Rotation Region-of-Interest）池化層，將任意方向的區(qū)域建議先劃分成子區(qū)域疮跑，然后對(duì)這些子區(qū)域分別做max pooling组贺、并將結(jié)果投影到具有固定空間尺寸小特征圖上。

（選自arXiv: 1703.01086祖娘，’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’）

FTSN模型

FTSN（Fused Text Segmentation Networks）模型使用分割網(wǎng)絡(luò)支持傾斜文本檢測(cè)失尖。它使用Resnet-101做基礎(chǔ)網(wǎng)絡(luò)，使用了多尺度融合的特征圖渐苏。標(biāo)注數(shù)據(jù)包括文本實(shí)例的像素掩碼和邊框掀潮，使用像素預(yù)測(cè)與邊框檢測(cè)多目標(biāo)聯(lián)合訓(xùn)練。

（選自arXiv: 1709.03272琼富，’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’）

基于文本實(shí)例間像素級(jí)重合度的Mask-NMS仪吧，替代了傳統(tǒng)基于水平邊框間重合度的NMS算法。下圖左邊子圖是傳統(tǒng)NMS算法執(zhí)行結(jié)果鞠眉，中間白色邊框被錯(cuò)誤地抑制掉了邑商。下圖右邊子圖是Mask-NMS算法執(zhí)行結(jié)果摄咆，三個(gè)邊框都被成功保留下來。

（選自arXiv: 1709.03272人断，’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’）

DMPNet模型

DMPNet（Deep Matching Prior Network）中吭从，使用四邊形（非矩形）來更緊湊地標(biāo)注文本區(qū)域邊界，其訓(xùn)練出的模型對(duì)傾斜文本塊檢測(cè)效果更好恶迈。

如下圖所示涩金，它使用滑動(dòng)窗口在特征圖上獲取文本區(qū)域候選框，候選框既有正方形的暇仲、也有傾斜四邊形的步做。接著，使用基于像素點(diǎn)采樣的Monte-Carlo方法奈附，來快速計(jì)算四邊形候選框與標(biāo)注框間的面積重合度全度。然后，計(jì)算四個(gè)頂點(diǎn)坐標(biāo)到四邊形中心點(diǎn)的距離斥滤，將它們與標(biāo)注值相比計(jì)算出目標(biāo)loss将鸵。文章中推薦用Ln loss來取代L1、L2 loss佑颇，從而對(duì)大小文本框都有較快的訓(xùn)練回歸（regress）速度顶掉。

（選自arXiv:1703.01425，’Deep?Matching?Prior?Network: Toward Tighter Multi-oriented Text Detection’）

EAST模型

EAST（Efficient and Accuracy Scene Text detection pipeline）模型中挑胸，首先使用全卷積網(wǎng)絡(luò)（FCN）生成多尺度融合的特征圖痒筒，然后在此基礎(chǔ)上直接進(jìn)行像素級(jí)的文本塊預(yù)測(cè)。該模型中茬贵，支持旋轉(zhuǎn)矩形框簿透、任意四邊形兩種文本區(qū)域標(biāo)注形式。對(duì)應(yīng)于四邊形標(biāo)注解藻，模型執(zhí)行時(shí)會(huì)對(duì)特征圖中每個(gè)像素預(yù)測(cè)其到四個(gè)頂點(diǎn)的坐標(biāo)差值老充。對(duì)應(yīng)于旋轉(zhuǎn)矩形框標(biāo)注，模型執(zhí)行時(shí)會(huì)對(duì)特征圖中每個(gè)像素預(yù)測(cè)其到矩形框四邊的距離舆逃、以及矩形框的方向角蚂维。

根據(jù)開源工程中預(yù)訓(xùn)練模型的測(cè)試戳粒，該模型檢測(cè)英文單詞效果較好路狮、檢測(cè)中文長文本行效果欠佳∥翟迹或許奄妨，根據(jù)中文數(shù)據(jù)特點(diǎn)進(jìn)行針對(duì)性訓(xùn)練后，檢測(cè)效果還有提升空間苹祟。

上述過程中砸抛，省略了其他模型中常見的區(qū)域建議评雌、單詞分割、子塊合并等步驟直焙，因此該模型的執(zhí)行速度很快景东。

（選自arXiv: 1704.03155，’EAST: An Efficient and Accurate Scene Text Detector’）

?SegLink模型

SegLink模型的標(biāo)注數(shù)據(jù)中奔誓，先將每個(gè)單詞切割為更易檢測(cè)的有方向的小文字塊（segment）斤吐，然后用鄰近連接（link?）將各個(gè)小文字塊連接成單詞。這種方案方便于識(shí)別長度變化范圍很大的厨喂、帶方向的單詞和文本行和措，它不會(huì)象Faster-RCNN等方案因?yàn)楹蜻x框長寬比例原因檢測(cè)不出長文本行。相比于CTPN等文本檢測(cè)模型蜕煌，SegLink的圖片處理速度快很多派阱。

（選自arXiv: 1703.06520，’Detecting Oriented Text in Natural Images by Linking Segments’）

如下圖所示斜纪，該模型能夠同時(shí)從6種尺度的特征圖中檢測(cè)小文字塊贫母。同一層特征圖、或者相鄰層特征圖上的小文字塊都有可能被連接入同一個(gè)單詞中傀广。換句話說颁独，位置鄰近、并且尺寸接近的文字塊都有可能被預(yù)測(cè)到同一單詞中伪冰。

（選自arXiv: 1703.06520誓酒，’Detecting Oriented Text in Natural Images by Linking Segments’）

PixelLink模型

自然場(chǎng)景圖像中一組文字塊經(jīng)常緊挨在一起，通過語義分割方法很難將它們識(shí)別開來贮聂，所以PixelLink模型嘗試用實(shí)例分割方法解決這個(gè)問題靠柑。

該模型的特征提取部分，為VGG16基礎(chǔ)上構(gòu)建的FCN網(wǎng)絡(luò)吓懈。模型執(zhí)行流程如下圖所示歼冰。首先，借助于CNN 模塊執(zhí)行兩個(gè)像素級(jí)預(yù)測(cè)：一個(gè)文本二分類預(yù)測(cè)耻警，一個(gè)鏈接二分類預(yù)測(cè)隔嫡。接著，用正鏈接去連接鄰居正文本像素甘穿，得到文字塊實(shí)例分割結(jié)果腮恩。然后，由分割結(jié)果直接就獲得文字塊邊框温兼，而且允許生成傾斜邊框秸滴。

上述過程中，省掉了其他模型中常見的邊框回歸步驟募判，因此訓(xùn)練收斂速度更快些荡含。訓(xùn)練階段咒唆，使用了平衡策略，使得每個(gè)文字塊在總LOSS中的權(quán)值相同释液。訓(xùn)練過程中全释，通過預(yù)處理增加了各種方向角度的文字塊實(shí)例。

（選自arXiv: 1801.01315误债，’Detecting Scene Text via Instance Segmentation’）

Textboxes/Textboxes++模型

Textboxes是基于SSD框架的圖文檢測(cè)模型恨溜，訓(xùn)練方式是端到端的，運(yùn)行速度也較快找前。如下圖所示糟袁，為了適應(yīng)文字行細(xì)長型的特點(diǎn)，候選框的長寬比增加了1,2,3,5,7,10這樣初始值躺盛。為了適應(yīng)文本行細(xì)長型特點(diǎn)项戴，特征層也用長條形卷積核代替了其他模型中常見的正方形卷積核。為了防止漏檢文本行槽惫，還在垂直方向增加了候選框數(shù)量周叮。為了檢測(cè)大小不同的字符塊，在多個(gè)尺度的特征圖上并行預(yù)測(cè)文本框界斜，然后對(duì)預(yù)測(cè)結(jié)果做NMS過濾仿耽。

（選自arXiv: 1611.06779，’TextBoxes: A Fast Text Detector with a Single Deep Neural Network’）

Textboxes++是Textboxes的升級(jí)版本各薇，目的是增加對(duì)傾斜文本的支持项贺。為此，將標(biāo)注數(shù)據(jù)改為了旋轉(zhuǎn)矩形框和不規(guī)則四邊形的格式峭判；對(duì)候選框的長寬比例开缎、特征圖層卷積核的形狀都作了相應(yīng)調(diào)整。

（選自arXiv: 1801.02765林螃，’TextBoxes++: A Single-Shot Oriented Scene Text Detector’）

WordSup模型

如下圖所示奕删，在數(shù)學(xué)公式圖文識(shí)別、不規(guī)則形變文本行識(shí)別等應(yīng)用中疗认，字符級(jí)檢測(cè)模型是一個(gè)關(guān)鍵基礎(chǔ)模塊完残。由于字符級(jí)自然場(chǎng)景圖文標(biāo)注成本很高、相關(guān)公開數(shù)據(jù)集稀少横漏，導(dǎo)致現(xiàn)在多數(shù)圖文檢測(cè)模型只能在文本行谨设、單詞級(jí)標(biāo)注數(shù)據(jù)上做訓(xùn)練。WordSup提出了一種弱監(jiān)督的訓(xùn)練框架绊茧，可以文本行铝宵、單詞級(jí)標(biāo)注數(shù)據(jù)集上訓(xùn)練出字符級(jí)檢測(cè)模型打掘。

如下圖所示华畏，WordSup弱監(jiān)督訓(xùn)練框架中鹏秋，兩個(gè)訓(xùn)練步驟被交替執(zhí)行：給定當(dāng)前字符檢測(cè)模型，并結(jié)合單詞級(jí)標(biāo)注數(shù)據(jù)亡笑，計(jì)算出字符中心點(diǎn)掩碼圖侣夷；給定字符中心點(diǎn)掩碼圖，有監(jiān)督地訓(xùn)練字符級(jí)檢測(cè)模型.

如下圖仑乌，訓(xùn)練好字符檢測(cè)器后百拓，可以在數(shù)據(jù)流水線中加入合適的文本結(jié)構(gòu)分析模塊，以輸出符合應(yīng)用場(chǎng)景格式要求的文本內(nèi)容晰甚。該文作者例舉了多種文本結(jié)構(gòu)分析模塊的實(shí)現(xiàn)方法衙传。

（選自arXiv: 1708.06720，’WordSup： Exploiting Word Annotations for Character based Text Detection’）

文本識(shí)別模型

文本識(shí)別模型的目標(biāo)是從已分割出的文字區(qū)域中識(shí)別出文本內(nèi)容厕九。

CRNN模型

CRNN(Convolutional Recurrent Neural Network）是目前較為流行的圖文識(shí)別模型蓖捶，可識(shí)別較長的文本序列。它包含CNN特征提取層和BLSTM序列特征提取層扁远，能夠進(jìn)行端到端的聯(lián)合訓(xùn)練俊鱼。它利用BLSTM和CTC部件學(xué)習(xí)字符圖像中的上下文關(guān)系，從而有效提升文本識(shí)別準(zhǔn)確率畅买，使得模型更加魯棒并闲。預(yù)測(cè)過程中，前端使用標(biāo)準(zhǔn)的CNN網(wǎng)絡(luò)提取文本圖像的特征谷羞，利用BLSTM將特征向量進(jìn)行融合以提取字符序列的上下文特征帝火，然后得到每列特征的概率分布，最后通過轉(zhuǎn)錄層(CTC rule)進(jìn)行預(yù)測(cè)得到文本序列湃缎。

（選自arXiv: 1507.05717购公，’An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition’）

RARE模型

RARE（Robust text recognizer with Automatic Rectification）模型在識(shí)別變形的圖像文本時(shí)效果很好。如下圖所示雁歌，模型預(yù)測(cè)過程中宏浩，輸入圖像首先要被送到一個(gè)空間變換網(wǎng)絡(luò)中做處理，矯正過的圖像然后被送入序列識(shí)別網(wǎng)絡(luò)中得到文本預(yù)測(cè)結(jié)果靠瞎。

如下圖所示比庄，空間變換網(wǎng)絡(luò)內(nèi)部包含定位網(wǎng)絡(luò)、網(wǎng)格生成器乏盐、采樣器三個(gè)部件佳窑。經(jīng)過訓(xùn)練后，它可以根據(jù)輸入圖像的特征圖動(dòng)態(tài)地產(chǎn)生空間變換網(wǎng)格父能，然后采樣器根據(jù)變換網(wǎng)格核函數(shù)從原始圖像中采樣獲得一個(gè)矩形的文本圖像神凑。RARE中支持一種稱為TPS（thin-plate splines）的空間變換，從而能夠比較準(zhǔn)確地識(shí)別透視變換過的文本、以及彎曲的文本.?

（選自arXiv: 1603.03915溉委，’Robust?Scene?Text?Recognition?with?Automatic?Rectification’）

端到端模型

端到端模型的目標(biāo)是一站式直接從圖片中定位和識(shí)別出所有文本內(nèi)容來鹃唯。

FOTS Rotation-Sensitive Regression

FOTS（Fast Oriented Text Spotting）是圖像文本檢測(cè)與識(shí)別同步訓(xùn)練、端到端可學(xué)習(xí)的網(wǎng)絡(luò)模型瓣喊。檢測(cè)和識(shí)別任務(wù)共享卷積特征層坡慌，既節(jié)省了計(jì)算時(shí)間，也比兩階段訓(xùn)練方式學(xué)習(xí)到更多圖像特征藻三。引入了旋轉(zhuǎn)感興趣區(qū)域（RoIRotate）, 可以從卷積特征圖中產(chǎn)生出定向的文本區(qū)域洪橘，從而支持傾斜文本的識(shí)別.?

（選自arXiv: 1801.01671，’FOTS: Fast Oriented Text Spotting with a Unified Network’）

STN-OCR模型

STN-OCR是集成了了圖文檢測(cè)和識(shí)別功能的端到端可學(xué)習(xí)模型棵帽。在它的檢測(cè)部分嵌入了一個(gè)空間變換網(wǎng)絡(luò)（STN）來對(duì)原始輸入圖像進(jìn)行仿射（affine）變換熄求。利用這個(gè)空間變換網(wǎng)絡(luò)，可以對(duì)檢測(cè)到的多個(gè)文本塊分別執(zhí)行旋轉(zhuǎn)逗概、縮放和傾斜等圖形矯正動(dòng)作抡四，從而在后續(xù)文本識(shí)別階段得到更好的識(shí)別精度。在訓(xùn)練上STN-OCR屬于半監(jiān)督學(xué)習(xí)方法仗谆，只需要提供文本內(nèi)容標(biāo)注指巡，而不要求文本定位信息。作者也提到隶垮，如果從頭開始訓(xùn)練則網(wǎng)絡(luò)收斂速度較慢藻雪，因此建議漸進(jìn)地增加訓(xùn)練難度。STN-OCR已經(jīng)開放了工程源代碼和預(yù)訓(xùn)練模型狸吞。

（選自arXiv: 1707.08831勉耀，’STN-OCR: A single Neural Network for Text Detection and Text Recognition’）

訓(xùn)練數(shù)據(jù)集

本章將列舉可用于文本檢測(cè)和識(shí)別領(lǐng)域模型訓(xùn)練的一些大型公開數(shù)據(jù)集，不涉及僅用于模型fine-tune任務(wù)的小型數(shù)據(jù)集蹋偏。

Chinese Text in the Wild(CTW)

該數(shù)據(jù)集包含32285張圖像便斥，1018402個(gè)中文字符(來自于騰訊街景), 包含平面文本，凸起文本威始，城市文本枢纠，農(nóng)村文本，低亮度文本黎棠，遠(yuǎn)處文本晋渺，部分遮擋文本。圖像大小2048*2048脓斩，數(shù)據(jù)集大小為31GB木西。以(8:1:1)的比例將數(shù)據(jù)集分為訓(xùn)練集(25887張圖像，812872個(gè)漢字)随静，測(cè)試集(3269張圖像八千，103519個(gè)漢字)，驗(yàn)證集(3129張圖像，103519個(gè)漢字)恋捆。

文獻(xiàn)鏈接：https://arxiv.org/pdf/1803.00085.pdf?

數(shù)據(jù)集下載地址：https://ctwdataset.github.io/

Reading Chinese Text in the Wild(RCTW-17)

該數(shù)據(jù)集包含12263張圖像照皆，訓(xùn)練集8034張，測(cè)試集4229張鸠信，共11.4GB。大部分圖像由手機(jī)相機(jī)拍攝论寨，含有少量的屏幕截圖星立，圖像中包含中文文本與少量英文文本。圖像分辨率大小不等葬凳。

下載地址http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html

文獻(xiàn)：http://arxiv.org/pdf/1708.09585v2

ICPR MWI 2018 挑戰(zhàn)賽

大賽提供20000張圖像作為數(shù)據(jù)集绰垂，其中50%作為訓(xùn)練集，50%作為測(cè)試集火焰。主要由合成圖像劲装，產(chǎn)品描述，網(wǎng)絡(luò)廣告構(gòu)成昌简。該數(shù)據(jù)集數(shù)據(jù)量充分占业，中英文混合，涵蓋數(shù)十種字體纯赎，字體大小不一谦疾，多種版式，背景復(fù)雜犬金。文件大小為2GB念恍。

下載地址：

https://tianchi.aliyun.com/competition/information.htm?raceId=231651&_is_login_redirect=true&accounttraceid=595a06c3-7530-4b8a-ad3d-40165e22dbfe???

Total-Text

該數(shù)據(jù)集共1555張圖像，11459文本行乐尊，包含水平文本巢音，傾斜文本缓醋，彎曲文本。文件大小441MB瞳氓。大部分為英文文本，少量中文文本栓袖。訓(xùn)練集：1255張? 測(cè)試集：300

下載地址：http://www.cs-chan.com/source/ICDAR2017/totaltext.zip

文獻(xiàn)：http:// arxiv.org/pdf/1710.10400v

Google FSNS(谷歌街景文本數(shù)據(jù)集)

該數(shù)據(jù)集是從谷歌法國街景圖片上獲得的一百多萬張街道名字標(biāo)志顿膨，每一張包含同一街道標(biāo)志牌的不同視角，圖像大小為600*150叽赊，訓(xùn)練集1044868張恋沃，驗(yàn)證集16150張，測(cè)試集20404張必指。

下載地址：http://rrc.cvc.uab.es/?ch=6&com=downloads

文獻(xiàn)：http:// arxiv.org/pdf/1702.03970v1

COCO-TEXT

該數(shù)據(jù)集囊咏，包括63686幅圖像，173589個(gè)文本實(shí)例，包括手寫版和打印版梅割，清晰版和非清晰版霜第。文件大小12.58GB，訓(xùn)練集：43686張户辞，測(cè)試集：10000張泌类，驗(yàn)證集：10000張

文獻(xiàn): http://arxiv.org/pdf/1601.07140v2

下載地址：https://vision.cornell.edu/se3/coco-text-2/

Synthetic Data for Text Localisation

在復(fù)雜背景下人工合成的自然場(chǎng)景文本數(shù)據(jù)。包含858750張圖像底燎，共7266866個(gè)單詞實(shí)例刃榨，28971487個(gè)字符，文件大小為41GB双仍。該合成算法枢希，不需要人工標(biāo)注就可知道文字的label信息和位置信息，可得到大量自然場(chǎng)景文本標(biāo)注數(shù)據(jù)朱沃。

下載地址：http://www.robots.ox.ac.uk/~vgg/data/scenetext/

文獻(xiàn)：http://www.robots.ox.ac.uk/~ankush/textloc.pdf

Code: https://github.com/ankush-me/SynthText (英文版)

Code: https://github.com/wang-tf/Chinese_OCR_synthetic_data(中文版)

Synthetic Word Dataset

合成文本識(shí)別數(shù)據(jù)集苞轿，包含9百萬張圖像，涵蓋了9萬個(gè)英語單詞逗物。文件大小為10GB

下載地址：http://www.robots.ox.ac.uk/~vgg/data/text/

Caffe-ocr中文合成數(shù)據(jù)

數(shù)據(jù)利用中文語料庫搬卒，通過字體、大小翎卓、灰度秀睛、模糊、透視莲祸、拉伸等變化隨機(jī)生成蹂安，共360萬張圖片，圖像分辨率為280x32锐帜，涵蓋了漢字田盈、標(biāo)點(diǎn)、英文缴阎、數(shù)字共5990個(gè)字符允瞧。文件大小約為8.6GB

下載地址：https://pan.baidu.com/s/1dFda6R3

參考文獻(xiàn)

1. “光學(xué)字符識(shí)別技術(shù)：讓電腦像人一樣閱讀”, 新浪微博, 霍強(qiáng)

http://tech.sina.com.cn/d/i/2015-04-03/doc-icczmvun8339303.shtml

2.“Fully Convolutional Networks for Semantic Segmentation”, arXiv:1411.4038，Jonathan Long, Evan Shelhamer, Trevor Darrell

https://arxiv.org/pdf/1411.4038

3.“Spatial Transformer Networks”蛮拔，arXiv:1506.02025述暂，Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu

https://arxiv.org/pdf/1506.02025

4.“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”，arXiv:1506.01497建炫，Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

https://arxiv.org/pdf/1506.01497

5.“SSD: Single Shot MultiBox Detector”畦韭，arxiv:1512.02325，Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg?

https://arxiv.org/pdf/1512.02325

6.“Detecting Text in Natural Image with Connectionist Text Proposal Network”肛跌，arXiv:1609.03605艺配，Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao

https://arxiv.org/pdf/1609.03605

7.“Arbitrary-Oriented Scene Text Detection via Rotation Proposals”察郁，arXiv:1703.01086，Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, Xiangyang Xue

https://arxiv.org/pdf/1703.01086

8.“Fused Text Segmentation Networks for Multi-oriented Scene Text Detection”转唉，arXiv:1709.03272皮钠，Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, Weidong Qiu

https://arxiv.org/pdf/1709.03272

9.“Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection”，arXiv:1703.01425赠法，Yuliang Liu, Lianwen Jin

https://arxiv.org/pdf/1703.01425

10.“EAST: An Efficient and Accurate Scene Text Detector”麦轰，arXiv:1704.03155，Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang

https://arxiv.org/pdf/1704.03155

11.“Detecting Oriented Text in Natural Images by Linking Segments”砖织，arXiv:1703.06520款侵，Baoguang Shi, Xiang Bai, Serge Belongie

https://arxiv.org/pdf/1703.06520

12.“Detecting Scene Text via Instance Segmentation”，arXiv:1801.01315镶苞，Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai

https://arxiv.org/pdf/1801.01315

13.“TextBoxes: A Fast Text Detector with a Single Deep Neural Network”喳坠，arXiv:1611.06779鞠评，Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu

https://arxiv.org/pdf/1611.06779

14.“TextBoxes++: A Single-Shot Oriented Scene Text Detector”茂蚓，arXiv:1801.02765，Minghui Liao, Baoguang Shi, Xiang Bai

https://arxiv.org/pdf/1801.02765

15.“WordSup： Exploiting Word Annotations for Character based Text Detection”剃幌，arXiv:1708.06720聋涨，Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, Errui Ding

https://arxiv.org/pdf/1708.06720

16.“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”，arXiv:1507.05717负乡，Baoguang Shi, Xiang Bai, Cong Yao

https://arxiv.org/pdf/1507.05717

17. “Robust Scene Text Recognition with Automatic Rectification”牍白，arXiv:1603.03915，Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai

https://arxiv.org/pdf/1603.03915

18.“FOTS: Fast Oriented Text Spotting with a Unified Network”抖棘，arXiv:1801.01671茂腥，Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan

https://arxiv.org/pdf/1801.01671

19.“STN-OCR: A single Neural Network for Text Detection and Text Recognition”，arXiv:1707.08831切省，Christian Bartz, Haojin Yang, Christoph Meinel

https://arxiv.org/pdf/1707.08831

20.“Chinese Text in the Wild”最岗，arXiv:1803.00085，Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, Shi-Min Hu

https://arxiv.org/pdf/1803.00085.pdf

21.“ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)”朝捆，arXiv:1708.09585般渡，Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, Xiang Bai

http://arxiv.org/pdf/1708.09585

22.“Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition”，arXiv:1710.10400芙盘，Chee Kheng Chng, Chee Seng Chan

https://arxiv.org/pdf/1710.10400

23.“End-to-End Interpretation of the French Street Name Signs Dataset”驯用，arXiv:1702.03970，Raymond Smith, Chunhui Gu, Dar-Shyang Lee, Huiyi Hu, Ranjith Unnikrishnan, Julian Ibarz, Sacha Arnoud, Sophia Lin

https://arxiv.org/pdf/1702.03970

24.“COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images”儒老，arXiv:1601.07140蝴乔，Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie

http://arxiv.org/pdf/1601.07140

25.“Synthetic Data for Text Localisation in Natural Images”，arXiv:1604.06646驮樊， Ankush Gupta淘这， Andrea Vedaldi剥扣， Andrew Zisserman

https://arxiv.org/pdf/1604.06646

自然場(chǎng)景文本檢測(cè)識(shí)別技術(shù)綜述

推薦閱讀更多精彩內(nèi)容