自然場(chǎng)景文本檢測(cè)識(shí)別技術(shù)綜述

原創(chuàng):?海翎SigAI

SIGAI特邀作者:海翎(視覺算法研究員)

青蛇: 姐, 圖像文本檢測(cè)和識(shí)別領(lǐng)域現(xiàn)在的研究熱點(diǎn)是什么?

白蛇: 白紙黑字的掃描文檔識(shí)別技術(shù)已經(jīng)很成熟,而自然場(chǎng)景圖像文本識(shí)別的效果還不理想。傾斜字、藝術(shù)字盏求、變形字、模糊字亿眠、形似字碎罚、殘缺字、光影遮蔽纳像、多語言混合文本等應(yīng)用落地面臨的技術(shù)難題還沒被徹底解決荆烈。

青蛇: 文本檢測(cè)模型CTPN中為什么選用VGG16作基礎(chǔ)網(wǎng)絡(luò)?

白蛇:CTPN是2016年被推出的, 而VGG16是那年很流行的特征提取基礎(chǔ)網(wǎng)絡(luò)。如果今年實(shí)施文本檢測(cè), 可以試試Resnet竟趾、FCN憔购、Densenet等后起之秀作基礎(chǔ)網(wǎng)絡(luò),或許有驚喜岔帽。

摘要

本文介紹圖像文本識(shí)別(OCR)領(lǐng)域的最新技術(shù)進(jìn)展玫鸟。首先介紹應(yīng)用背景,包括面臨的技術(shù)挑戰(zhàn)山卦、典型應(yīng)用場(chǎng)景鞋邑、系統(tǒng)實(shí)施框架等。接著介紹搭建圖文識(shí)別模型過程中經(jīng)常被引用到的多種特征提取基礎(chǔ)網(wǎng)絡(luò)账蓉、物體檢測(cè)網(wǎng)絡(luò)框架枚碗,以及它們被應(yīng)用到圖文識(shí)別任務(wù)中所面臨的場(chǎng)景適配問題。然后介紹最近三年來出現(xiàn)的各種文本邊框檢測(cè)模型铸本、文字內(nèi)容識(shí)別模型肮雨、端到端圖文識(shí)別模型。最后介紹圖文識(shí)別領(lǐng)域的大型公開數(shù)據(jù)集箱玷。

應(yīng)用概述

OCR(Optical Character Recognition, 光學(xué)字符識(shí)別)傳統(tǒng)上指對(duì)輸入掃描文檔圖像進(jìn)行分析處理怨规,識(shí)別出圖像中文字信息陌宿。場(chǎng)景文字識(shí)別(Scene Text Recognition,STR) 指識(shí)別自然場(chǎng)景圖片中的文字信息波丰。自然場(chǎng)景圖像中的文字識(shí)別壳坪,其難度遠(yuǎn)大于掃描文檔圖像中的文字識(shí)別,因?yàn)樗奈淖终宫F(xiàn)形式極其豐富:

·允許多種語言文本混合掰烟,字符可以有不同的大小爽蝴、字體、顏色纫骑、亮度蝎亚、對(duì)比度等。

·文本行可能有橫向先馆、豎向发框、彎曲、旋轉(zhuǎn)煤墙、扭曲等式樣梅惯。

·圖像中的文字區(qū)域還可能會(huì)產(chǎn)生變形(透視、仿射變換)番捂、殘缺个唧、模糊等現(xiàn)象。

·自然場(chǎng)景圖像的背景極其多樣设预。如文字可以出現(xiàn)在平面徙歼、曲面或折皺面上;文字區(qū)域附近有復(fù)雜的干擾紋理鳖枕、或者非文字區(qū)域有近似文字的紋理魄梯,比如沙地、草叢宾符、柵欄酿秸、磚墻等。

(本圖摘自新浪微博《光學(xué)字符識(shí)別技術(shù):讓電腦像人一樣閱讀》)

也有人用OCR技術(shù)泛指所有圖像文字檢測(cè)和識(shí)別技術(shù)魏烫, 包括傳統(tǒng)OCR技術(shù)與場(chǎng)景文字識(shí)別技術(shù)辣苏。這是因?yàn)椋瑘?chǎng)景文字識(shí)別技術(shù)可以被看成是傳統(tǒng)OCR技術(shù)的自然演進(jìn)與升級(jí)換代哄褒。

圖像文字檢測(cè)和識(shí)別技術(shù)有著廣泛的應(yīng)用場(chǎng)景稀蟋。已經(jīng)被互聯(lián)網(wǎng)公司落地的相關(guān)應(yīng)用涉及了識(shí)別名片、識(shí)別菜單呐赡、識(shí)別快遞單退客、識(shí)別身份證、識(shí)別營業(yè)證、識(shí)別銀行卡萌狂、識(shí)別車牌档玻、識(shí)別路牌、識(shí)別商品包裝袋茫藏、識(shí)別會(huì)議白板误趴、識(shí)別廣告主干詞、識(shí)別試卷务傲、識(shí)別單據(jù)等等冤留。

已經(jīng)有不少服務(wù)商在提供圖像文字檢測(cè)和識(shí)別服務(wù),這些服務(wù)商既包括了騰訊树灶、百度、阿里糯而、微軟天通、亞馬遜、谷歌等大型云服務(wù)企業(yè)熄驼,也包括了一些活躍在物流像寒、教育、安防瓜贾、視頻直播诺祸、電子政務(wù)、電子商務(wù)祭芦、旅游導(dǎo)航等垂直細(xì)分行業(yè)的服務(wù)企業(yè)筷笨。這些企業(yè)既可以使用提前訓(xùn)練好的模型直接提供場(chǎng)景圖文識(shí)別、卡證識(shí)別龟劲、掃描文檔識(shí)別等云服務(wù)胃夏,也可以使用客戶提供的數(shù)據(jù)集訓(xùn)練定制化模型(如票據(jù)識(shí)別模型),以及提供定制化AI服務(wù)系統(tǒng)集成等昌跌。

如下圖所示仰禀,傳統(tǒng)技術(shù)解決方案中,是先分別訓(xùn)練文字檢測(cè)和文本識(shí)別兩個(gè)模型蚕愤,然后在服務(wù)實(shí)施階段將這兩個(gè)模型串聯(lián)到數(shù)據(jù)流水線中組成圖文識(shí)別系統(tǒng)答恶。

如下圖所示,最近流行的技術(shù)解決方案中萍诱,是用一個(gè)多目標(biāo)網(wǎng)絡(luò)直接訓(xùn)練出一個(gè)端到端的模型悬嗓。在訓(xùn)練階段,該模型的輸入是訓(xùn)練圖像及圖中文本坐標(biāo)砂沛、文本內(nèi)容烫扼,模型優(yōu)化目標(biāo)是輸出端邊框坐標(biāo)預(yù)測(cè)誤差與文本內(nèi)容預(yù)測(cè)誤差的加權(quán)和。在服務(wù)實(shí)施階段碍庵,原始圖片流過該模型直接輸出預(yù)測(cè)文本信息映企。相比于傳統(tǒng)方案悟狱,該方案中模型訓(xùn)練效率更高、服務(wù)運(yùn)營階段資源開銷更少堰氓。

文本檢測(cè)和識(shí)別技術(shù)處于一個(gè)學(xué)科交叉點(diǎn)挤渐,其技術(shù)演進(jìn)不斷受益于計(jì)算機(jī)視覺處理和自然語言處理兩個(gè)領(lǐng)域的技術(shù)進(jìn)步。它既需要使用視覺處理技術(shù)來提取圖像中文字區(qū)域的圖像特征向量双絮,又需要借助自然語言處理技術(shù)來解碼圖像特征向量為文字結(jié)果浴麻。

模型基礎(chǔ)

從公開論文中可以看到,起源于圖像分類囤攀、檢測(cè)软免、語義分割等視覺處理任務(wù)的各個(gè)基礎(chǔ)網(wǎng)絡(luò)(backbone network),紛紛被征用來提取圖像中文字區(qū)域的特征向量焚挠。同時(shí)膏萧,起源于物體檢測(cè)、語義分割任務(wù)的多個(gè)網(wǎng)絡(luò)框架蝌衔,也被改造后用于提升圖文識(shí)別任務(wù)中的準(zhǔn)確率和執(zhí)行速度榛泛。本章將簡單溫習(xí)一下這些基礎(chǔ)網(wǎng)絡(luò)、網(wǎng)絡(luò)框架的實(shí)現(xiàn)原理噩斟,并介紹圖文識(shí)別任務(wù)中應(yīng)用它們時(shí)所面臨的各種場(chǎng)景適配問題曹锨。

基礎(chǔ)網(wǎng)絡(luò)

圖文識(shí)別任務(wù)中充當(dāng)特征提取模塊的基礎(chǔ)網(wǎng)絡(luò),可以來源于通用場(chǎng)景的圖像分類模型。例如,VGGNet呕缭,ResNet、InceptionNet覆享、DenseNet、Inside-Outside Net营袜、Se-Net等撒顿。?

圖文識(shí)別任務(wù)中的基礎(chǔ)網(wǎng)絡(luò),也可以來源于特定場(chǎng)景的專用網(wǎng)絡(luò)模型荚板。例如凤壁,擅長提取圖像細(xì)節(jié)特征的FCN網(wǎng)絡(luò),擅長做圖形矯正的STN網(wǎng)絡(luò)跪另。

由于大家對(duì)通用網(wǎng)絡(luò)模型已經(jīng)很熟悉拧抖,所以本節(jié)只簡單介紹上述專用網(wǎng)絡(luò)模型。

FCN網(wǎng)絡(luò)

全卷積網(wǎng)絡(luò)(FCN,fully convolutional network)免绿, 是去除了全連接(fc)層的基礎(chǔ)網(wǎng)絡(luò)唧席,最初是用于實(shí)現(xiàn)語義分割任務(wù)。FCN的優(yōu)勢(shì)在于利用反卷積(deconvolution)、上池化(unpooling)等上采樣(upsampling)操作淌哟,將特征矩陣恢復(fù)到接近原圖尺寸迹卢,然后對(duì)每一個(gè)位置上的像素做類別預(yù)測(cè),從而能識(shí)別出更清晰的物體邊界徒仓「睿基于FCN的檢測(cè)網(wǎng)絡(luò),不再經(jīng)過候選區(qū)域回歸出物體邊框, 而是根據(jù)高分辨率的特征圖直接預(yù)測(cè)物體邊框掉弛。因?yàn)椴恍枰馞aster-RCNN那樣在訓(xùn)練前定義好候選框長寬比例症见,F(xiàn)CN在預(yù)測(cè)不規(guī)則物體邊界時(shí)更加魯棒。由于FCN網(wǎng)絡(luò)最后一層特征圖的像素分辨率較高殃饿,而圖文識(shí)別任務(wù)中需要依賴清晰的文字筆畫來區(qū)分不同字符(特別是漢字)谋作,所以FCN網(wǎng)絡(luò)很適合用來提取文本特征。當(dāng)FCN被用于圖文識(shí)別任務(wù)時(shí)乎芳,最后一層特征圖中每個(gè)像素將被分成文字行(前景)和非文字行(背景)兩個(gè)類別瓷们。

(選自arXiv:1411.4038,’ Fully Convolutional Networks for Semantic Segmentation’)

STN網(wǎng)絡(luò)

空間變換網(wǎng)絡(luò)(STN秒咐,Spatial Transformer Networks)的作用是對(duì)輸入特征圖進(jìn)行空間位置矯正得到輸出特征圖,這個(gè)矯正過程是可以進(jìn)行梯度傳導(dǎo)的碘裕,從而能夠支持端到端的模型訓(xùn)練携取。

如下圖所示,STN網(wǎng)絡(luò)由定位網(wǎng)絡(luò)(Localization Network)?帮孔,網(wǎng)格生成器(Grid generator)雷滋,采樣器(Sampler)共3個(gè)部分組成。定位網(wǎng)絡(luò)根據(jù)原始特征圖U計(jì)算出一套控制參數(shù)文兢,網(wǎng)格生成器這套控制參數(shù)產(chǎn)生采樣網(wǎng)格(sampling grid)晤斩,采樣器根據(jù)采樣網(wǎng)格核函數(shù)將原始圖U中像素對(duì)應(yīng)采樣到目標(biāo)圖V中。

空間變換的控制參數(shù)是根據(jù)原始特征圖U動(dòng)態(tài)生成的姆坚,生成空間變換控制參數(shù)的元參數(shù)則是在模型訓(xùn)練階段學(xué)習(xí)到的澳泵、并且存放于定位網(wǎng)絡(luò)的權(quán)重(weights)矩陣中。

(選自arXiv: 1506.02025’Spatial Transformer Networks’)

檢測(cè)網(wǎng)絡(luò)框架

Faster RCNN作為一個(gè)檢測(cè)網(wǎng)絡(luò)框架兼呵,其目標(biāo)是尋找緊湊包圍被檢測(cè)對(duì)象的邊框(BBOX兔辅,Bounding Box)。如下圖所示击喂,它在Fast RCNN檢測(cè)框架基礎(chǔ)上引入?yún)^(qū)域建議網(wǎng)絡(luò)(RPN维苔,Region Proposal Network),來快速產(chǎn)生與目標(biāo)物體長寬比例接近的多個(gè)候選區(qū)域參考框(anchor)懂昂;它通過ROI(Region of Interest) Pooling層為多種尺寸參考框產(chǎn)生出歸一化固定尺寸的區(qū)域特征介时;它利用共享的CNN卷積網(wǎng)絡(luò)同時(shí)向上述RPN網(wǎng)絡(luò)和ROI Pooling層輸入特征映射(Feature Maps),從而減少卷積層參數(shù)量和計(jì)算量。訓(xùn)練過程中使用到了多目標(biāo)損失函數(shù)沸柔,包括RPN網(wǎng)絡(luò)循衰、ROI Pooling層的邊框分類loss和坐標(biāo)回歸loss。通過這些loss的梯度反向傳播勉失,能夠調(diào)節(jié)候選框的坐標(biāo)羹蚣、并增大它與標(biāo)注對(duì)象邊框的重疊度/交并比(IOU,Intersection over Union)乱凿。RPN網(wǎng)格生成的候選框初始值有固定位置以及長寬比例顽素。如果候選框初始長寬比例設(shè)置得與圖像中物體形狀差別很大,就很難通過回歸找到一個(gè)緊湊包圍它的邊框徒蟆。

(摘自arXiv:1506.01497胁出,’Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks’)

SSD(Single Shot MultiBox Detector),是2016年提出的一種全卷積目標(biāo)檢測(cè)算法段审,截止到目前仍是主要的目標(biāo)檢測(cè)框架之一全蝶,相比Faster RCNN有著明顯的速度優(yōu)勢(shì)。如下圖所示寺枉,SSD是一種one stage算法抑淫,直接預(yù)測(cè)被檢測(cè)對(duì)象的邊框和得分。檢測(cè)過程中姥闪,SSD算法利用多尺度思想進(jìn)行檢測(cè)始苇,在不同尺度的特征圖(feature maps)上產(chǎn)生與目標(biāo)物體長寬比例接近的多個(gè)默認(rèn)框(Default boxes),進(jìn)行回歸與分類筐喳。最后利用非極大值抑制(Non-maximum suppression)得到最終的檢測(cè)結(jié)果催式。訓(xùn)練過程中,SSD采用Hard negative mining策略進(jìn)行訓(xùn)練避归,使正負(fù)樣本比例保持為1:3荣月,同時(shí)使用多種數(shù)據(jù)增廣(Data augmentation)方式進(jìn)行訓(xùn)練,提高模型性能梳毙。

(摘自arxiv: 1512.02325哺窄,? “SSD: Single Shot MultiBox Detector”)

文本檢測(cè)模型

文本檢測(cè)模型的目標(biāo)是從圖片中盡可能準(zhǔn)確地找出文字所在區(qū)域。

但是账锹,視覺領(lǐng)域常規(guī)物體檢測(cè)方法(SSD, YOLO, Faster-RCNN等)直接套用于文字檢測(cè)任務(wù)效果并不理想堂氯, 主要原因如下:

·相比于常規(guī)物體,文字行長度牌废、長寬比例變化范圍很大咽白。

·文本行是有方向性的。常規(guī)物體邊框BBox的四元組描述方式信息量不充足鸟缕。

·自然場(chǎng)景中某些物體局部圖像與字母形狀相似晶框,如果不參考圖像全局信息將有誤報(bào)排抬。

·有些藝術(shù)字體使用了彎曲的文本行,而手寫字體變化模式也很多授段。

·由于豐富的背景圖像干擾蹲蒲,手工設(shè)計(jì)特征在自然場(chǎng)景文本識(shí)別任務(wù)中不夠魯棒。

針對(duì)上述問題根因侵贵,近年來出現(xiàn)了各種基于深度學(xué)習(xí)的技術(shù)解決方案届搁。它們從特征提取、區(qū)域建議網(wǎng)絡(luò)(RPN)窍育、多目標(biāo)協(xié)同訓(xùn)練卡睦、Loss改進(jìn)、非極大值抑制(NMS)漱抓、半監(jiān)督學(xué)習(xí)等角度對(duì)常規(guī)物體檢測(cè)方法進(jìn)行改造表锻,極大提升了自然場(chǎng)景圖像中文本檢測(cè)的準(zhǔn)確率。例如:

·CTPN方案中乞娄,用BLSTM模塊提取字符所在圖像上下文特征瞬逊,以提高文本塊識(shí)別精度。

·RRPN等方案中仪或,文本框標(biāo)注采用BBOX +方向角度值的形式确镊,模型中產(chǎn)生出可旋轉(zhuǎn)的文字區(qū)域候選框,并在邊框回歸計(jì)算過程中找到待測(cè)文本行的傾斜角度范删。

·DMPNet等方案中蕾域,使用四邊形(非矩形)標(biāo)注文本框,來更緊湊的包圍文本區(qū)域瓶逃。

·SegLink? 將單詞切割為更易檢測(cè)的小文字塊,再預(yù)測(cè)鄰近連接將小文字塊連成詞廓块。

·TextBoxes等方案中厢绝,調(diào)整了文字區(qū)域參考框的長寬比例,并將特征層卷積核調(diào)整為長方形带猴,從而更適合檢測(cè)出細(xì)長型的文本行昔汉。

·FTSN方案中,作者使用Mask-NMS代替?zhèn)鹘y(tǒng)BBOX的NMS算法來過濾候選框拴清。

·WordSup方案中靶病,采用半監(jiān)督學(xué)習(xí)策略,用單詞級(jí)標(biāo)注數(shù)據(jù)來訓(xùn)練字符級(jí)文本檢測(cè)模型口予。

下面用近年來出現(xiàn)的多個(gè)模型案例娄周,介紹如何應(yīng)用上述各方法提升圖像文本檢測(cè)的效果。

CTPN模型?

CTPN是目前流傳最廣沪停、影響最大的開源文本檢測(cè)模型煤辨,可以檢測(cè)水平或微斜的文本行裳涛。文本行可以被看成一個(gè)字符sequence,而不是一般物體檢測(cè)中單個(gè)獨(dú)立的目標(biāo)众辨。同一文本行上各個(gè)字符圖像間可以互為上下文端三,在訓(xùn)練階段讓檢測(cè)模型學(xué)習(xí)圖像中蘊(yùn)含的這種上下文統(tǒng)計(jì)規(guī)律,可以使得預(yù)測(cè)階段有效提升文本塊預(yù)測(cè)準(zhǔn)確率鹃彻。CTPN模型的圖像預(yù)測(cè)流程中郊闯,前端使用當(dāng)時(shí)流行的VGG16做基礎(chǔ)網(wǎng)絡(luò)來提取各字符的局部圖像特征,中間使用BLSTM層提取字符序列上下文特征蛛株,然后通過FC全連接層团赁,末端經(jīng)過預(yù)測(cè)分支輸出各個(gè)文字塊的坐標(biāo)值和分類結(jié)果概率值。在數(shù)據(jù)后處理階段泳挥,將合并相鄰的小文字塊為文本行然痊。

(選自arXiv: 1609.03605,’Detecting Text in Natural Image with Connectionist Text Proposal Network’)

RRPN模型

基于旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)(RRPN, Rotation Region Proposal Networks)的方案屉符,將旋轉(zhuǎn)因素并入經(jīng)典區(qū)域候選網(wǎng)絡(luò)(如Faster RCNN)剧浸。這種方案中,一個(gè)文本區(qū)域的ground truth被表示為具有5元組(x,y,h,w,θ)的旋轉(zhuǎn)邊框, 坐標(biāo)(x,y)表示邊框的幾何中心, 高度h設(shè)定為邊框的短邊矗钟,寬度w為長邊唆香,方向是長邊的方向。訓(xùn)練時(shí)吨艇,首先生成含有文本方向角的傾斜候選框躬它,然后在邊框回歸過程中學(xué)習(xí)文本方向角。

(選自arXiv: 1703.01086东涡,’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’)

RRPN中方案中提出了旋轉(zhuǎn)感興趣區(qū)域(RRoI冯吓,Rotation Region-of-Interest)池化層,將任意方向的區(qū)域建議先劃分成子區(qū)域疮跑,然后對(duì)這些子區(qū)域分別做max pooling组贺、并將結(jié)果投影到具有固定空間尺寸小特征圖上。

(選自arXiv: 1703.01086祖娘,’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’)

FTSN模型

FTSN(Fused Text Segmentation Networks)模型使用分割網(wǎng)絡(luò)支持傾斜文本檢測(cè)失尖。它使用Resnet-101做基礎(chǔ)網(wǎng)絡(luò),使用了多尺度融合的特征圖渐苏。標(biāo)注數(shù)據(jù)包括文本實(shí)例的像素掩碼和邊框掀潮,使用像素預(yù)測(cè)與邊框檢測(cè)多目標(biāo)聯(lián)合訓(xùn)練。

(選自arXiv: 1709.03272琼富,’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’)

基于文本實(shí)例間像素級(jí)重合度的Mask-NMS仪吧, 替代了傳統(tǒng)基于水平邊框間重合度的NMS算法。下圖左邊子圖是傳統(tǒng)NMS算法執(zhí)行結(jié)果鞠眉,中間白色邊框被錯(cuò)誤地抑制掉了邑商。下圖右邊子圖是Mask-NMS算法執(zhí)行結(jié)果摄咆, 三個(gè)邊框都被成功保留下來。

(選自arXiv: 1709.03272人断,’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’)

DMPNet模型

DMPNet(Deep Matching Prior Network)中吭从,使用四邊形(非矩形)來更緊湊地標(biāo)注文本區(qū)域邊界,其訓(xùn)練出的模型對(duì)傾斜文本塊檢測(cè)效果更好恶迈。

如下圖所示涩金,它使用滑動(dòng)窗口在特征圖上獲取文本區(qū)域候選框,候選框既有正方形的暇仲、也有傾斜四邊形的步做。接著,使用基于像素點(diǎn)采樣的Monte-Carlo方法奈附,來快速計(jì)算四邊形候選框與標(biāo)注框間的面積重合度全度。然后,計(jì)算四個(gè)頂點(diǎn)坐標(biāo)到四邊形中心點(diǎn)的距離斥滤,將它們與標(biāo)注值相比計(jì)算出目標(biāo)loss将鸵。文章中推薦用Ln loss來取代L1、L2 loss佑颇,從而對(duì)大小文本框都有較快的訓(xùn)練回歸(regress)速度顶掉。

(選自arXiv:1703.01425,’Deep?Matching?Prior?Network: Toward Tighter Multi-oriented Text Detection’)

EAST模型

EAST(Efficient and Accuracy Scene Text detection pipeline)模型中挑胸,首先使用全卷積網(wǎng)絡(luò)(FCN)生成多尺度融合的特征圖痒筒,然后在此基礎(chǔ)上直接進(jìn)行像素級(jí)的文本塊預(yù)測(cè)。該模型中茬贵,支持旋轉(zhuǎn)矩形框簿透、任意四邊形兩種文本區(qū)域標(biāo)注形式。對(duì)應(yīng)于四邊形標(biāo)注解藻,模型執(zhí)行時(shí)會(huì)對(duì)特征圖中每個(gè)像素預(yù)測(cè)其到四個(gè)頂點(diǎn)的坐標(biāo)差值老充。對(duì)應(yīng)于旋轉(zhuǎn)矩形框標(biāo)注,模型執(zhí)行時(shí)會(huì)對(duì)特征圖中每個(gè)像素預(yù)測(cè)其到矩形框四邊的距離舆逃、以及矩形框的方向角蚂维。

根據(jù)開源工程中預(yù)訓(xùn)練模型的測(cè)試戳粒,該模型檢測(cè)英文單詞效果較好路狮、檢測(cè)中文長文本行效果欠佳∥翟迹或許奄妨,根據(jù)中文數(shù)據(jù)特點(diǎn)進(jìn)行針對(duì)性訓(xùn)練后,檢測(cè)效果還有提升空間苹祟。

上述過程中砸抛,省略了其他模型中常見的區(qū)域建議评雌、單詞分割、子塊合并等步驟直焙,因此該模型的執(zhí)行速度很快景东。

(選自arXiv: 1704.03155,’EAST: An Efficient and Accurate Scene Text Detector’)

?SegLink模型

SegLink模型的標(biāo)注數(shù)據(jù)中奔誓,先將每個(gè)單詞切割為更易檢測(cè)的有方向的小文字塊(segment)斤吐,然后用鄰近連接(link?)將各個(gè)小文字塊連接成單詞。這種方案方便于識(shí)別長度變化范圍很大的厨喂、帶方向的單詞和文本行和措,它不會(huì)象Faster-RCNN等方案因?yàn)楹蜻x框長寬比例原因檢測(cè)不出長文本行。相比于CTPN等文本檢測(cè)模型蜕煌,SegLink的圖片處理速度快很多派阱。

(選自arXiv: 1703.06520,’Detecting Oriented Text in Natural Images by Linking Segments’)

如下圖所示斜纪,該模型能夠同時(shí)從6種尺度的特征圖中檢測(cè)小文字塊贫母。同一層特征圖、或者相鄰層特征圖上的小文字塊都有可能被連接入同一個(gè)單詞中傀广。換句話說颁独,位置鄰近、并且尺寸接近的文字塊都有可能被預(yù)測(cè)到同一單詞中伪冰。

(選自arXiv: 1703.06520誓酒,’Detecting Oriented Text in Natural Images by Linking Segments’)

PixelLink模型

自然場(chǎng)景圖像中一組文字塊經(jīng)常緊挨在一起,通過語義分割方法很難將它們識(shí)別開來贮聂,所以PixelLink模型嘗試用實(shí)例分割方法解決這個(gè)問題靠柑。

該模型的特征提取部分,為VGG16基礎(chǔ)上構(gòu)建的FCN網(wǎng)絡(luò)吓懈。模型執(zhí)行流程如下圖所示歼冰。首先,借助于CNN 模塊執(zhí)行兩個(gè)像素級(jí)預(yù)測(cè):一個(gè)文本二分類預(yù)測(cè)耻警,一個(gè)鏈接二分類預(yù)測(cè)隔嫡。接著,用正鏈接去連接鄰居正文本像素甘穿,得到文字塊實(shí)例分割結(jié)果腮恩。然后,由分割結(jié)果直接就獲得文字塊邊框温兼, 而且允許生成傾斜邊框秸滴。

上述過程中,省掉了其他模型中常見的邊框回歸步驟募判,因此訓(xùn)練收斂速度更快些荡含。訓(xùn)練階段咒唆,使用了平衡策略,使得每個(gè)文字塊在總LOSS中的權(quán)值相同释液。訓(xùn)練過程中全释,通過預(yù)處理增加了各種方向角度的文字塊實(shí)例。

(選自arXiv: 1801.01315误债,’Detecting Scene Text via Instance Segmentation’)

Textboxes/Textboxes++模型

Textboxes是基于SSD框架的圖文檢測(cè)模型恨溜,訓(xùn)練方式是端到端的,運(yùn)行速度也較快找前。如下圖所示糟袁,為了適應(yīng)文字行細(xì)長型的特點(diǎn),候選框的長寬比增加了1,2,3,5,7,10這樣初始值躺盛。為了適應(yīng)文本行細(xì)長型特點(diǎn)项戴,特征層也用長條形卷積核代替了其他模型中常見的正方形卷積核。為了防止漏檢文本行槽惫,還在垂直方向增加了候選框數(shù)量周叮。為了檢測(cè)大小不同的字符塊,在多個(gè)尺度的特征圖上并行預(yù)測(cè)文本框界斜, 然后對(duì)預(yù)測(cè)結(jié)果做NMS過濾仿耽。

(選自arXiv: 1611.06779,’TextBoxes: A Fast Text Detector with a Single Deep Neural Network’)

Textboxes++是Textboxes的升級(jí)版本各薇,目的是增加對(duì)傾斜文本的支持项贺。為此,將標(biāo)注數(shù)據(jù)改為了旋轉(zhuǎn)矩形框和不規(guī)則四邊形的格式峭判;對(duì)候選框的長寬比例开缎、特征圖層卷積核的形狀都作了相應(yīng)調(diào)整。

(選自arXiv: 1801.02765林螃,’TextBoxes++: A Single-Shot Oriented Scene Text Detector’)

WordSup模型

如下圖所示奕删,在數(shù)學(xué)公式圖文識(shí)別、不規(guī)則形變文本行識(shí)別等應(yīng)用中疗认,字符級(jí)檢測(cè)模型是一個(gè)關(guān)鍵基礎(chǔ)模塊完残。由于字符級(jí)自然場(chǎng)景圖文標(biāo)注成本很高、相關(guān)公開數(shù)據(jù)集稀少横漏,導(dǎo)致現(xiàn)在多數(shù)圖文檢測(cè)模型只能在文本行谨设、單詞級(jí)標(biāo)注數(shù)據(jù)上做訓(xùn)練。WordSup提出了一種弱監(jiān)督的訓(xùn)練框架绊茧, 可以文本行铝宵、單詞級(jí)標(biāo)注數(shù)據(jù)集上訓(xùn)練出字符級(jí)檢測(cè)模型打掘。

如下圖所示华畏,WordSup弱監(jiān)督訓(xùn)練框架中鹏秋,兩個(gè)訓(xùn)練步驟被交替執(zhí)行:給定當(dāng)前字符檢測(cè)模型,并結(jié)合單詞級(jí)標(biāo)注數(shù)據(jù)亡笑,計(jì)算出字符中心點(diǎn)掩碼圖侣夷; 給定字符中心點(diǎn)掩碼圖,有監(jiān)督地訓(xùn)練字符級(jí)檢測(cè)模型.

如下圖仑乌,訓(xùn)練好字符檢測(cè)器后百拓,可以在數(shù)據(jù)流水線中加入合適的文本結(jié)構(gòu)分析模塊,以輸出符合應(yīng)用場(chǎng)景格式要求的文本內(nèi)容晰甚。該文作者例舉了多種文本結(jié)構(gòu)分析模塊的實(shí)現(xiàn)方法衙传。

(選自arXiv: 1708.06720,’WordSup: Exploiting Word Annotations for Character based Text Detection’)

文本識(shí)別模型

文本識(shí)別模型的目標(biāo)是從已分割出的文字區(qū)域中識(shí)別出文本內(nèi)容厕九。

CRNN模型

CRNN(Convolutional Recurrent Neural Network)是目前較為流行的圖文識(shí)別模型蓖捶,可識(shí)別較長的文本序列。它包含CNN特征提取層和BLSTM序列特征提取層扁远,能夠進(jìn)行端到端的聯(lián)合訓(xùn)練俊鱼。 它利用BLSTM和CTC部件學(xué)習(xí)字符圖像中的上下文關(guān)系, 從而有效提升文本識(shí)別準(zhǔn)確率畅买,使得模型更加魯棒并闲。預(yù)測(cè)過程中,前端使用標(biāo)準(zhǔn)的CNN網(wǎng)絡(luò)提取文本圖像的特征谷羞,利用BLSTM將特征向量進(jìn)行融合以提取字符序列的上下文特征帝火,然后得到每列特征的概率分布,最后通過轉(zhuǎn)錄層(CTC rule)進(jìn)行預(yù)測(cè)得到文本序列湃缎。

(選自arXiv: 1507.05717购公,’An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition’)

RARE模型

RARE(Robust text recognizer with Automatic Rectification)模型在識(shí)別變形的圖像文本時(shí)效果很好。如下圖所示雁歌,模型預(yù)測(cè)過程中宏浩,輸入圖像首先要被送到一個(gè)空間變換網(wǎng)絡(luò)中做處理,矯正過的圖像然后被送入序列識(shí)別網(wǎng)絡(luò)中得到文本預(yù)測(cè)結(jié)果靠瞎。

如下圖所示比庄,空間變換網(wǎng)絡(luò)內(nèi)部包含定位網(wǎng)絡(luò)、網(wǎng)格生成器乏盐、采樣器三個(gè)部件佳窑。經(jīng)過訓(xùn)練后,它可以根據(jù)輸入圖像的特征圖動(dòng)態(tài)地產(chǎn)生空間變換網(wǎng)格父能,然后采樣器根據(jù)變換網(wǎng)格核函數(shù)從原始圖像中采樣獲得一個(gè)矩形的文本圖像神凑。RARE中支持一種稱為TPS(thin-plate splines)的空間變換,從而能夠比較準(zhǔn)確地識(shí)別透視變換過的文本、以及彎曲的文本.?

(選自arXiv: 1603.03915溉委,’Robust?Scene?Text?Recognition?with?Automatic?Rectification’)

端到端模型

端到端模型的目標(biāo)是一站式直接從圖片中定位和識(shí)別出所有文本內(nèi)容來鹃唯。

FOTS Rotation-Sensitive Regression

FOTS(Fast Oriented Text Spotting)是圖像文本檢測(cè)與識(shí)別同步訓(xùn)練、端到端可學(xué)習(xí)的網(wǎng)絡(luò)模型瓣喊。檢測(cè)和識(shí)別任務(wù)共享卷積特征層坡慌,既節(jié)省了計(jì)算時(shí)間,也比兩階段訓(xùn)練方式學(xué)習(xí)到更多圖像特征藻三。引入了旋轉(zhuǎn)感興趣區(qū)域(RoIRotate), 可以從卷積特征圖中產(chǎn)生出定向的文本區(qū)域洪橘,從而支持傾斜文本的識(shí)別.?

(選自arXiv: 1801.01671,’FOTS: Fast Oriented Text Spotting with a Unified Network’)

STN-OCR模型

STN-OCR是集成了了圖文檢測(cè)和識(shí)別功能的端到端可學(xué)習(xí)模型棵帽。在它的檢測(cè)部分嵌入了一個(gè)空間變換網(wǎng)絡(luò)(STN)來對(duì)原始輸入圖像進(jìn)行仿射(affine)變換熄求。利用這個(gè)空間變換網(wǎng)絡(luò),可以對(duì)檢測(cè)到的多個(gè)文本塊分別執(zhí)行旋轉(zhuǎn)逗概、縮放和傾斜等圖形矯正動(dòng)作抡四,從而在后續(xù)文本識(shí)別階段得到更好的識(shí)別精度。在訓(xùn)練上STN-OCR屬于半監(jiān)督學(xué)習(xí)方法仗谆,只需要提供文本內(nèi)容標(biāo)注指巡,而不要求文本定位信息。作者也提到隶垮,如果從頭開始訓(xùn)練則網(wǎng)絡(luò)收斂速度較慢藻雪,因此建議漸進(jìn)地增加訓(xùn)練難度。STN-OCR已經(jīng)開放了工程源代碼和預(yù)訓(xùn)練模型狸吞。

(選自arXiv: 1707.08831勉耀,’STN-OCR: A single Neural Network for Text Detection and Text Recognition’)

訓(xùn)練數(shù)據(jù)集

本章將列舉可用于文本檢測(cè)和識(shí)別領(lǐng)域模型訓(xùn)練的一些大型公開數(shù)據(jù)集, 不涉及僅用于模型fine-tune任務(wù)的小型數(shù)據(jù)集蹋偏。

Chinese Text in the Wild(CTW)

該數(shù)據(jù)集包含32285張圖像便斥,1018402個(gè)中文字符(來自于騰訊街景), 包含平面文本,凸起文本威始,城市文本枢纠,農(nóng)村文本,低亮度文本黎棠,遠(yuǎn)處文本晋渺,部分遮擋文本。圖像大小2048*2048脓斩,數(shù)據(jù)集大小為31GB木西。以(8:1:1)的比例將數(shù)據(jù)集分為訓(xùn)練集(25887張圖像,812872個(gè)漢字)随静,測(cè)試集(3269張圖像八千,103519個(gè)漢字),驗(yàn)證集(3129張圖像,103519個(gè)漢字)恋捆。

文獻(xiàn)鏈接:https://arxiv.org/pdf/1803.00085.pdf?

數(shù)據(jù)集下載地址:https://ctwdataset.github.io/

Reading Chinese Text in the Wild(RCTW-17)

該數(shù)據(jù)集包含12263張圖像照皆,訓(xùn)練集8034張,測(cè)試集4229張鸠信,共11.4GB。大部分圖像由手機(jī)相機(jī)拍攝论寨,含有少量的屏幕截圖星立,圖像中包含中文文本與少量英文文本。圖像分辨率大小不等葬凳。

下載地址http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html

文獻(xiàn):http://arxiv.org/pdf/1708.09585v2

ICPR MWI 2018 挑戰(zhàn)賽

大賽提供20000張圖像作為數(shù)據(jù)集绰垂,其中50%作為訓(xùn)練集,50%作為測(cè)試集火焰。主要由合成圖像劲装,產(chǎn)品描述,網(wǎng)絡(luò)廣告構(gòu)成昌简。該數(shù)據(jù)集數(shù)據(jù)量充分占业,中英文混合,涵蓋數(shù)十種字體纯赎,字體大小不一谦疾,多種版式,背景復(fù)雜犬金。文件大小為2GB念恍。

下載地址:

https://tianchi.aliyun.com/competition/information.htm?raceId=231651&_is_login_redirect=true&accounttraceid=595a06c3-7530-4b8a-ad3d-40165e22dbfe???

Total-Text

該數(shù)據(jù)集共1555張圖像,11459文本行乐尊,包含水平文本巢音,傾斜文本缓醋,彎曲文本。文件大小441MB瞳氓。大部分為英文文本,少量中文文本栓袖。訓(xùn)練集:1255張? 測(cè)試集:300

下載地址:http://www.cs-chan.com/source/ICDAR2017/totaltext.zip

文獻(xiàn):http:// arxiv.org/pdf/1710.10400v

Google FSNS(谷歌街景文本數(shù)據(jù)集)

該數(shù)據(jù)集是從谷歌法國街景圖片上獲得的一百多萬張街道名字標(biāo)志顿膨,每一張包含同一街道標(biāo)志牌的不同視角,圖像大小為600*150叽赊,訓(xùn)練集1044868張恋沃,驗(yàn)證集16150張,測(cè)試集20404張必指。

下載地址:http://rrc.cvc.uab.es/?ch=6&com=downloads

文獻(xiàn):http:// arxiv.org/pdf/1702.03970v1

COCO-TEXT

該數(shù)據(jù)集囊咏,包括63686幅圖像,173589個(gè)文本實(shí)例,包括手寫版和打印版梅割,清晰版和非清晰版霜第。文件大小12.58GB,訓(xùn)練集:43686張户辞,測(cè)試集:10000張泌类,驗(yàn)證集:10000張

文獻(xiàn): http://arxiv.org/pdf/1601.07140v2

下載地址:https://vision.cornell.edu/se3/coco-text-2/

Synthetic Data for Text Localisation

在復(fù)雜背景下人工合成的自然場(chǎng)景文本數(shù)據(jù)。包含858750張圖像底燎,共7266866個(gè)單詞實(shí)例刃榨,28971487個(gè)字符,文件大小為41GB双仍。該合成算法枢希,不需要人工標(biāo)注就可知道文字的label信息和位置信息,可得到大量自然場(chǎng)景文本標(biāo)注數(shù)據(jù)朱沃。

下載地址:http://www.robots.ox.ac.uk/~vgg/data/scenetext/

文獻(xiàn):http://www.robots.ox.ac.uk/~ankush/textloc.pdf

Code: https://github.com/ankush-me/SynthText (英文版)

Code: https://github.com/wang-tf/Chinese_OCR_synthetic_data(中文版)

Synthetic Word Dataset

合成文本識(shí)別數(shù)據(jù)集苞轿,包含9百萬張圖像,涵蓋了9萬個(gè)英語單詞逗物。文件大小為10GB

下載地址:http://www.robots.ox.ac.uk/~vgg/data/text/

Caffe-ocr中文合成數(shù)據(jù)

數(shù)據(jù)利用中文語料庫搬卒,通過字體、大小翎卓、灰度秀睛、模糊、透視莲祸、拉伸等變化隨機(jī)生成蹂安,共360萬張圖片,圖像分辨率為280x32锐帜,涵蓋了漢字田盈、標(biāo)點(diǎn)、英文缴阎、數(shù)字共5990個(gè)字符允瞧。文件大小約為8.6GB

下載地址:https://pan.baidu.com/s/1dFda6R3

參考文獻(xiàn)

1. “光學(xué)字符識(shí)別技術(shù):讓電腦像人一樣閱讀”, 新浪微博, 霍強(qiáng)

http://tech.sina.com.cn/d/i/2015-04-03/doc-icczmvun8339303.shtml

2.“Fully Convolutional Networks for Semantic Segmentation”, arXiv:1411.4038,Jonathan Long, Evan Shelhamer, Trevor Darrell

https://arxiv.org/pdf/1411.4038

3.“Spatial Transformer Networks”蛮拔,arXiv:1506.02025述暂,Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu

https://arxiv.org/pdf/1506.02025

4.“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”,arXiv:1506.01497建炫,Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

https://arxiv.org/pdf/1506.01497

5.“SSD: Single Shot MultiBox Detector”畦韭,arxiv:1512.02325,Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg?

https://arxiv.org/pdf/1512.02325

6.“Detecting Text in Natural Image with Connectionist Text Proposal Network”肛跌,arXiv:1609.03605艺配,Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao

https://arxiv.org/pdf/1609.03605

7.“Arbitrary-Oriented Scene Text Detection via Rotation Proposals”察郁,arXiv:1703.01086,Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, Xiangyang Xue

https://arxiv.org/pdf/1703.01086

8.“Fused Text Segmentation Networks for Multi-oriented Scene Text Detection”转唉,arXiv:1709.03272皮钠,Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, Weidong Qiu

https://arxiv.org/pdf/1709.03272

9.“Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection”,arXiv:1703.01425赠法,Yuliang Liu, Lianwen Jin

https://arxiv.org/pdf/1703.01425

10.“EAST: An Efficient and Accurate Scene Text Detector”麦轰,arXiv:1704.03155,Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang

https://arxiv.org/pdf/1704.03155

11.“Detecting Oriented Text in Natural Images by Linking Segments”砖织,arXiv:1703.06520款侵,Baoguang Shi, Xiang Bai, Serge Belongie

https://arxiv.org/pdf/1703.06520

12.“Detecting Scene Text via Instance Segmentation”,arXiv:1801.01315镶苞,Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai

https://arxiv.org/pdf/1801.01315

13.“TextBoxes: A Fast Text Detector with a Single Deep Neural Network”喳坠,arXiv:1611.06779鞠评,Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu

https://arxiv.org/pdf/1611.06779

14.“TextBoxes++: A Single-Shot Oriented Scene Text Detector”茂蚓,arXiv:1801.02765,Minghui Liao, Baoguang Shi, Xiang Bai

https://arxiv.org/pdf/1801.02765

15.“WordSup: Exploiting Word Annotations for Character based Text Detection”剃幌,arXiv:1708.06720聋涨,Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, Errui Ding

https://arxiv.org/pdf/1708.06720

16.“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”,arXiv:1507.05717负乡,Baoguang Shi, Xiang Bai, Cong Yao

https://arxiv.org/pdf/1507.05717

17. “Robust Scene Text Recognition with Automatic Rectification”牍白,arXiv:1603.03915,Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai

https://arxiv.org/pdf/1603.03915

18.“FOTS: Fast Oriented Text Spotting with a Unified Network”抖棘,arXiv:1801.01671茂腥,Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan

https://arxiv.org/pdf/1801.01671

19.“STN-OCR: A single Neural Network for Text Detection and Text Recognition”,arXiv:1707.08831切省,Christian Bartz, Haojin Yang, Christoph Meinel

https://arxiv.org/pdf/1707.08831

20.“Chinese Text in the Wild”最岗,arXiv:1803.00085,Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, Shi-Min Hu

https://arxiv.org/pdf/1803.00085.pdf

21.“ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)”朝捆,arXiv:1708.09585般渡,Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, Xiang Bai

http://arxiv.org/pdf/1708.09585

22.“Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition”,arXiv:1710.10400芙盘,Chee Kheng Chng, Chee Seng Chan

https://arxiv.org/pdf/1710.10400

23.“End-to-End Interpretation of the French Street Name Signs Dataset”驯用,arXiv:1702.03970,Raymond Smith, Chunhui Gu, Dar-Shyang Lee, Huiyi Hu, Ranjith Unnikrishnan, Julian Ibarz, Sacha Arnoud, Sophia Lin

https://arxiv.org/pdf/1702.03970

24.“COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images”儒老,arXiv:1601.07140蝴乔,Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie

http://arxiv.org/pdf/1601.07140

25.“Synthetic Data for Text Localisation in Natural Images”,arXiv:1604.06646驮樊, Ankush Gupta淘这, Andrea Vedaldi剥扣, Andrew Zisserman

https://arxiv.org/pdf/1604.06646

推薦文章

[1]機(jī)器學(xué)習(xí)-波瀾壯闊40年SIGAI 2018.4.13.

[2]學(xué)好機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)知識(shí)?SIGAI 2018.4.17.

[3]人臉識(shí)別算法演化史SIGAI 2018.4.20.

[4]基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述SIGAI 2018.4.24.

[5]卷積神經(jīng)網(wǎng)絡(luò)為什么能夠稱霸計(jì)算機(jī)視覺領(lǐng)域铝穷?SIGAI 2018.4.26.

[6]用一張圖理解SVM的脈絡(luò)?SIGAI 2018.4.28.

[7]人臉檢測(cè)算法綜述SIGAI 2018.5.3.

[8]理解神經(jīng)網(wǎng)絡(luò)的激活函數(shù)SIGAI 2018.5.5.

[9]深度卷積神經(jīng)網(wǎng)絡(luò)演化歷史及結(jié)構(gòu)改進(jìn)脈絡(luò)-40頁長文全面解讀SIGAI 2018.5.8.

[10]理解梯度下降法SIGAI 2018.5.11.

[11]循環(huán)神經(jīng)網(wǎng)絡(luò)綜述—語音識(shí)別與自然語言處理的利器SIGAI 2018.5.15

[12]理解凸優(yōu)化SIGAI 2018.5.18

[13]【實(shí)驗(yàn)】理解SVM的核函數(shù)和參數(shù)SIGAI 2018.5.22

[14]?【SIGAI綜述】行人檢測(cè)算法SIGAI 2018.5.25

[15]機(jī)器學(xué)習(xí)在自動(dòng)駕駛中的應(yīng)用—以百度阿波羅平臺(tái)為例(上) SIGAI 2018.5.29

[16]理解牛頓法SIGAI 2018.5.31

[17]【群話題精華】5月集錦—機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中一些值得思考的問題?SIGAI 2018.6.1

[18]大話Adaboost算法SIGAI 2018.6.2

[?19]FlowNet到FlowNet2.0:基于卷積神經(jīng)網(wǎng)絡(luò)的光流預(yù)測(cè)算法SIGAI 2018.6.4

[20]理解主成分分析(PCA)SIGAI 2018.6.6

[21]人體骨骼關(guān)鍵點(diǎn)檢測(cè)綜述SIGAI 2018.6.8

[22]理解決策樹SIGAI 2018.6.11

[23]用一句話總結(jié)常用的機(jī)器學(xué)習(xí)算法SIGAI 2018.6.13

[24]目標(biāo)檢測(cè)算法之YOLOSIGAI 2018.6.15

[25]理解過擬合SIGAI 2018.6.18

[26]理解計(jì)算:從√2到AlphaGo ——第1季 從√2談起SIGAI 2018.6.20

[27]場(chǎng)景文本檢測(cè)——CTPN算法介紹SIGAI 2018.6.22

[28]卷積神經(jīng)網(wǎng)絡(luò)的壓縮和加速SIGAI 2018.6.25

[29]k近鄰算法SIGAI 2018.6.27

本文為SIGAI原創(chuàng)

作者:SIGAI

鏈接:http://www.reibang.com/p/0221974ebc23

來源:簡書

簡書著作權(quán)歸作者所有钠怯,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末曙聂,一起剝皮案震驚了整個(gè)濱河市晦炊,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌宁脊,老刑警劉巖断国,帶你破解...
    沈念sama閱讀 212,383評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異榆苞,居然都是意外死亡稳衬,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門坐漏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來薄疚,“玉大人,你說我怎么就攤上這事赊琳〗重玻” “怎么了?”我有些...
    開封第一講書人閱讀 157,852評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵躏筏,是天一觀的道長板丽。 經(jīng)常有香客問我,道長趁尼,這世上最難降的妖魔是什么埃碱? 我笑而不...
    開封第一講書人閱讀 56,621評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮酥泞,結(jié)果婚禮上砚殿,老公的妹妹穿的比我還像新娘。我一直安慰自己婶博,他們只是感情好瓮具,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,741評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著凡人,像睡著了一般名党。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上挠轴,一...
    開封第一講書人閱讀 49,929評(píng)論 1 290
  • 那天传睹,我揣著相機(jī)與錄音,去河邊找鬼岸晦。 笑死欧啤,一個(gè)胖子當(dāng)著我的面吹牛睛藻,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播邢隧,決...
    沈念sama閱讀 39,076評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼店印,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了倒慧?” 一聲冷哼從身側(cè)響起按摘,我...
    開封第一講書人閱讀 37,803評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎纫谅,沒想到半個(gè)月后炫贤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,265評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡付秕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,582評(píng)論 2 327
  • 正文 我和宋清朗相戀三年兰珍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片询吴。...
    茶點(diǎn)故事閱讀 38,716評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡掠河,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出汰寓,到底是詐尸還是另有隱情口柳,我是刑警寧澤苹粟,帶...
    沈念sama閱讀 34,395評(píng)論 4 333
  • 正文 年R本政府宣布有滑,位于F島的核電站,受9級(jí)特大地震影響嵌削,放射性物質(zhì)發(fā)生泄漏毛好。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,039評(píng)論 3 316
  • 文/蒙蒙 一苛秕、第九天 我趴在偏房一處隱蔽的房頂上張望肌访。 院中可真熱鬧,春花似錦艇劫、人聲如沸吼驶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蟹演。三九已至,卻和暖如春顷蟀,著一層夾襖步出監(jiān)牢的瞬間酒请,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評(píng)論 1 266
  • 我被黑心中介騙來泰國打工鸣个, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留羞反,地道東北人布朦。 一個(gè)月前我還...
    沈念sama閱讀 46,488評(píng)論 2 361
  • 正文 我出身青樓,卻偏偏與公主長得像昼窗,于是被迫代替她去往敵國和親是趴。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,612評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容