原創(chuàng):?海翎SigAI
SIGAI特邀作者:海翎(視覺算法研究員)
青蛇: 姐, 圖像文本檢測(cè)和識(shí)別領(lǐng)域現(xiàn)在的研究熱點(diǎn)是什么?
白蛇: 白紙黑字的掃描文檔識(shí)別技術(shù)已經(jīng)很成熟,而自然場(chǎng)景圖像文本識(shí)別的效果還不理想。傾斜字、藝術(shù)字盏求、變形字、模糊字亿眠、形似字碎罚、殘缺字、光影遮蔽纳像、多語言混合文本等應(yīng)用落地面臨的技術(shù)難題還沒被徹底解決荆烈。
青蛇: 文本檢測(cè)模型CTPN中為什么選用VGG16作基礎(chǔ)網(wǎng)絡(luò)?
白蛇:CTPN是2016年被推出的, 而VGG16是那年很流行的特征提取基礎(chǔ)網(wǎng)絡(luò)。如果今年實(shí)施文本檢測(cè), 可以試試Resnet竟趾、FCN憔购、Densenet等后起之秀作基礎(chǔ)網(wǎng)絡(luò),或許有驚喜岔帽。
摘要
本文介紹圖像文本識(shí)別(OCR)領(lǐng)域的最新技術(shù)進(jìn)展玫鸟。首先介紹應(yīng)用背景,包括面臨的技術(shù)挑戰(zhàn)山卦、典型應(yīng)用場(chǎng)景鞋邑、系統(tǒng)實(shí)施框架等。接著介紹搭建圖文識(shí)別模型過程中經(jīng)常被引用到的多種特征提取基礎(chǔ)網(wǎng)絡(luò)账蓉、物體檢測(cè)網(wǎng)絡(luò)框架枚碗,以及它們被應(yīng)用到圖文識(shí)別任務(wù)中所面臨的場(chǎng)景適配問題。然后介紹最近三年來出現(xiàn)的各種文本邊框檢測(cè)模型铸本、文字內(nèi)容識(shí)別模型肮雨、端到端圖文識(shí)別模型。最后介紹圖文識(shí)別領(lǐng)域的大型公開數(shù)據(jù)集箱玷。
應(yīng)用概述
OCR(Optical Character Recognition, 光學(xué)字符識(shí)別)傳統(tǒng)上指對(duì)輸入掃描文檔圖像進(jìn)行分析處理怨规,識(shí)別出圖像中文字信息陌宿。場(chǎng)景文字識(shí)別(Scene Text Recognition,STR) 指識(shí)別自然場(chǎng)景圖片中的文字信息波丰。自然場(chǎng)景圖像中的文字識(shí)別壳坪,其難度遠(yuǎn)大于掃描文檔圖像中的文字識(shí)別,因?yàn)樗奈淖终宫F(xiàn)形式極其豐富:
·允許多種語言文本混合掰烟,字符可以有不同的大小爽蝴、字體、顏色纫骑、亮度蝎亚、對(duì)比度等。
·文本行可能有橫向先馆、豎向发框、彎曲、旋轉(zhuǎn)煤墙、扭曲等式樣梅惯。
·圖像中的文字區(qū)域還可能會(huì)產(chǎn)生變形(透視、仿射變換)番捂、殘缺个唧、模糊等現(xiàn)象。
·自然場(chǎng)景圖像的背景極其多樣设预。如文字可以出現(xiàn)在平面徙歼、曲面或折皺面上;文字區(qū)域附近有復(fù)雜的干擾紋理鳖枕、或者非文字區(qū)域有近似文字的紋理魄梯,比如沙地、草叢宾符、柵欄酿秸、磚墻等。
(本圖摘自新浪微博《光學(xué)字符識(shí)別技術(shù):讓電腦像人一樣閱讀》)
也有人用OCR技術(shù)泛指所有圖像文字檢測(cè)和識(shí)別技術(shù)魏烫, 包括傳統(tǒng)OCR技術(shù)與場(chǎng)景文字識(shí)別技術(shù)辣苏。這是因?yàn)椋瑘?chǎng)景文字識(shí)別技術(shù)可以被看成是傳統(tǒng)OCR技術(shù)的自然演進(jìn)與升級(jí)換代哄褒。
圖像文字檢測(cè)和識(shí)別技術(shù)有著廣泛的應(yīng)用場(chǎng)景稀蟋。已經(jīng)被互聯(lián)網(wǎng)公司落地的相關(guān)應(yīng)用涉及了識(shí)別名片、識(shí)別菜單呐赡、識(shí)別快遞單退客、識(shí)別身份證、識(shí)別營業(yè)證、識(shí)別銀行卡萌狂、識(shí)別車牌档玻、識(shí)別路牌、識(shí)別商品包裝袋茫藏、識(shí)別會(huì)議白板误趴、識(shí)別廣告主干詞、識(shí)別試卷务傲、識(shí)別單據(jù)等等冤留。
已經(jīng)有不少服務(wù)商在提供圖像文字檢測(cè)和識(shí)別服務(wù),這些服務(wù)商既包括了騰訊树灶、百度、阿里糯而、微軟天通、亞馬遜、谷歌等大型云服務(wù)企業(yè)熄驼,也包括了一些活躍在物流像寒、教育、安防瓜贾、視頻直播诺祸、電子政務(wù)、電子商務(wù)祭芦、旅游導(dǎo)航等垂直細(xì)分行業(yè)的服務(wù)企業(yè)筷笨。這些企業(yè)既可以使用提前訓(xùn)練好的模型直接提供場(chǎng)景圖文識(shí)別、卡證識(shí)別龟劲、掃描文檔識(shí)別等云服務(wù)胃夏,也可以使用客戶提供的數(shù)據(jù)集訓(xùn)練定制化模型(如票據(jù)識(shí)別模型),以及提供定制化AI服務(wù)系統(tǒng)集成等昌跌。
如下圖所示仰禀,傳統(tǒng)技術(shù)解決方案中,是先分別訓(xùn)練文字檢測(cè)和文本識(shí)別兩個(gè)模型蚕愤,然后在服務(wù)實(shí)施階段將這兩個(gè)模型串聯(lián)到數(shù)據(jù)流水線中組成圖文識(shí)別系統(tǒng)答恶。
如下圖所示,最近流行的技術(shù)解決方案中萍诱,是用一個(gè)多目標(biāo)網(wǎng)絡(luò)直接訓(xùn)練出一個(gè)端到端的模型悬嗓。在訓(xùn)練階段,該模型的輸入是訓(xùn)練圖像及圖中文本坐標(biāo)砂沛、文本內(nèi)容烫扼,模型優(yōu)化目標(biāo)是輸出端邊框坐標(biāo)預(yù)測(cè)誤差與文本內(nèi)容預(yù)測(cè)誤差的加權(quán)和。在服務(wù)實(shí)施階段碍庵,原始圖片流過該模型直接輸出預(yù)測(cè)文本信息映企。相比于傳統(tǒng)方案悟狱,該方案中模型訓(xùn)練效率更高、服務(wù)運(yùn)營階段資源開銷更少堰氓。
文本檢測(cè)和識(shí)別技術(shù)處于一個(gè)學(xué)科交叉點(diǎn)挤渐,其技術(shù)演進(jìn)不斷受益于計(jì)算機(jī)視覺處理和自然語言處理兩個(gè)領(lǐng)域的技術(shù)進(jìn)步。它既需要使用視覺處理技術(shù)來提取圖像中文字區(qū)域的圖像特征向量双絮,又需要借助自然語言處理技術(shù)來解碼圖像特征向量為文字結(jié)果浴麻。
模型基礎(chǔ)
從公開論文中可以看到,起源于圖像分類囤攀、檢測(cè)软免、語義分割等視覺處理任務(wù)的各個(gè)基礎(chǔ)網(wǎng)絡(luò)(backbone network),紛紛被征用來提取圖像中文字區(qū)域的特征向量焚挠。同時(shí)膏萧,起源于物體檢測(cè)、語義分割任務(wù)的多個(gè)網(wǎng)絡(luò)框架蝌衔,也被改造后用于提升圖文識(shí)別任務(wù)中的準(zhǔn)確率和執(zhí)行速度榛泛。本章將簡單溫習(xí)一下這些基礎(chǔ)網(wǎng)絡(luò)、網(wǎng)絡(luò)框架的實(shí)現(xiàn)原理噩斟,并介紹圖文識(shí)別任務(wù)中應(yīng)用它們時(shí)所面臨的各種場(chǎng)景適配問題曹锨。
基礎(chǔ)網(wǎng)絡(luò)
圖文識(shí)別任務(wù)中充當(dāng)特征提取模塊的基礎(chǔ)網(wǎng)絡(luò),可以來源于通用場(chǎng)景的圖像分類模型。例如,VGGNet呕缭,ResNet、InceptionNet覆享、DenseNet、Inside-Outside Net营袜、Se-Net等撒顿。?
圖文識(shí)別任務(wù)中的基礎(chǔ)網(wǎng)絡(luò),也可以來源于特定場(chǎng)景的專用網(wǎng)絡(luò)模型荚板。例如凤壁,擅長提取圖像細(xì)節(jié)特征的FCN網(wǎng)絡(luò),擅長做圖形矯正的STN網(wǎng)絡(luò)跪另。
由于大家對(duì)通用網(wǎng)絡(luò)模型已經(jīng)很熟悉拧抖,所以本節(jié)只簡單介紹上述專用網(wǎng)絡(luò)模型。
FCN網(wǎng)絡(luò)
全卷積網(wǎng)絡(luò)(FCN,fully convolutional network)免绿, 是去除了全連接(fc)層的基礎(chǔ)網(wǎng)絡(luò)唧席,最初是用于實(shí)現(xiàn)語義分割任務(wù)。FCN的優(yōu)勢(shì)在于利用反卷積(deconvolution)、上池化(unpooling)等上采樣(upsampling)操作淌哟,將特征矩陣恢復(fù)到接近原圖尺寸迹卢,然后對(duì)每一個(gè)位置上的像素做類別預(yù)測(cè),從而能識(shí)別出更清晰的物體邊界徒仓「睿基于FCN的檢測(cè)網(wǎng)絡(luò),不再經(jīng)過候選區(qū)域回歸出物體邊框, 而是根據(jù)高分辨率的特征圖直接預(yù)測(cè)物體邊框掉弛。因?yàn)椴恍枰馞aster-RCNN那樣在訓(xùn)練前定義好候選框長寬比例症见,F(xiàn)CN在預(yù)測(cè)不規(guī)則物體邊界時(shí)更加魯棒。由于FCN網(wǎng)絡(luò)最后一層特征圖的像素分辨率較高殃饿,而圖文識(shí)別任務(wù)中需要依賴清晰的文字筆畫來區(qū)分不同字符(特別是漢字)谋作,所以FCN網(wǎng)絡(luò)很適合用來提取文本特征。當(dāng)FCN被用于圖文識(shí)別任務(wù)時(shí)乎芳,最后一層特征圖中每個(gè)像素將被分成文字行(前景)和非文字行(背景)兩個(gè)類別瓷们。
(選自arXiv:1411.4038,’ Fully Convolutional Networks for Semantic Segmentation’)
STN網(wǎng)絡(luò)
空間變換網(wǎng)絡(luò)(STN秒咐,Spatial Transformer Networks)的作用是對(duì)輸入特征圖進(jìn)行空間位置矯正得到輸出特征圖,這個(gè)矯正過程是可以進(jìn)行梯度傳導(dǎo)的碘裕,從而能夠支持端到端的模型訓(xùn)練携取。
如下圖所示,STN網(wǎng)絡(luò)由定位網(wǎng)絡(luò)(Localization Network)?帮孔,網(wǎng)格生成器(Grid generator)雷滋,采樣器(Sampler)共3個(gè)部分組成。定位網(wǎng)絡(luò)根據(jù)原始特征圖U計(jì)算出一套控制參數(shù)文兢,網(wǎng)格生成器這套控制參數(shù)產(chǎn)生采樣網(wǎng)格(sampling grid)晤斩,采樣器根據(jù)采樣網(wǎng)格核函數(shù)將原始圖U中像素對(duì)應(yīng)采樣到目標(biāo)圖V中。
空間變換的控制參數(shù)是根據(jù)原始特征圖U動(dòng)態(tài)生成的姆坚,生成空間變換控制參數(shù)的元參數(shù)則是在模型訓(xùn)練階段學(xué)習(xí)到的澳泵、并且存放于定位網(wǎng)絡(luò)的權(quán)重(weights)矩陣中。
(選自arXiv: 1506.02025’Spatial Transformer Networks’)
檢測(cè)網(wǎng)絡(luò)框架
Faster RCNN作為一個(gè)檢測(cè)網(wǎng)絡(luò)框架兼呵,其目標(biāo)是尋找緊湊包圍被檢測(cè)對(duì)象的邊框(BBOX兔辅,Bounding Box)。如下圖所示击喂,它在Fast RCNN檢測(cè)框架基礎(chǔ)上引入?yún)^(qū)域建議網(wǎng)絡(luò)(RPN维苔,Region Proposal Network),來快速產(chǎn)生與目標(biāo)物體長寬比例接近的多個(gè)候選區(qū)域參考框(anchor)懂昂;它通過ROI(Region of Interest) Pooling層為多種尺寸參考框產(chǎn)生出歸一化固定尺寸的區(qū)域特征介时;它利用共享的CNN卷積網(wǎng)絡(luò)同時(shí)向上述RPN網(wǎng)絡(luò)和ROI Pooling層輸入特征映射(Feature Maps),從而減少卷積層參數(shù)量和計(jì)算量。訓(xùn)練過程中使用到了多目標(biāo)損失函數(shù)沸柔,包括RPN網(wǎng)絡(luò)循衰、ROI Pooling層的邊框分類loss和坐標(biāo)回歸loss。通過這些loss的梯度反向傳播勉失,能夠調(diào)節(jié)候選框的坐標(biāo)羹蚣、并增大它與標(biāo)注對(duì)象邊框的重疊度/交并比(IOU,Intersection over Union)乱凿。RPN網(wǎng)格生成的候選框初始值有固定位置以及長寬比例顽素。如果候選框初始長寬比例設(shè)置得與圖像中物體形狀差別很大,就很難通過回歸找到一個(gè)緊湊包圍它的邊框徒蟆。
(摘自arXiv:1506.01497胁出,’Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks’)
SSD(Single Shot MultiBox Detector),是2016年提出的一種全卷積目標(biāo)檢測(cè)算法段审,截止到目前仍是主要的目標(biāo)檢測(cè)框架之一全蝶,相比Faster RCNN有著明顯的速度優(yōu)勢(shì)。如下圖所示寺枉,SSD是一種one stage算法抑淫,直接預(yù)測(cè)被檢測(cè)對(duì)象的邊框和得分。檢測(cè)過程中姥闪,SSD算法利用多尺度思想進(jìn)行檢測(cè)始苇,在不同尺度的特征圖(feature maps)上產(chǎn)生與目標(biāo)物體長寬比例接近的多個(gè)默認(rèn)框(Default boxes),進(jìn)行回歸與分類筐喳。最后利用非極大值抑制(Non-maximum suppression)得到最終的檢測(cè)結(jié)果催式。訓(xùn)練過程中,SSD采用Hard negative mining策略進(jìn)行訓(xùn)練避归,使正負(fù)樣本比例保持為1:3荣月,同時(shí)使用多種數(shù)據(jù)增廣(Data augmentation)方式進(jìn)行訓(xùn)練,提高模型性能梳毙。
(摘自arxiv: 1512.02325哺窄,? “SSD: Single Shot MultiBox Detector”)
文本檢測(cè)模型
文本檢測(cè)模型的目標(biāo)是從圖片中盡可能準(zhǔn)確地找出文字所在區(qū)域。
但是账锹,視覺領(lǐng)域常規(guī)物體檢測(cè)方法(SSD, YOLO, Faster-RCNN等)直接套用于文字檢測(cè)任務(wù)效果并不理想堂氯, 主要原因如下:
·相比于常規(guī)物體,文字行長度牌废、長寬比例變化范圍很大咽白。
·文本行是有方向性的。常規(guī)物體邊框BBox的四元組描述方式信息量不充足鸟缕。
·自然場(chǎng)景中某些物體局部圖像與字母形狀相似晶框,如果不參考圖像全局信息將有誤報(bào)排抬。
·有些藝術(shù)字體使用了彎曲的文本行,而手寫字體變化模式也很多授段。
·由于豐富的背景圖像干擾蹲蒲,手工設(shè)計(jì)特征在自然場(chǎng)景文本識(shí)別任務(wù)中不夠魯棒。
針對(duì)上述問題根因侵贵,近年來出現(xiàn)了各種基于深度學(xué)習(xí)的技術(shù)解決方案届搁。它們從特征提取、區(qū)域建議網(wǎng)絡(luò)(RPN)窍育、多目標(biāo)協(xié)同訓(xùn)練卡睦、Loss改進(jìn)、非極大值抑制(NMS)漱抓、半監(jiān)督學(xué)習(xí)等角度對(duì)常規(guī)物體檢測(cè)方法進(jìn)行改造表锻,極大提升了自然場(chǎng)景圖像中文本檢測(cè)的準(zhǔn)確率。例如:
·CTPN方案中乞娄,用BLSTM模塊提取字符所在圖像上下文特征瞬逊,以提高文本塊識(shí)別精度。
·RRPN等方案中仪或,文本框標(biāo)注采用BBOX +方向角度值的形式确镊,模型中產(chǎn)生出可旋轉(zhuǎn)的文字區(qū)域候選框,并在邊框回歸計(jì)算過程中找到待測(cè)文本行的傾斜角度范删。
·DMPNet等方案中蕾域,使用四邊形(非矩形)標(biāo)注文本框,來更緊湊的包圍文本區(qū)域瓶逃。
·SegLink? 將單詞切割為更易檢測(cè)的小文字塊,再預(yù)測(cè)鄰近連接將小文字塊連成詞廓块。
·TextBoxes等方案中厢绝,調(diào)整了文字區(qū)域參考框的長寬比例,并將特征層卷積核調(diào)整為長方形带猴,從而更適合檢測(cè)出細(xì)長型的文本行昔汉。
·FTSN方案中,作者使用Mask-NMS代替?zhèn)鹘y(tǒng)BBOX的NMS算法來過濾候選框拴清。
·WordSup方案中靶病,采用半監(jiān)督學(xué)習(xí)策略,用單詞級(jí)標(biāo)注數(shù)據(jù)來訓(xùn)練字符級(jí)文本檢測(cè)模型口予。
下面用近年來出現(xiàn)的多個(gè)模型案例娄周,介紹如何應(yīng)用上述各方法提升圖像文本檢測(cè)的效果。
CTPN模型?
CTPN是目前流傳最廣沪停、影響最大的開源文本檢測(cè)模型煤辨,可以檢測(cè)水平或微斜的文本行裳涛。文本行可以被看成一個(gè)字符sequence,而不是一般物體檢測(cè)中單個(gè)獨(dú)立的目標(biāo)众辨。同一文本行上各個(gè)字符圖像間可以互為上下文端三,在訓(xùn)練階段讓檢測(cè)模型學(xué)習(xí)圖像中蘊(yùn)含的這種上下文統(tǒng)計(jì)規(guī)律,可以使得預(yù)測(cè)階段有效提升文本塊預(yù)測(cè)準(zhǔn)確率鹃彻。CTPN模型的圖像預(yù)測(cè)流程中郊闯,前端使用當(dāng)時(shí)流行的VGG16做基礎(chǔ)網(wǎng)絡(luò)來提取各字符的局部圖像特征,中間使用BLSTM層提取字符序列上下文特征蛛株,然后通過FC全連接層团赁,末端經(jīng)過預(yù)測(cè)分支輸出各個(gè)文字塊的坐標(biāo)值和分類結(jié)果概率值。在數(shù)據(jù)后處理階段泳挥,將合并相鄰的小文字塊為文本行然痊。
(選自arXiv: 1609.03605,’Detecting Text in Natural Image with Connectionist Text Proposal Network’)
RRPN模型
基于旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)(RRPN, Rotation Region Proposal Networks)的方案屉符,將旋轉(zhuǎn)因素并入經(jīng)典區(qū)域候選網(wǎng)絡(luò)(如Faster RCNN)剧浸。這種方案中,一個(gè)文本區(qū)域的ground truth被表示為具有5元組(x,y,h,w,θ)的旋轉(zhuǎn)邊框, 坐標(biāo)(x,y)表示邊框的幾何中心, 高度h設(shè)定為邊框的短邊矗钟,寬度w為長邊唆香,方向是長邊的方向。訓(xùn)練時(shí)吨艇,首先生成含有文本方向角的傾斜候選框躬它,然后在邊框回歸過程中學(xué)習(xí)文本方向角。
(選自arXiv: 1703.01086东涡,’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’)
RRPN中方案中提出了旋轉(zhuǎn)感興趣區(qū)域(RRoI冯吓,Rotation Region-of-Interest)池化層,將任意方向的區(qū)域建議先劃分成子區(qū)域疮跑,然后對(duì)這些子區(qū)域分別做max pooling组贺、并將結(jié)果投影到具有固定空間尺寸小特征圖上。
(選自arXiv: 1703.01086祖娘,’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’)
FTSN模型
FTSN(Fused Text Segmentation Networks)模型使用分割網(wǎng)絡(luò)支持傾斜文本檢測(cè)失尖。它使用Resnet-101做基礎(chǔ)網(wǎng)絡(luò),使用了多尺度融合的特征圖渐苏。標(biāo)注數(shù)據(jù)包括文本實(shí)例的像素掩碼和邊框掀潮,使用像素預(yù)測(cè)與邊框檢測(cè)多目標(biāo)聯(lián)合訓(xùn)練。
(選自arXiv: 1709.03272琼富,’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’)
基于文本實(shí)例間像素級(jí)重合度的Mask-NMS仪吧, 替代了傳統(tǒng)基于水平邊框間重合度的NMS算法。下圖左邊子圖是傳統(tǒng)NMS算法執(zhí)行結(jié)果鞠眉,中間白色邊框被錯(cuò)誤地抑制掉了邑商。下圖右邊子圖是Mask-NMS算法執(zhí)行結(jié)果摄咆, 三個(gè)邊框都被成功保留下來。
(選自arXiv: 1709.03272人断,’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’)
DMPNet模型
DMPNet(Deep Matching Prior Network)中吭从,使用四邊形(非矩形)來更緊湊地標(biāo)注文本區(qū)域邊界,其訓(xùn)練出的模型對(duì)傾斜文本塊檢測(cè)效果更好恶迈。
如下圖所示涩金,它使用滑動(dòng)窗口在特征圖上獲取文本區(qū)域候選框,候選框既有正方形的暇仲、也有傾斜四邊形的步做。接著,使用基于像素點(diǎn)采樣的Monte-Carlo方法奈附,來快速計(jì)算四邊形候選框與標(biāo)注框間的面積重合度全度。然后,計(jì)算四個(gè)頂點(diǎn)坐標(biāo)到四邊形中心點(diǎn)的距離斥滤,將它們與標(biāo)注值相比計(jì)算出目標(biāo)loss将鸵。文章中推薦用Ln loss來取代L1、L2 loss佑颇,從而對(duì)大小文本框都有較快的訓(xùn)練回歸(regress)速度顶掉。
(選自arXiv:1703.01425,’Deep?Matching?Prior?Network: Toward Tighter Multi-oriented Text Detection’)
EAST模型
EAST(Efficient and Accuracy Scene Text detection pipeline)模型中挑胸,首先使用全卷積網(wǎng)絡(luò)(FCN)生成多尺度融合的特征圖痒筒,然后在此基礎(chǔ)上直接進(jìn)行像素級(jí)的文本塊預(yù)測(cè)。該模型中茬贵,支持旋轉(zhuǎn)矩形框簿透、任意四邊形兩種文本區(qū)域標(biāo)注形式。對(duì)應(yīng)于四邊形標(biāo)注解藻,模型執(zhí)行時(shí)會(huì)對(duì)特征圖中每個(gè)像素預(yù)測(cè)其到四個(gè)頂點(diǎn)的坐標(biāo)差值老充。對(duì)應(yīng)于旋轉(zhuǎn)矩形框標(biāo)注,模型執(zhí)行時(shí)會(huì)對(duì)特征圖中每個(gè)像素預(yù)測(cè)其到矩形框四邊的距離舆逃、以及矩形框的方向角蚂维。
根據(jù)開源工程中預(yù)訓(xùn)練模型的測(cè)試戳粒,該模型檢測(cè)英文單詞效果較好路狮、檢測(cè)中文長文本行效果欠佳∥翟迹或許奄妨,根據(jù)中文數(shù)據(jù)特點(diǎn)進(jìn)行針對(duì)性訓(xùn)練后,檢測(cè)效果還有提升空間苹祟。
上述過程中砸抛,省略了其他模型中常見的區(qū)域建議评雌、單詞分割、子塊合并等步驟直焙,因此該模型的執(zhí)行速度很快景东。
(選自arXiv: 1704.03155,’EAST: An Efficient and Accurate Scene Text Detector’)
?SegLink模型
SegLink模型的標(biāo)注數(shù)據(jù)中奔誓,先將每個(gè)單詞切割為更易檢測(cè)的有方向的小文字塊(segment)斤吐,然后用鄰近連接(link?)將各個(gè)小文字塊連接成單詞。這種方案方便于識(shí)別長度變化范圍很大的厨喂、帶方向的單詞和文本行和措,它不會(huì)象Faster-RCNN等方案因?yàn)楹蜻x框長寬比例原因檢測(cè)不出長文本行。相比于CTPN等文本檢測(cè)模型蜕煌,SegLink的圖片處理速度快很多派阱。
(選自arXiv: 1703.06520,’Detecting Oriented Text in Natural Images by Linking Segments’)
如下圖所示斜纪,該模型能夠同時(shí)從6種尺度的特征圖中檢測(cè)小文字塊贫母。同一層特征圖、或者相鄰層特征圖上的小文字塊都有可能被連接入同一個(gè)單詞中傀广。換句話說颁独,位置鄰近、并且尺寸接近的文字塊都有可能被預(yù)測(cè)到同一單詞中伪冰。
(選自arXiv: 1703.06520誓酒,’Detecting Oriented Text in Natural Images by Linking Segments’)
PixelLink模型
自然場(chǎng)景圖像中一組文字塊經(jīng)常緊挨在一起,通過語義分割方法很難將它們識(shí)別開來贮聂,所以PixelLink模型嘗試用實(shí)例分割方法解決這個(gè)問題靠柑。
該模型的特征提取部分,為VGG16基礎(chǔ)上構(gòu)建的FCN網(wǎng)絡(luò)吓懈。模型執(zhí)行流程如下圖所示歼冰。首先,借助于CNN 模塊執(zhí)行兩個(gè)像素級(jí)預(yù)測(cè):一個(gè)文本二分類預(yù)測(cè)耻警,一個(gè)鏈接二分類預(yù)測(cè)隔嫡。接著,用正鏈接去連接鄰居正文本像素甘穿,得到文字塊實(shí)例分割結(jié)果腮恩。然后,由分割結(jié)果直接就獲得文字塊邊框温兼, 而且允許生成傾斜邊框秸滴。
上述過程中,省掉了其他模型中常見的邊框回歸步驟募判,因此訓(xùn)練收斂速度更快些荡含。訓(xùn)練階段咒唆,使用了平衡策略,使得每個(gè)文字塊在總LOSS中的權(quán)值相同释液。訓(xùn)練過程中全释,通過預(yù)處理增加了各種方向角度的文字塊實(shí)例。
(選自arXiv: 1801.01315误债,’Detecting Scene Text via Instance Segmentation’)
Textboxes/Textboxes++模型
Textboxes是基于SSD框架的圖文檢測(cè)模型恨溜,訓(xùn)練方式是端到端的,運(yùn)行速度也較快找前。如下圖所示糟袁,為了適應(yīng)文字行細(xì)長型的特點(diǎn),候選框的長寬比增加了1,2,3,5,7,10這樣初始值躺盛。為了適應(yīng)文本行細(xì)長型特點(diǎn)项戴,特征層也用長條形卷積核代替了其他模型中常見的正方形卷積核。為了防止漏檢文本行槽惫,還在垂直方向增加了候選框數(shù)量周叮。為了檢測(cè)大小不同的字符塊,在多個(gè)尺度的特征圖上并行預(yù)測(cè)文本框界斜, 然后對(duì)預(yù)測(cè)結(jié)果做NMS過濾仿耽。
(選自arXiv: 1611.06779,’TextBoxes: A Fast Text Detector with a Single Deep Neural Network’)
Textboxes++是Textboxes的升級(jí)版本各薇,目的是增加對(duì)傾斜文本的支持项贺。為此,將標(biāo)注數(shù)據(jù)改為了旋轉(zhuǎn)矩形框和不規(guī)則四邊形的格式峭判;對(duì)候選框的長寬比例开缎、特征圖層卷積核的形狀都作了相應(yīng)調(diào)整。
(選自arXiv: 1801.02765林螃,’TextBoxes++: A Single-Shot Oriented Scene Text Detector’)
WordSup模型
如下圖所示奕删,在數(shù)學(xué)公式圖文識(shí)別、不規(guī)則形變文本行識(shí)別等應(yīng)用中疗认,字符級(jí)檢測(cè)模型是一個(gè)關(guān)鍵基礎(chǔ)模塊完残。由于字符級(jí)自然場(chǎng)景圖文標(biāo)注成本很高、相關(guān)公開數(shù)據(jù)集稀少横漏,導(dǎo)致現(xiàn)在多數(shù)圖文檢測(cè)模型只能在文本行谨设、單詞級(jí)標(biāo)注數(shù)據(jù)上做訓(xùn)練。WordSup提出了一種弱監(jiān)督的訓(xùn)練框架绊茧, 可以文本行铝宵、單詞級(jí)標(biāo)注數(shù)據(jù)集上訓(xùn)練出字符級(jí)檢測(cè)模型打掘。
如下圖所示华畏,WordSup弱監(jiān)督訓(xùn)練框架中鹏秋,兩個(gè)訓(xùn)練步驟被交替執(zhí)行:給定當(dāng)前字符檢測(cè)模型,并結(jié)合單詞級(jí)標(biāo)注數(shù)據(jù)亡笑,計(jì)算出字符中心點(diǎn)掩碼圖侣夷; 給定字符中心點(diǎn)掩碼圖,有監(jiān)督地訓(xùn)練字符級(jí)檢測(cè)模型.
如下圖仑乌,訓(xùn)練好字符檢測(cè)器后百拓,可以在數(shù)據(jù)流水線中加入合適的文本結(jié)構(gòu)分析模塊,以輸出符合應(yīng)用場(chǎng)景格式要求的文本內(nèi)容晰甚。該文作者例舉了多種文本結(jié)構(gòu)分析模塊的實(shí)現(xiàn)方法衙传。
(選自arXiv: 1708.06720,’WordSup: Exploiting Word Annotations for Character based Text Detection’)
文本識(shí)別模型
文本識(shí)別模型的目標(biāo)是從已分割出的文字區(qū)域中識(shí)別出文本內(nèi)容厕九。
CRNN模型
CRNN(Convolutional Recurrent Neural Network)是目前較為流行的圖文識(shí)別模型蓖捶,可識(shí)別較長的文本序列。它包含CNN特征提取層和BLSTM序列特征提取層扁远,能夠進(jìn)行端到端的聯(lián)合訓(xùn)練俊鱼。 它利用BLSTM和CTC部件學(xué)習(xí)字符圖像中的上下文關(guān)系, 從而有效提升文本識(shí)別準(zhǔn)確率畅买,使得模型更加魯棒并闲。預(yù)測(cè)過程中,前端使用標(biāo)準(zhǔn)的CNN網(wǎng)絡(luò)提取文本圖像的特征谷羞,利用BLSTM將特征向量進(jìn)行融合以提取字符序列的上下文特征帝火,然后得到每列特征的概率分布,最后通過轉(zhuǎn)錄層(CTC rule)進(jìn)行預(yù)測(cè)得到文本序列湃缎。
(選自arXiv: 1507.05717购公,’An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition’)
RARE模型
RARE(Robust text recognizer with Automatic Rectification)模型在識(shí)別變形的圖像文本時(shí)效果很好。如下圖所示雁歌,模型預(yù)測(cè)過程中宏浩,輸入圖像首先要被送到一個(gè)空間變換網(wǎng)絡(luò)中做處理,矯正過的圖像然后被送入序列識(shí)別網(wǎng)絡(luò)中得到文本預(yù)測(cè)結(jié)果靠瞎。
如下圖所示比庄,空間變換網(wǎng)絡(luò)內(nèi)部包含定位網(wǎng)絡(luò)、網(wǎng)格生成器乏盐、采樣器三個(gè)部件佳窑。經(jīng)過訓(xùn)練后,它可以根據(jù)輸入圖像的特征圖動(dòng)態(tài)地產(chǎn)生空間變換網(wǎng)格父能,然后采樣器根據(jù)變換網(wǎng)格核函數(shù)從原始圖像中采樣獲得一個(gè)矩形的文本圖像神凑。RARE中支持一種稱為TPS(thin-plate splines)的空間變換,從而能夠比較準(zhǔn)確地識(shí)別透視變換過的文本、以及彎曲的文本.?
(選自arXiv: 1603.03915溉委,’Robust?Scene?Text?Recognition?with?Automatic?Rectification’)
端到端模型
端到端模型的目標(biāo)是一站式直接從圖片中定位和識(shí)別出所有文本內(nèi)容來鹃唯。
FOTS Rotation-Sensitive Regression
FOTS(Fast Oriented Text Spotting)是圖像文本檢測(cè)與識(shí)別同步訓(xùn)練、端到端可學(xué)習(xí)的網(wǎng)絡(luò)模型瓣喊。檢測(cè)和識(shí)別任務(wù)共享卷積特征層坡慌,既節(jié)省了計(jì)算時(shí)間,也比兩階段訓(xùn)練方式學(xué)習(xí)到更多圖像特征藻三。引入了旋轉(zhuǎn)感興趣區(qū)域(RoIRotate), 可以從卷積特征圖中產(chǎn)生出定向的文本區(qū)域洪橘,從而支持傾斜文本的識(shí)別.?
(選自arXiv: 1801.01671,’FOTS: Fast Oriented Text Spotting with a Unified Network’)
STN-OCR模型
STN-OCR是集成了了圖文檢測(cè)和識(shí)別功能的端到端可學(xué)習(xí)模型棵帽。在它的檢測(cè)部分嵌入了一個(gè)空間變換網(wǎng)絡(luò)(STN)來對(duì)原始輸入圖像進(jìn)行仿射(affine)變換熄求。利用這個(gè)空間變換網(wǎng)絡(luò),可以對(duì)檢測(cè)到的多個(gè)文本塊分別執(zhí)行旋轉(zhuǎn)逗概、縮放和傾斜等圖形矯正動(dòng)作抡四,從而在后續(xù)文本識(shí)別階段得到更好的識(shí)別精度。在訓(xùn)練上STN-OCR屬于半監(jiān)督學(xué)習(xí)方法仗谆,只需要提供文本內(nèi)容標(biāo)注指巡,而不要求文本定位信息。作者也提到隶垮,如果從頭開始訓(xùn)練則網(wǎng)絡(luò)收斂速度較慢藻雪,因此建議漸進(jìn)地增加訓(xùn)練難度。STN-OCR已經(jīng)開放了工程源代碼和預(yù)訓(xùn)練模型狸吞。
(選自arXiv: 1707.08831勉耀,’STN-OCR: A single Neural Network for Text Detection and Text Recognition’)
訓(xùn)練數(shù)據(jù)集
本章將列舉可用于文本檢測(cè)和識(shí)別領(lǐng)域模型訓(xùn)練的一些大型公開數(shù)據(jù)集, 不涉及僅用于模型fine-tune任務(wù)的小型數(shù)據(jù)集蹋偏。
Chinese Text in the Wild(CTW)
該數(shù)據(jù)集包含32285張圖像便斥,1018402個(gè)中文字符(來自于騰訊街景), 包含平面文本,凸起文本威始,城市文本枢纠,農(nóng)村文本,低亮度文本黎棠,遠(yuǎn)處文本晋渺,部分遮擋文本。圖像大小2048*2048脓斩,數(shù)據(jù)集大小為31GB木西。以(8:1:1)的比例將數(shù)據(jù)集分為訓(xùn)練集(25887張圖像,812872個(gè)漢字)随静,測(cè)試集(3269張圖像八千,103519個(gè)漢字),驗(yàn)證集(3129張圖像,103519個(gè)漢字)恋捆。
文獻(xiàn)鏈接:https://arxiv.org/pdf/1803.00085.pdf?
數(shù)據(jù)集下載地址:https://ctwdataset.github.io/
Reading Chinese Text in the Wild(RCTW-17)
該數(shù)據(jù)集包含12263張圖像照皆,訓(xùn)練集8034張,測(cè)試集4229張鸠信,共11.4GB。大部分圖像由手機(jī)相機(jī)拍攝论寨,含有少量的屏幕截圖星立,圖像中包含中文文本與少量英文文本。圖像分辨率大小不等葬凳。
下載地址http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html
文獻(xiàn):http://arxiv.org/pdf/1708.09585v2
ICPR MWI 2018 挑戰(zhàn)賽
大賽提供20000張圖像作為數(shù)據(jù)集绰垂,其中50%作為訓(xùn)練集,50%作為測(cè)試集火焰。主要由合成圖像劲装,產(chǎn)品描述,網(wǎng)絡(luò)廣告構(gòu)成昌简。該數(shù)據(jù)集數(shù)據(jù)量充分占业,中英文混合,涵蓋數(shù)十種字體纯赎,字體大小不一谦疾,多種版式,背景復(fù)雜犬金。文件大小為2GB念恍。
下載地址:
https://tianchi.aliyun.com/competition/information.htm?raceId=231651&_is_login_redirect=true&accounttraceid=595a06c3-7530-4b8a-ad3d-40165e22dbfe???
Total-Text
該數(shù)據(jù)集共1555張圖像,11459文本行乐尊,包含水平文本巢音,傾斜文本缓醋,彎曲文本。文件大小441MB瞳氓。大部分為英文文本,少量中文文本栓袖。訓(xùn)練集:1255張? 測(cè)試集:300
下載地址:http://www.cs-chan.com/source/ICDAR2017/totaltext.zip
文獻(xiàn):http:// arxiv.org/pdf/1710.10400v
Google FSNS(谷歌街景文本數(shù)據(jù)集)
該數(shù)據(jù)集是從谷歌法國街景圖片上獲得的一百多萬張街道名字標(biāo)志顿膨,每一張包含同一街道標(biāo)志牌的不同視角,圖像大小為600*150叽赊,訓(xùn)練集1044868張恋沃,驗(yàn)證集16150張,測(cè)試集20404張必指。
下載地址:http://rrc.cvc.uab.es/?ch=6&com=downloads
文獻(xiàn):http:// arxiv.org/pdf/1702.03970v1
COCO-TEXT
該數(shù)據(jù)集囊咏,包括63686幅圖像,173589個(gè)文本實(shí)例,包括手寫版和打印版梅割,清晰版和非清晰版霜第。文件大小12.58GB,訓(xùn)練集:43686張户辞,測(cè)試集:10000張泌类,驗(yàn)證集:10000張
文獻(xiàn): http://arxiv.org/pdf/1601.07140v2
下載地址:https://vision.cornell.edu/se3/coco-text-2/
Synthetic Data for Text Localisation
在復(fù)雜背景下人工合成的自然場(chǎng)景文本數(shù)據(jù)。包含858750張圖像底燎,共7266866個(gè)單詞實(shí)例刃榨,28971487個(gè)字符,文件大小為41GB双仍。該合成算法枢希,不需要人工標(biāo)注就可知道文字的label信息和位置信息,可得到大量自然場(chǎng)景文本標(biāo)注數(shù)據(jù)朱沃。
下載地址:http://www.robots.ox.ac.uk/~vgg/data/scenetext/
文獻(xiàn):http://www.robots.ox.ac.uk/~ankush/textloc.pdf
Code: https://github.com/ankush-me/SynthText (英文版)
Code: https://github.com/wang-tf/Chinese_OCR_synthetic_data(中文版)
Synthetic Word Dataset
合成文本識(shí)別數(shù)據(jù)集苞轿,包含9百萬張圖像,涵蓋了9萬個(gè)英語單詞逗物。文件大小為10GB
下載地址:http://www.robots.ox.ac.uk/~vgg/data/text/
Caffe-ocr中文合成數(shù)據(jù)
數(shù)據(jù)利用中文語料庫搬卒,通過字體、大小翎卓、灰度秀睛、模糊、透視莲祸、拉伸等變化隨機(jī)生成蹂安,共360萬張圖片,圖像分辨率為280x32锐帜,涵蓋了漢字田盈、標(biāo)點(diǎn)、英文缴阎、數(shù)字共5990個(gè)字符允瞧。文件大小約為8.6GB
下載地址:https://pan.baidu.com/s/1dFda6R3
參考文獻(xiàn)
1. “光學(xué)字符識(shí)別技術(shù):讓電腦像人一樣閱讀”, 新浪微博, 霍強(qiáng)
http://tech.sina.com.cn/d/i/2015-04-03/doc-icczmvun8339303.shtml
2.“Fully Convolutional Networks for Semantic Segmentation”, arXiv:1411.4038,Jonathan Long, Evan Shelhamer, Trevor Darrell
https://arxiv.org/pdf/1411.4038
3.“Spatial Transformer Networks”蛮拔,arXiv:1506.02025述暂,Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu
https://arxiv.org/pdf/1506.02025
4.“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”,arXiv:1506.01497建炫,Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun
https://arxiv.org/pdf/1506.01497
5.“SSD: Single Shot MultiBox Detector”畦韭,arxiv:1512.02325,Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg?
https://arxiv.org/pdf/1512.02325
6.“Detecting Text in Natural Image with Connectionist Text Proposal Network”肛跌,arXiv:1609.03605艺配,Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao
https://arxiv.org/pdf/1609.03605
7.“Arbitrary-Oriented Scene Text Detection via Rotation Proposals”察郁,arXiv:1703.01086,Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, Xiangyang Xue
https://arxiv.org/pdf/1703.01086
8.“Fused Text Segmentation Networks for Multi-oriented Scene Text Detection”转唉,arXiv:1709.03272皮钠,Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, Weidong Qiu
https://arxiv.org/pdf/1709.03272
9.“Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection”,arXiv:1703.01425赠法,Yuliang Liu, Lianwen Jin
https://arxiv.org/pdf/1703.01425
10.“EAST: An Efficient and Accurate Scene Text Detector”麦轰,arXiv:1704.03155,Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang
https://arxiv.org/pdf/1704.03155
11.“Detecting Oriented Text in Natural Images by Linking Segments”砖织,arXiv:1703.06520款侵,Baoguang Shi, Xiang Bai, Serge Belongie
https://arxiv.org/pdf/1703.06520
12.“Detecting Scene Text via Instance Segmentation”,arXiv:1801.01315镶苞,Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai
https://arxiv.org/pdf/1801.01315
13.“TextBoxes: A Fast Text Detector with a Single Deep Neural Network”喳坠,arXiv:1611.06779鞠评,Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu
https://arxiv.org/pdf/1611.06779
14.“TextBoxes++: A Single-Shot Oriented Scene Text Detector”茂蚓,arXiv:1801.02765,Minghui Liao, Baoguang Shi, Xiang Bai
https://arxiv.org/pdf/1801.02765
15.“WordSup: Exploiting Word Annotations for Character based Text Detection”剃幌,arXiv:1708.06720聋涨,Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, Errui Ding
https://arxiv.org/pdf/1708.06720
16.“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”,arXiv:1507.05717负乡,Baoguang Shi, Xiang Bai, Cong Yao
https://arxiv.org/pdf/1507.05717
17. “Robust Scene Text Recognition with Automatic Rectification”牍白,arXiv:1603.03915,Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai
https://arxiv.org/pdf/1603.03915
18.“FOTS: Fast Oriented Text Spotting with a Unified Network”抖棘,arXiv:1801.01671茂腥,Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan
https://arxiv.org/pdf/1801.01671
19.“STN-OCR: A single Neural Network for Text Detection and Text Recognition”,arXiv:1707.08831切省,Christian Bartz, Haojin Yang, Christoph Meinel
https://arxiv.org/pdf/1707.08831
20.“Chinese Text in the Wild”最岗,arXiv:1803.00085,Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, Shi-Min Hu
https://arxiv.org/pdf/1803.00085.pdf
21.“ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)”朝捆,arXiv:1708.09585般渡,Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, Xiang Bai
http://arxiv.org/pdf/1708.09585
22.“Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition”,arXiv:1710.10400芙盘,Chee Kheng Chng, Chee Seng Chan
https://arxiv.org/pdf/1710.10400
23.“End-to-End Interpretation of the French Street Name Signs Dataset”驯用,arXiv:1702.03970,Raymond Smith, Chunhui Gu, Dar-Shyang Lee, Huiyi Hu, Ranjith Unnikrishnan, Julian Ibarz, Sacha Arnoud, Sophia Lin
https://arxiv.org/pdf/1702.03970
24.“COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images”儒老,arXiv:1601.07140蝴乔,Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie
http://arxiv.org/pdf/1601.07140
25.“Synthetic Data for Text Localisation in Natural Images”,arXiv:1604.06646驮樊, Ankush Gupta淘这, Andrea Vedaldi剥扣, Andrew Zisserman
https://arxiv.org/pdf/1604.06646
推薦文章
[1]機(jī)器學(xué)習(xí)-波瀾壯闊40年SIGAI 2018.4.13.
[2]學(xué)好機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)知識(shí)?SIGAI 2018.4.17.
[3]人臉識(shí)別算法演化史SIGAI 2018.4.20.
[4]基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述SIGAI 2018.4.24.
[5]卷積神經(jīng)網(wǎng)絡(luò)為什么能夠稱霸計(jì)算機(jī)視覺領(lǐng)域铝穷?SIGAI 2018.4.26.
[6]用一張圖理解SVM的脈絡(luò)?SIGAI 2018.4.28.
[7]人臉檢測(cè)算法綜述SIGAI 2018.5.3.
[8]理解神經(jīng)網(wǎng)絡(luò)的激活函數(shù)SIGAI 2018.5.5.
[9]深度卷積神經(jīng)網(wǎng)絡(luò)演化歷史及結(jié)構(gòu)改進(jìn)脈絡(luò)-40頁長文全面解讀SIGAI 2018.5.8.
[10]理解梯度下降法SIGAI 2018.5.11.
[11]循環(huán)神經(jīng)網(wǎng)絡(luò)綜述—語音識(shí)別與自然語言處理的利器SIGAI 2018.5.15
[12]理解凸優(yōu)化SIGAI 2018.5.18
[13]【實(shí)驗(yàn)】理解SVM的核函數(shù)和參數(shù)SIGAI 2018.5.22
[14]?【SIGAI綜述】行人檢測(cè)算法SIGAI 2018.5.25
[15]機(jī)器學(xué)習(xí)在自動(dòng)駕駛中的應(yīng)用—以百度阿波羅平臺(tái)為例(上) SIGAI 2018.5.29
[16]理解牛頓法SIGAI 2018.5.31
[17]【群話題精華】5月集錦—機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中一些值得思考的問題?SIGAI 2018.6.1
[18]大話Adaboost算法SIGAI 2018.6.2
[?19]FlowNet到FlowNet2.0:基于卷積神經(jīng)網(wǎng)絡(luò)的光流預(yù)測(cè)算法SIGAI 2018.6.4
[20]理解主成分分析(PCA)SIGAI 2018.6.6
[21]人體骨骼關(guān)鍵點(diǎn)檢測(cè)綜述SIGAI 2018.6.8
[22]理解決策樹SIGAI 2018.6.11
[23]用一句話總結(jié)常用的機(jī)器學(xué)習(xí)算法SIGAI 2018.6.13
[24]目標(biāo)檢測(cè)算法之YOLOSIGAI 2018.6.15
[25]理解過擬合SIGAI 2018.6.18
[26]理解計(jì)算:從√2到AlphaGo ——第1季 從√2談起SIGAI 2018.6.20
[27]場(chǎng)景文本檢測(cè)——CTPN算法介紹SIGAI 2018.6.22
[28]卷積神經(jīng)網(wǎng)絡(luò)的壓縮和加速SIGAI 2018.6.25
[29]k近鄰算法SIGAI 2018.6.27
本文為SIGAI原創(chuàng)
作者:SIGAI
鏈接:http://www.reibang.com/p/0221974ebc23
來源:簡書
簡書著作權(quán)歸作者所有钠怯,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處。