檢測
CTPN
文本檢測與一般的目標(biāo)檢測有所區(qū)別抗楔,比如文本沒有精確而閉合的邊緣俊扭,單個字符目標(biāo)窄队橙,但是整體文本串(文本行)又比較長。針對這個特點(diǎn)萨惑,研究者提出CTPN框架捐康,通過檢測行方向上寬度固定的文本提高定位精度,然后對相鄰行進(jìn)行合并來獲取檢測結(jié)果庸蔼。
TextBoxes
針對文本行一般比較長的特點(diǎn)解总,TextBoxes使用SSD框架,并修改Defult Box中的長寬比以及卷積核的大小姐仅,本質(zhì)上依然是使用SSD進(jìn)行檢測花枫。
R2CNN
針對的是大多數(shù)文本檢測場景中刻盐,文本都是存在傾斜方向的,因此如果檢測框沒有方向就不能夠達(dá)到很精確劳翰,R2CNN框架(Rotational Region CNN)就是將最后的檢測box定義為一個帶方向的box,另外同時也預(yù)測一個無方向(即水平)的框來包裹有方向的box隙疚。
EAST
基于Densebox的旋轉(zhuǎn)文本檢測框架,與R2CNN不同之處在于磕道,它不是在最終box回歸的時候輸出旋轉(zhuǎn)框供屉,而是使用多個通道來預(yù)測旋轉(zhuǎn)信息,比如4個通道預(yù)測邊界距離溺蕉,一個通道預(yù)測旋轉(zhuǎn)角度伶丐。
把完整文本行先分割檢測再合并的思路,做法比較麻煩疯特,把文本檢測切割成多階段來進(jìn)行哗魂,增大了文本檢測精度的損失和時間消耗,中間處理影響效果漓雅。(候選框選取录别,候選框過濾,bbox回歸邻吞,候選框合并)
- 通過FCN結(jié)構(gòu)的網(wǎng)絡(luò)直接學(xué)習(xí)是不是文本框以及文本框的坐標(biāo)和角度
- 局部感知NMS(先合并再NMS)组题,降低了NMS的復(fù)雜度。
- 精度和速度都有所提高
缺點(diǎn):感受野不大抱冷,對于長文本檢測不是很好崔列,比較適合短文本行檢測
AdvancedEAST:score map -> 文本頭部、中部和尾部三部分旺遮,沒有從根本上解決長文本檢測赵讯。
RRPN
基于Faster RCNN的一個旋轉(zhuǎn)文本檢測框架,與R2CNN和EAST不同的是耿眉,它采用了帶方向的Region Proposal 和ROI polling边翼,因此它本身就可以輸出帶方向的目標(biāo)框。
SegLink
針對有些文本非常長鸣剪,anchor box不一定能夠很好的覆蓋到的問題组底,SegLink基于SSD框架進(jìn)行改進(jìn),首先檢測局部片段西傀,然后通過規(guī)則將所有的片段進(jìn)行連接斤寇,得到最終的文本行,這樣做的好處在于可以檢測任意長度的文本行拥褂。
特點(diǎn):
- 與CTPN思想類似娘锁,都是先找出文本行的一部分,然后再連接所有的部分饺鹃,組成一個完整的文本行莫秆;
- 在SSD基礎(chǔ)上加入了旋轉(zhuǎn)角度的學(xué)習(xí)间雀;
在小部分文本框之前用連接線(相鄰框的中點(diǎn)連線)來表示屬不屬于同一個文本框,也是用網(wǎng)絡(luò)來學(xué)習(xí)镊屎; - 使用融合規(guī)則將各個階段的框信息和線信息進(jìn)行融合惹挟,組成文本行。
缺點(diǎn):
不能檢測間隔很大的文本行缝驳,不能檢測彎曲文本
PSEnet
亮點(diǎn):漸進(jìn)式擴(kuò)展算法
- 是一個基于像素分割的方法连锯,能夠精確地定位任意形狀的文本實(shí)例;
提出了漸進(jìn)式擴(kuò)展算法用狱,即使兩個文本實(shí)例離得很近也可以分開运怖,從而保證文本實(shí)例的準(zhǔn)確位置 - 從最小尺度的kernels開始擴(kuò)展,最小的kernels可以把緊靠的文本實(shí)例分開夏伊;逐漸擴(kuò)展到更大的kernels摇展;直到擴(kuò)展到最大的kernels,組成最終的結(jié)果溺忧。
缺點(diǎn):對于不同的數(shù)據(jù)集咏连,超參數(shù)的選取較為重要(最小尺度比例和分割結(jié)果數(shù))。
LSAE
亮點(diǎn):嵌入形狀感知
- 分離緊靠的文本實(shí)例
- 解決文本行過長的問題
使用輸出的三個結(jié)果做聚類
ATRR
使用LSTM網(wǎng)絡(luò)學(xué)習(xí)應(yīng)該使用多少個點(diǎn)來表示文本框鲁森。
類似于Faster-RCNN祟滴,增加了基于自適應(yīng)文本表示的LSTM分支。
CRAFT
通過精確的定位每一個字符刀森,然后再把檢測到的字符連接成一個文本踱启。
- 生成兩部分GT报账,字符框 + 親和框(同一文本框中的相鄰字符)研底,使用高斯熱圖
- 字符感知方法,只需要很小的感受野就可以了處理長的彎曲文本
缺點(diǎn):對粘連字符的檢測效果不好透罢;對標(biāo)注數(shù)據(jù)的要求高榜晦;使用弱監(jiān)督學(xué)習(xí)生成偽GT造成的損失;訓(xùn)練復(fù)雜羽圃,需要先進(jìn)行弱監(jiān)督訓(xùn)練得到字符級標(biāo)注框乾胶,再訓(xùn)練網(wǎng)絡(luò)。