前言
對于曲形文本口蝠,使用regression-based的方法很難完美的做到邊界的定位柿究,因此最近對于曲形文本的檢測逐漸轉向了文本區(qū)域分割+邊界校準的方式解決诉字,典型代表多糠,TextMoutain, TextField,當然這里也可以順帶講一下邊界最初的使用者——SOTD累舷。估計沒有它,就沒有后續(xù)一系列經典的對于Border learning的改進夹孔。
本文一覽
本文不主要講解論文被盈,主要分析各類基于分割的文字檢測中對邊界學習的改進,以及他們的作用搭伤,主要集中于以下幾個方法:
SOTD
TextField
TextMoutain
Border learning
最初border learning的提出只怎,主要為了解決密集文本的檢測,如下圖所示:
對于密集文字來說怜俐,由于兩個文本之間間距較小身堡,間隙中背景信息較少,因此具備較少的語義將其分開拍鲤,進而直接使用分割贴谎,容易導致出現文本粘連的情況,如上圖(b)所示季稳。因此擅这,各路大神認為,對于行文本來說景鼠,處于文本邊界的像素屬于歧義樣本:即包含背景信息較多仲翎,但同時屬于文本區(qū)域,不利于文本區(qū)域的分割莲蜘。因此谭确,類似于EAST或者DDR中,將文本區(qū)域進行shrink票渠,丟棄邊界區(qū)域逐哈,防止其對分割任務造成影響。同時防止密集文本的檢測結果粘連问顷。然而昂秃,不同于EAST禀梳,DDR這類分割和回歸的混合方法,純分割的方法使用shrink后的文字區(qū)域作為文字區(qū)域肠骆,那么從分割結果得到文字的邊界無疑是一種經驗方法算途,即通過構造label時的shrink比例,把分割區(qū)域進行放縮蚀腿,得到最后的文本區(qū)域或者檢測框嘴瓤。因此,針對上述經驗的工作莉钙,SOTD沒有將邊界信息丟棄廓脆,反而將其作為第三類,相當于文字與文字之間的墻壁磁玉,將密集文本隔開停忿。同時變相的增加了訓練樣本。具體圖圖(c)所示蚊伞。
SOTD
該方法的全稱叫做Self-organized Text Detection with Minimal Post-processing via Border Learning席赂。文章的主要思路在于,將文字區(qū)域的邊界像素作為第三類border類進行學習时迫,在訓練過程中直接使用互斥的三分類颅停,解決密集文本粘連的問題,同時針對任意形狀的文字具有一定的檢測作用别垮,這里為什么說一定的檢測作用呢便监,因為其網絡結構把多方向這條路給封死了,不信碳想,可以看下圖:
文中主要針對PPT的簡單場景烧董,因此沒有使用復雜的網絡,少量的通道胧奔,以及最后的1x3的卷積逊移,直接將文本的檢測限制在文本行,因此文章對于行文本檢測較強龙填。同時文章暴力的加入多尺度訓練胳泉,多尺度特征融合,提升分割的性能岩遗。
但是扇商,這種簡單的將邊界作為第三類進行分類的方法,有的文章認為不合適宿礁,這就是TextMoutain中所描述的案铺。
TextMoutain
TextMoutain認為,暴力的將文字分為邊界和文字區(qū)域是不合適的梆靖,因為邊界和文字區(qū)域不是完全分開的控汉,應該是光滑的變化笔诵,如下圖所示:
文章將文字視為一座山,文字中心為山頂姑子,邊界處于山腳乎婿。這樣從邊界向山頂爬的過程,就是一個文本區(qū)域生成的過程街佑。先上網絡結構:
文章使用FPN作為特征提取網絡谢翎,后融合多層特征,進行分割舆乔。分割的輸出有三種岳服,TS為文字區(qū)域的評分,TCBP為文字Text center-border probability.通過概率圖取閾值希俩,得到對應的text border以及text center instance.網絡的另外一個輸出是TCD,即邊界區(qū)域上像素指向文字中心的方向纲辽。最后颜武,文章通過TCD中指向“山頂”的方向,從山腳開始向山頂爬拖吼,最后生成文字區(qū)域。label構造依賴下面一張圖:
圖中a表示黃點到四條邊的垂直距離。找出a1+a3和a2+a4中最短的作為構成Box的h,然后利用h态鳖。生成TS,TCD在孝。
TS的生成
TS表示文字區(qū)域,但是其不是全1這種形式怠硼,而是一張平滑的map鬼贱,其中每一像素值表示一個0到1的值,通過2*min({ai})/h得到香璃,即如果黃點越處于文本中心區(qū)域这难,對應的值越大,反而越小葡秒。這樣就出現了之前的文字的山一樣的概率圖姻乓。文章將其作為文字區(qū)域分割的真值。這樣做眯牧,避免了border和文字區(qū)域的暴力分類蹋岩,將邊界和文字區(qū)域都認為是文本,只不過邊界的像素概率低学少,而中心區(qū)域的文本概率高剪个。
TCD的生成
TCD表示text center direction,也就是圖中每一像素的值表示只想文本中心的方向,注意旱易,這里只是方向禁偎,因此是一個單位向量腿堤,長度為1.文章是如何構造的這個標簽的呢?
如上面式子描述如暖,計算每個ai和h的差值笆檀,值得大小代表了ai方向向量的大小以及正負方向,通過4個向量的求和盒至,得到只想文本中心的方向酗洒。通俗點數哦,如果ai中某一個特別大枷遂,大于h,那么它的方向為此時a的反方向樱衷,因為h為中心所在,爬過了山頭酒唉,需要折回去矩桂。在得到vx后,需要將其歸一化得到單位向量痪伦,因為只需要知道方向即可侄榴。
當然,在得到TS和TCD之后网沾,便是爬山算法癞蚕,利用TCD中的指向,對TS進行擴張辉哥,得到最后的文本區(qū)域桦山。詳細看論文中的后處理過程,非常巧妙醋旦。
TextField
這篇文章和TextMoutain腳前腳后恒水,一度認為他們的想法沖突了,仔細看并沒浑度,好吧寇窑,還是有一點點類似的。
上圖為文章對其標簽后遭的描述箩张,圖中可以看出甩骏,直接基于文本區(qū)域的分割,容易帶來粘連的問題先慷,同時卷積對于扭曲文本的邊界不能很好的分割開來饮笛,究其原因,曲形文本有時候文本邊界在文本區(qū)域內部论熙,這是無法通過直接的文字區(qū)域分割得到的福青。文章的標簽一樣的長得像moutain,但是構造的方式不同。接下來无午,簡要說明下標簽構造的路子:
文章構造方向標簽時候媒役,文本區(qū)域的每一個像素,存放的值為當前像素與其最近的邊界處像素構成的單位向量宪迟,指向文本區(qū)域酣衷。因此可以從圖中看到,屬于文本上方區(qū)域的顏色為一個顏色次泽,下方為另外一張顏色穿仪,說明其方向一致。
構造玩標簽意荤,就是整個模型的訓練以及inference啊片。如下圖所示:
首先是通過網絡分割得到文字區(qū)域和方向的mao,然后利用score過濾方向的map得到干凈的文字方向的map玖像,然后通過后處理方法紫谷,連接成完整的文字區(qū)域。這里涉及到搜索捐寥,詳細閱讀論文碴里。
性能分析
TextMoutain在mlt上取得了SOTA,在ICDAR2015上0.86+,而反觀TextField則效果較差上真,而且在ICDAR2015上性能hmean為0.82+, EAST可以到0.85。下面只列舉在ICDAR2015上的結果:
TextField on IC15
TextMoutain on IC15
這里TextField使用的VGG16,比較EAST, TextMoutain的實現用的resnet50較弱羹膳,所以存在一點的不公平睡互。但是,可以知道的是陵像,TextField的召回比TextMoutain較弱就珠,一是骨干網絡,另外一種可能是標簽構造的不同醒颖。同樣的Moutain算法妻怎,如果文本區(qū)域為moutain,那么與方向標簽會很契合,進行再后處理中可以很順利的grouping泞歉。在實際應用中逼侦,純分割的網絡分割多方向文本召回率很高,但是都存在邊界定位不準的情況腰耙。因此榛丢,這兩種方法的邊界定位的準確性決定了這種方法的性能⊥ε樱可以看到的是晰赞,TextMoutain的性能更好,我想即使將Textfild的骨干網絡換成resnet,應該也不會有夸張的7個點的提升。標簽構造方式決定了后續(xù)的定位不準掖鱼,Textfield使用的文本區(qū)域的點與離她它最近的非文本區(qū)域點的方向然走,當文本區(qū)域的像素處于邊界的時候,容易出現該位置存儲的向量的方向不穩(wěn)定的情況戏挡,即極端情況芍瑞,邊界像素,存在多個距離最近的像素增拥,因此邊界標簽不夠強啄巧,出現后續(xù)的邊界的向量預測不準,精度下降掌栅。對于TextMoutain,其border中存放的是指向文本中心區(qū)域的方向向量秩仆,不存在歧義的方向,因此在后處理過程中猾封,可能存在文本中心與邊界像素的交界處預測不準澄耍,其余是很準的,即便是處于文字邊界的極端像素晌缘。這也是它性能好的原因齐莲。
小結
TextField, TextMoutain磷箕, pixellink选酗,psenet等方法,實際上都是基于文字區(qū)域的分割然后加上對邊界的校準岳枷,提升算法的性能芒填。這種方法,也是基于檢測空繁、分割+回歸在做的事情殿衰。同時,也可以看出盛泡,為了讓算法檢測出更為復雜的文本闷祥,邊界的設計尤為重要。甚至在我看來傲诵,如果確定一個帶方向的邊界凯砍,便可以確定一個文本區(qū)域。border learning掰吕, the art of border!