場景文字檢測中邊界的藝術(上)

前言

對于曲形文本口蝠,使用regression-based的方法很難完美的做到邊界的定位柿究,因此最近對于曲形文本的檢測逐漸轉向了文本區(qū)域分割+邊界校準的方式解決诉字,典型代表多糠,TextMoutain, TextField,當然這里也可以順帶講一下邊界最初的使用者——SOTD累舷。估計沒有它,就沒有后續(xù)一系列經典的對于Border learning的改進夹孔。

本文一覽

本文不主要講解論文被盈,主要分析各類基于分割的文字檢測中對邊界學習的改進,以及他們的作用搭伤,主要集中于以下幾個方法:

  • SOTD

  • TextField

  • TextMoutain

Border learning

最初border learning的提出只怎,主要為了解決密集文本的檢測,如下圖所示:

密集文字分割

對于密集文字來說怜俐,由于兩個文本之間間距較小身堡,間隙中背景信息較少,因此具備較少的語義將其分開拍鲤,進而直接使用分割贴谎,容易導致出現文本粘連的情況,如上圖(b)所示季稳。因此擅这,各路大神認為,對于行文本來說景鼠,處于文本邊界的像素屬于歧義樣本:即包含背景信息較多仲翎,但同時屬于文本區(qū)域,不利于文本區(qū)域的分割莲蜘。因此谭确,類似于EAST或者DDR中,將文本區(qū)域進行shrink票渠,丟棄邊界區(qū)域逐哈,防止其對分割任務造成影響。同時防止密集文本的檢測結果粘連问顷。然而昂秃,不同于EAST禀梳,DDR這類分割和回歸的混合方法,純分割的方法使用shrink后的文字區(qū)域作為文字區(qū)域肠骆,那么從分割結果得到文字的邊界無疑是一種經驗方法算途,即通過構造label時的shrink比例,把分割區(qū)域進行放縮蚀腿,得到最后的文本區(qū)域或者檢測框嘴瓤。因此,針對上述經驗的工作莉钙,SOTD沒有將邊界信息丟棄廓脆,反而將其作為第三類,相當于文字與文字之間的墻壁磁玉,將密集文本隔開停忿。同時變相的增加了訓練樣本。具體圖圖(c)所示蚊伞。

SOTD

該方法的全稱叫做Self-organized Text Detection with Minimal Post-processing via Border Learning席赂。文章的主要思路在于,將文字區(qū)域的邊界像素作為第三類border類進行學習时迫,在訓練過程中直接使用互斥的三分類颅停,解決密集文本粘連的問題,同時針對任意形狀的文字具有一定的檢測作用别垮,這里為什么說一定的檢測作用呢便监,因為其網絡結構把多方向這條路給封死了,不信碳想,可以看下圖:

sotd網絡結構

文中主要針對PPT的簡單場景烧董,因此沒有使用復雜的網絡,少量的通道胧奔,以及最后的1x3的卷積逊移,直接將文本的檢測限制在文本行,因此文章對于行文本檢測較強龙填。同時文章暴力的加入多尺度訓練胳泉,多尺度特征融合,提升分割的性能岩遗。

但是扇商,這種簡單的將邊界作為第三類進行分類的方法,有的文章認為不合適宿礁,這就是TextMoutain中所描述的案铺。

TextMoutain

TextMoutain認為,暴力的將文字分為邊界和文字區(qū)域是不合適的梆靖,因為邊界和文字區(qū)域不是完全分開的控汉,應該是光滑的變化笔诵,如下圖所示:

textMoutain標簽構造

文章將文字視為一座山,文字中心為山頂姑子,邊界處于山腳乎婿。這樣從邊界向山頂爬的過程,就是一個文本區(qū)域生成的過程街佑。先上網絡結構:

textmoutain網絡結構

文章使用FPN作為特征提取網絡谢翎,后融合多層特征,進行分割舆乔。分割的輸出有三種岳服,TS為文字區(qū)域的評分,TCBP為文字Text center-border probability.通過概率圖取閾值希俩,得到對應的text border以及text center instance.網絡的另外一個輸出是TCD,即邊界區(qū)域上像素指向文字中心的方向纲辽。最后颜武,文章通過TCD中指向“山頂”的方向,從山腳開始向山頂爬拖吼,最后生成文字區(qū)域。label構造依賴下面一張圖:

標簽的構造方式

圖中a表示黃點到四條邊的垂直距離。找出a1+a3和a2+a4中最短的作為構成Box的h,然后利用h态鳖。生成TS,TCD在孝。

TS的生成

TS表示文字區(qū)域,但是其不是全1這種形式怠硼,而是一張平滑的map鬼贱,其中每一像素值表示一個0到1的值,通過2*min({ai})/h得到香璃,即如果黃點越處于文本中心區(qū)域这难,對應的值越大,反而越小葡秒。這樣就出現了之前的文字的山一樣的概率圖姻乓。文章將其作為文字區(qū)域分割的真值。這樣做眯牧,避免了border和文字區(qū)域的暴力分類蹋岩,將邊界和文字區(qū)域都認為是文本,只不過邊界的像素概率低学少,而中心區(qū)域的文本概率高剪个。

TCD的生成

TCD表示text center direction,也就是圖中每一像素的值表示只想文本中心的方向,注意旱易,這里只是方向禁偎,因此是一個單位向量腿堤,長度為1.文章是如何構造的這個標簽的呢?

V_x = \sum_{i=1}^{4} [\frac{h_x}{2} - ||a_i||] * \frac{a_i}{||a_i||}

如上面式子描述如暖,計算每個ai和h的差值笆檀,值得大小代表了ai方向向量的大小以及正負方向,通過4個向量的求和盒至,得到只想文本中心的方向酗洒。通俗點數哦,如果ai中某一個特別大枷遂,大于h,那么它的方向為此時a的反方向樱衷,因為h為中心所在,爬過了山頭酒唉,需要折回去矩桂。在得到vx后,需要將其歸一化得到單位向量痪伦,因為只需要知道方向即可侄榴。

當然,在得到TS和TCD之后网沾,便是爬山算法癞蚕,利用TCD中的指向,對TS進行擴張辉哥,得到最后的文本區(qū)域桦山。詳細看論文中的后處理過程,非常巧妙醋旦。

TextField

這篇文章和TextMoutain腳前腳后恒水,一度認為他們的想法沖突了,仔細看并沒浑度,好吧寇窑,還是有一點點類似的。

textfileld標簽的模樣

上圖為文章對其標簽后遭的描述箩张,圖中可以看出甩骏,直接基于文本區(qū)域的分割,容易帶來粘連的問題先慷,同時卷積對于扭曲文本的邊界不能很好的分割開來饮笛,究其原因,曲形文本有時候文本邊界在文本區(qū)域內部论熙,這是無法通過直接的文字區(qū)域分割得到的福青。文章的標簽一樣的長得像moutain,但是構造的方式不同。接下來无午,簡要說明下標簽構造的路子:

textfield標簽構造的方式

文章構造方向標簽時候媒役,文本區(qū)域的每一個像素,存放的值為當前像素與其最近的邊界處像素構成的單位向量宪迟,指向文本區(qū)域酣衷。因此可以從圖中看到,屬于文本上方區(qū)域的顏色為一個顏色次泽,下方為另外一張顏色穿仪,說明其方向一致。

構造玩標簽意荤,就是整個模型的訓練以及inference啊片。如下圖所示:

textfile pipline

首先是通過網絡分割得到文字區(qū)域和方向的mao,然后利用score過濾方向的map得到干凈的文字方向的map玖像,然后通過后處理方法紫谷,連接成完整的文字區(qū)域。這里涉及到搜索捐寥,詳細閱讀論文碴里。

性能分析

TextMoutain在mlt上取得了SOTA,在ICDAR2015上0.86+,而反觀TextField則效果較差上真,而且在ICDAR2015上性能hmean為0.82+, EAST可以到0.85。下面只列舉在ICDAR2015上的結果:

TextField on IC15

textfield icdar2015 result

TextMoutain on IC15

textmoutain icdar2015 result

這里TextField使用的VGG16,比較EAST, TextMoutain的實現用的resnet50較弱羹膳,所以存在一點的不公平睡互。但是,可以知道的是陵像,TextField的召回比TextMoutain較弱就珠,一是骨干網絡,另外一種可能是標簽構造的不同醒颖。同樣的Moutain算法妻怎,如果文本區(qū)域為moutain,那么與方向標簽會很契合,進行再后處理中可以很順利的grouping泞歉。在實際應用中逼侦,純分割的網絡分割多方向文本召回率很高,但是都存在邊界定位不準的情況腰耙。因此榛丢,這兩種方法的邊界定位的準確性決定了這種方法的性能⊥ε樱可以看到的是晰赞,TextMoutain的性能更好,我想即使將Textfild的骨干網絡換成resnet,應該也不會有夸張的7個點的提升。標簽構造方式決定了后續(xù)的定位不準掖鱼,Textfield使用的文本區(qū)域的點與離她它最近的非文本區(qū)域點的方向然走,當文本區(qū)域的像素處于邊界的時候,容易出現該位置存儲的向量的方向不穩(wěn)定的情況戏挡,即極端情況芍瑞,邊界像素,存在多個距離最近的像素增拥,因此邊界標簽不夠強啄巧,出現后續(xù)的邊界的向量預測不準,精度下降掌栅。對于TextMoutain,其border中存放的是指向文本中心區(qū)域的方向向量秩仆,不存在歧義的方向,因此在后處理過程中猾封,可能存在文本中心與邊界像素的交界處預測不準澄耍,其余是很準的,即便是處于文字邊界的極端像素晌缘。這也是它性能好的原因齐莲。

小結

TextField, TextMoutain磷箕, pixellink选酗,psenet等方法,實際上都是基于文字區(qū)域的分割然后加上對邊界的校準岳枷,提升算法的性能芒填。這種方法,也是基于檢測空繁、分割+回歸在做的事情殿衰。同時,也可以看出盛泡,為了讓算法檢測出更為復雜的文本闷祥,邊界的設計尤為重要。甚至在我看來傲诵,如果確定一個帶方向的邊界凯砍,便可以確定一個文本區(qū)域。border learning掰吕, the art of border!

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末果覆,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子殖熟,更是在濱河造成了極大的恐慌局待,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異钳榨,居然都是意外死亡舰罚,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進店門薛耻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來营罢,“玉大人,你說我怎么就攤上這事饼齿∷茄” “怎么了?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵缕溉,是天一觀的道長考传。 經常有香客問我,道長证鸥,這世上最難降的妖魔是什么僚楞? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮枉层,結果婚禮上泉褐,老公的妹妹穿的比我還像新娘。我一直安慰自己鸟蜡,他們只是感情好膜赃,可當我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著揉忘,像睡著了一般财剖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上癌淮,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天,我揣著相機與錄音沦补,去河邊找鬼乳蓄。 笑死,一個胖子當著我的面吹牛夕膀,可吹牛的內容都是我干的虚倒。 我是一名探鬼主播,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼产舞,長吁一口氣:“原來是場噩夢啊……” “哼魂奥!你這毒婦竟也來了?” 一聲冷哼從身側響起易猫,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤耻煤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體哈蝇,經...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡棺妓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了炮赦。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片怜跑。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖吠勘,靈堂內的尸體忽然破棺而出性芬,到底是詐尸還是另有隱情,我是刑警寧澤剧防,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布植锉,位于F島的核電站,受9級特大地震影響诵姜,放射性物質發(fā)生泄漏汽煮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一棚唆、第九天 我趴在偏房一處隱蔽的房頂上張望暇赤。 院中可真熱鬧,春花似錦宵凌、人聲如沸鞋囊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽溜腐。三九已至,卻和暖如春瓜喇,著一層夾襖步出監(jiān)牢的瞬間挺益,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工乘寒, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留望众,地道東北人。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓伞辛,卻偏偏與公主長得像烂翰,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子蚤氏,可洞房花燭夜當晚...
    茶點故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內容