場景文字檢測中邊界的藝術(上)

前言

對于曲形文本口蝠，使用regression-based的方法很難完美的做到邊界的定位柿究，因此最近對于曲形文本的檢測逐漸轉向了文本區(qū)域分割+邊界校準的方式解決诉字，典型代表多糠，TextMoutain, TextField,當然這里也可以順帶講一下邊界最初的使用者——SOTD累舷。估計沒有它，就沒有后續(xù)一系列經典的對于Border learning的改進夹孔。

本文一覽

本文不主要講解論文被盈，主要分析各類基于分割的文字檢測中對邊界學習的改進，以及他們的作用搭伤，主要集中于以下幾個方法：

SOTD
TextField
TextMoutain

Border learning

最初border learning的提出只怎，主要為了解決密集文本的檢測，如下圖所示：

密集文字分割

對于密集文字來說怜俐，由于兩個文本之間間距較小身堡，間隙中背景信息較少，因此具備較少的語義將其分開拍鲤，進而直接使用分割贴谎，容易導致出現文本粘連的情況，如上圖(b)所示季稳。因此擅这，各路大神認為，對于行文本來說景鼠，處于文本邊界的像素屬于歧義樣本：即包含背景信息較多仲翎，但同時屬于文本區(qū)域，不利于文本區(qū)域的分割莲蜘。因此谭确，類似于EAST或者DDR中，將文本區(qū)域進行shrink票渠，丟棄邊界區(qū)域逐哈，防止其對分割任務造成影響。同時防止密集文本的檢測結果粘連问顷。然而昂秃，不同于EAST禀梳，DDR這類分割和回歸的混合方法，純分割的方法使用shrink后的文字區(qū)域作為文字區(qū)域肠骆，那么從分割結果得到文字的邊界無疑是一種經驗方法算途，即通過構造label時的shrink比例，把分割區(qū)域進行放縮蚀腿，得到最后的文本區(qū)域或者檢測框嘴瓤。因此，針對上述經驗的工作莉钙，SOTD沒有將邊界信息丟棄廓脆，反而將其作為第三類，相當于文字與文字之間的墻壁磁玉，將密集文本隔開停忿。同時變相的增加了訓練樣本。具體圖圖(c)所示蚊伞。

SOTD

該方法的全稱叫做Self-organized Text Detection with Minimal Post-processing via Border Learning席赂。文章的主要思路在于，將文字區(qū)域的邊界像素作為第三類border類進行學習时迫，在訓練過程中直接使用互斥的三分類颅停，解決密集文本粘連的問題，同時針對任意形狀的文字具有一定的檢測作用别垮，這里為什么說一定的檢測作用呢便监，因為其網絡結構把多方向這條路給封死了，不信碳想，可以看下圖：

sotd網絡結構

文中主要針對PPT的簡單場景烧董，因此沒有使用復雜的網絡，少量的通道胧奔，以及最后的1x3的卷積逊移，直接將文本的檢測限制在文本行，因此文章對于行文本檢測較強龙填。同時文章暴力的加入多尺度訓練胳泉，多尺度特征融合，提升分割的性能岩遗。

但是扇商，這種簡單的將邊界作為第三類進行分類的方法，有的文章認為不合適宿礁，這就是TextMoutain中所描述的案铺。

TextMoutain

TextMoutain認為，暴力的將文字分為邊界和文字區(qū)域是不合適的梆靖，因為邊界和文字區(qū)域不是完全分開的控汉，應該是光滑的變化笔诵，如下圖所示：

textMoutain標簽構造

文章將文字視為一座山，文字中心為山頂姑子，邊界處于山腳乎婿。這樣從邊界向山頂爬的過程，就是一個文本區(qū)域生成的過程街佑。先上網絡結構：

textmoutain網絡結構

文章使用FPN作為特征提取網絡谢翎，后融合多層特征，進行分割舆乔。分割的輸出有三種岳服，TS為文字區(qū)域的評分，TCBP為文字Text center-border probability.通過概率圖取閾值希俩，得到對應的text border以及text center instance.網絡的另外一個輸出是TCD，即邊界區(qū)域上像素指向文字中心的方向纲辽。最后颜武，文章通過TCD中指向“山頂”的方向，從山腳開始向山頂爬拖吼，最后生成文字區(qū)域。label構造依賴下面一張圖：

標簽的構造方式

圖中a表示黃點到四條邊的垂直距離。找出a1+a3和a2+a4中最短的作為構成Box的h,然后利用h态鳖。生成TS,TCD在孝。

TS的生成

TS表示文字區(qū)域，但是其不是全1這種形式怠硼，而是一張平滑的map鬼贱，其中每一像素值表示一個0到1的值，通過2*min({ai})/h得到香璃，即如果黃點越處于文本中心區(qū)域这难，對應的值越大，反而越小葡秒。這樣就出現了之前的文字的山一樣的概率圖姻乓。文章將其作為文字區(qū)域分割的真值。這樣做眯牧，避免了border和文字區(qū)域的暴力分類蹋岩，將邊界和文字區(qū)域都認為是文本，只不過邊界的像素概率低学少，而中心區(qū)域的文本概率高剪个。

TCD的生成

TCD表示text center direction,也就是圖中每一像素的值表示只想文本中心的方向，注意旱易，這里只是方向禁偎，因此是一個單位向量腿堤，長度為1.文章是如何構造的這個標簽的呢？

$V_x = \sum_{i=1}^{4} [\frac{h_x}{2} - ||a_i||] * \frac{a_i}{||a_i||}$

如上面式子描述如暖，計算每個ai和h的差值笆檀，值得大小代表了ai方向向量的大小以及正負方向，通過4個向量的求和盒至，得到只想文本中心的方向酗洒。通俗點數哦，如果ai中某一個特別大枷遂，大于h,那么它的方向為此時a的反方向樱衷，因為h為中心所在，爬過了山頭酒唉，需要折回去矩桂。在得到vx后，需要將其歸一化得到單位向量痪伦，因為只需要知道方向即可侄榴。

當然，在得到TS和TCD之后网沾，便是爬山算法癞蚕，利用TCD中的指向，對TS進行擴張辉哥，得到最后的文本區(qū)域桦山。詳細看論文中的后處理過程，非常巧妙醋旦。

TextField

這篇文章和TextMoutain腳前腳后恒水，一度認為他們的想法沖突了，仔細看并沒浑度，好吧寇窑，還是有一點點類似的。

textfileld標簽的模樣

上圖為文章對其標簽后遭的描述箩张，圖中可以看出甩骏，直接基于文本區(qū)域的分割，容易帶來粘連的問題先慷，同時卷積對于扭曲文本的邊界不能很好的分割開來饮笛，究其原因，曲形文本有時候文本邊界在文本區(qū)域內部论熙，這是無法通過直接的文字區(qū)域分割得到的福青。文章的標簽一樣的長得像moutain，但是構造的方式不同。接下來无午，簡要說明下標簽構造的路子：

textfield標簽構造的方式

文章構造方向標簽時候媒役，文本區(qū)域的每一個像素，存放的值為當前像素與其最近的邊界處像素構成的單位向量宪迟，指向文本區(qū)域酣衷。因此可以從圖中看到，屬于文本上方區(qū)域的顏色為一個顏色次泽，下方為另外一張顏色穿仪，說明其方向一致。

構造玩標簽意荤，就是整個模型的訓練以及inference啊片。如下圖所示：

textfile pipline

首先是通過網絡分割得到文字區(qū)域和方向的mao，然后利用score過濾方向的map得到干凈的文字方向的map玖像，然后通過后處理方法紫谷，連接成完整的文字區(qū)域。這里涉及到搜索捐寥，詳細閱讀論文碴里。

性能分析

TextMoutain在mlt上取得了SOTA，在ICDAR2015上0.86+,而反觀TextField則效果較差上真，而且在ICDAR2015上性能hmean為0.82+, EAST可以到0.85。下面只列舉在ICDAR2015上的結果：

TextField on IC15

textfield icdar2015 result

TextMoutain on IC15

textmoutain icdar2015 result

這里TextField使用的VGG16,比較EAST, TextMoutain的實現用的resnet50較弱羹膳，所以存在一點的不公平睡互。但是，可以知道的是陵像，TextField的召回比TextMoutain較弱就珠，一是骨干網絡，另外一種可能是標簽構造的不同醒颖。同樣的Moutain算法妻怎，如果文本區(qū)域為moutain,那么與方向標簽會很契合，進行再后處理中可以很順利的grouping泞歉。在實際應用中逼侦，純分割的網絡分割多方向文本召回率很高，但是都存在邊界定位不準的情況腰耙。因此榛丢，這兩種方法的邊界定位的準確性決定了這種方法的性能⊥ε樱可以看到的是晰赞，TextMoutain的性能更好，我想即使將Textfild的骨干網絡換成resnet,應該也不會有夸張的7個點的提升。標簽構造方式決定了后續(xù)的定位不準掖鱼，Textfield使用的文本區(qū)域的點與離她它最近的非文本區(qū)域點的方向然走，當文本區(qū)域的像素處于邊界的時候，容易出現該位置存儲的向量的方向不穩(wěn)定的情況戏挡，即極端情況芍瑞，邊界像素，存在多個距離最近的像素增拥，因此邊界標簽不夠強啄巧，出現后續(xù)的邊界的向量預測不準，精度下降掌栅。對于TextMoutain,其border中存放的是指向文本中心區(qū)域的方向向量秩仆，不存在歧義的方向，因此在后處理過程中猾封，可能存在文本中心與邊界像素的交界處預測不準澄耍，其余是很準的，即便是處于文字邊界的極端像素晌缘。這也是它性能好的原因齐莲。

小結

TextField， TextMoutain磷箕， pixellink选酗，psenet等方法，實際上都是基于文字區(qū)域的分割然后加上對邊界的校準岳枷，提升算法的性能芒填。這種方法，也是基于檢測空繁、分割+回歸在做的事情殿衰。同時，也可以看出盛泡，為了讓算法檢測出更為復雜的文本闷祥，邊界的設計尤為重要。甚至在我看來傲诵，如果確定一個帶方向的邊界凯砍，便可以確定一個文本區(qū)域。border learning掰吕， the art of border!

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末果覆，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子殖熟，更是在濱河造成了極大的恐慌局待，老刑警劉巖，帶你破解...
沈念sama閱讀 212,383評論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現場離奇詭異钳榨，居然都是意外死亡舰罚，警方通過查閱死者的電腦和手機，發(fā)現死者居然都...
沈念sama閱讀 90,522評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門薛耻，熙熙樓的掌柜王于貴愁眉苦臉地迎上來营罢，“玉大人，你說我怎么就攤上這事饼齿∷茄” “怎么了？”我有些...
開封第一講書人閱讀 157,852評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵缕溉，是天一觀的道長考传。經常有香客問我，道長证鸥，這世上最難降的妖魔是什么僚楞？我笑而不...
開封第一講書人閱讀 56,621評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮枉层，結果婚禮上泉褐，老公的妹妹穿的比我還像新娘。我一直安慰自己鸟蜡，他們只是感情好膜赃，可當我...
茶點故事閱讀 65,741評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著揉忘，像睡著了一般财剖。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上癌淮，一...
開封第一講書人閱讀 49,929評論 1贊 290
城市分裂傳說
那天，我揣著相機與錄音沦补，去河邊找鬼乳蓄。笑死，一個胖子當著我的面吹牛夕膀，可吹牛的內容都是我干的虚倒。我是一名探鬼主播，決...
沈念sama閱讀 39,076評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼产舞，長吁一口氣：“原來是場噩夢啊……” “哼魂奥！你這毒婦竟也來了？” 一聲冷哼從身側響起易猫，我...
開封第一講書人閱讀 37,803評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤耻煤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發(fā)現了一具尸體哈蝇，經...
沈念sama閱讀 44,265評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡棺妓，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 36,582評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現自己被綠了炮赦。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片怜跑。...
茶點故事閱讀 38,716評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖吠勘，靈堂內的尸體忽然破棺而出性芬，到底是詐尸還是另有隱情，我是刑警寧澤剧防，帶...
沈念sama閱讀 34,395評論 4贊 333
?日本核電站爆炸內幕
正文年R本政府宣布植锉，位于F島的核電站，受9級特大地震影響诵姜，放射性物質發(fā)生泄漏汽煮。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 40,039評論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一棚唆、第九天我趴在偏房一處隱蔽的房頂上張望暇赤。院中可真熱鬧，春花似錦宵凌、人聲如沸鞋囊。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,798評論 0贊 21
一樁弒父案瞎惫，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽溜腐。三九已至，卻和暖如春瓜喇，著一層夾襖步出監(jiān)牢的瞬間挺益，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,027評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工乘寒，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留望众，地道東北人。一個月前我還...
沈念sama閱讀 46,488評論 2贊 361
代替公主和親
正文我出身青樓伞辛，卻偏偏與公主長得像烂翰，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子蚤氏，可洞房花燭夜當晚...
茶點故事閱讀 43,612評論 2贊 350