OCR EAST: An Efficient and Accurate Scene Text Detector 自然場(chǎng)景下的文字算法詳解

最近研究OCR筏勒,有篇比較好的算法文章移迫,《EAST: An Efficient and Accurate Scene Text Detector》,該文發(fā)表在2017年CVPR上管行。代碼地址:https://github.com/argman/EAST厨埋,這是原作者參與的一份tensorflow版本代碼,網(wǎng)上還有其他的實(shí)現(xiàn)捐顷。

下面根據(jù)原文的結(jié)構(gòu)和上述提供的代碼詳細(xì)的解讀一下該算法

一荡陷、網(wǎng)絡(luò)架構(gòu)

文中使用了PVANet和VGG16,下圖1是原文的網(wǎng)絡(luò)結(jié)構(gòu)圖(PVANet)
網(wǎng)絡(luò)輸入一張圖片迅涮,經(jīng)過四個(gè)階段的卷積層可以得到四張feature map废赞, 分別為f_{4},f_{3},f_{2},f_{1},它們相對(duì)于輸入圖片分別縮小\frac{1}{4},\frac{1}{8},\frac{1}{16},\frac{1}{32}叮姑,之后使用上采樣唉地、concat(串聯(lián))、卷積操作依次得到h_{1},h_{2},h_{3},h_{4},在得到h_{4}這個(gè)融合的feature map后渣蜗,使用大小為3\times3通道數(shù)為32的卷積核卷積得到最終的feature map屠尊。

文中對(duì)文本框的定義有兩種旷祸,一種是旋轉(zhuǎn)矩形(RBOX)耕拷,另一種是四邊形(QUAD)。因?yàn)榇a只實(shí)現(xiàn)了RBOX托享,所以下面也只對(duì)RBOX框進(jìn)行分析

得到最終的feature map后骚烧,使用一個(gè)大小為1\times1通道數(shù)為1的卷積核得到一張score map用F_{s}表示。在feature map上使用一個(gè)大小為1\times1通道數(shù)為4的卷積核得到text boxes闰围,使用一個(gè)大小為1\times1通道數(shù)為1的卷積核得到text rotation angle赃绊,這里text boxes和text rotation angle合起來稱為geometry map用F_{g}表示。

關(guān)于上述的F_{s},F_{g}要說明幾點(diǎn)(如下圖2所示):

  • F_{s}大小為原圖的\frac{1}{4}通道數(shù)為1羡榴,每個(gè)像素表示對(duì)應(yīng)于原圖中像素為文字的概率值碧查,所以值在[0,1]范圍內(nèi)。
  • F_{g}大小也為原圖的\frac{1}{4}通道數(shù)為5校仑,即4+1(text boxes + text rotation angle)忠售。
  • text boxes通道數(shù)為4,其中text boxes每個(gè)像素如果對(duì)應(yīng)原圖中該像素為文字迄沫,四個(gè)通道分別表示該像素點(diǎn)到文本框的四條邊的距離稻扬,范圍定義為輸入圖像大小,如果輸入圖像為512羊瘩,那范圍就是[0,512]泰佳。下圖2d表示
  • text rotation angle通道數(shù)為1,其中text rotation angle每個(gè)像素如果對(duì)應(yīng)原圖中該像素為文字尘吗,該像素所在框的傾斜角度逝她,角度范圍定義為[-45,45]度。下圖2e表示
1.png
2.png

二睬捶、關(guān)于訓(xùn)練標(biāo)簽的生成

如上可知汽绢,訓(xùn)練標(biāo)簽由兩個(gè)部分組成,一個(gè)是score map的標(biāo)簽侧戴,一個(gè)是geometry map標(biāo)簽宁昭。
注意:程序要求輸入的四邊形標(biāo)定點(diǎn)是以順時(shí)針方向標(biāo)定的,這點(diǎn)很重要

1. score map標(biāo)簽的生成方法

  • 首先生成一個(gè)與圖片大小一樣的矩陣酗宋,值都為0
  • 根據(jù)標(biāo)定好的四邊形框?qū)υ撍倪呅慰蜻M(jìn)行縮小积仗,縮小方法下面會(huì)詳細(xì)說明,得到最終結(jié)果如上圖2a中的綠框
  • 將綠框中的像素賦值1表示正樣本的score蜕猫,其他為負(fù)樣本的score
  • 最后按照每隔4個(gè)像素采樣寂曹,得到圖片\frac{1}{4}大小的score map

上述縮小四邊形的方法:

  • 首先定義四個(gè)頂點(diǎn)Q = \{p_{i}|i \epsilon \{1, 2, 3, 4\}\},這四個(gè)頂點(diǎn)按照順時(shí)針方向排列
  • 計(jì)算縮小的參考大小如下式所示,下式表示的是選取與頂點(diǎn)相連的兩條邊中最小的邊的大小記為r_{i}
    r_{i}=min(D(p_{i},p_{(i\mod4)+1}),D(p_{i},p_{((i+2)\mod4)+1}))
    其中D(p_{i},p_{j})表示點(diǎn)p_{i}p_{j}之間的距離
  • 對(duì)于邊p_{i}, p_{(i mod 4)+1}隆圆,縮小0.3r_{i}0.3r_{(i\mod4)+1}的和的像素大小

2. geometry map標(biāo)簽的生成方法

  • 首先生成一個(gè)與圖片大小一樣的5通道矩陣用來制作text boxes 與 text rotation angle
  • 根據(jù)標(biāo)定的四變形生成一個(gè)面積最小的平行四邊形漱挚,進(jìn)而得到平行四邊形的外界旋轉(zhuǎn)矩形
  • 根據(jù)旋轉(zhuǎn)矩形的四個(gè)點(diǎn)坐標(biāo),可以選擇出y值最大的坐標(biāo)頂點(diǎn)和該頂點(diǎn)逆時(shí)針方向的頂點(diǎn)(也可以稱該頂點(diǎn)右邊的頂點(diǎn))渺氧,根據(jù)這兩個(gè)點(diǎn)的連線可以求出連線與x軸的夾角旨涝,這個(gè)夾角取值在(0,90)度之間,稱這個(gè)夾角為angle
  • 當(dāng)angle<45度時(shí)侣背,定義y值最大的點(diǎn)為p_{3}點(diǎn)白华,其它點(diǎn)按順時(shí)針方向依次類推。當(dāng)angle>45度時(shí)贩耐,定義y值最大的點(diǎn)為p_{2}點(diǎn)弧腥,此時(shí)angle角變換為-(\pi/2 - angle),這樣就保證了angle角度[-45,45]度
  • 上述還有一種特殊情況要考慮潮太,當(dāng)y值最大的點(diǎn)有兩個(gè)時(shí)管搪,說明矩形與x軸平行,angle定義為0度铡买,這時(shí)候?qū)與y坐標(biāo)相加最小的點(diǎn)定義為p_{0}點(diǎn)更鲁,其它點(diǎn)依次類推
  • 根據(jù)得到的旋轉(zhuǎn)矩形和angle值將geometry map的五個(gè)通道賦值,賦值方法為寻狂,對(duì)于text boxes的四個(gè)通道岁经,每個(gè)通道表示圖像中的像素點(diǎn)坐標(biāo)到旋轉(zhuǎn)矩形的四個(gè)邊的距離順序?yàn)椋?通道表示點(diǎn)到p_{0}p_{1}邊的距離,1通道表示點(diǎn)到p_{1}p_{1}邊的距離蛇券,按照順時(shí)針依次賦值四個(gè)通道缀壤,也分別稱為到top、right纠亚、bottom塘慕、left邊的距離,對(duì)于text rotation angle這一個(gè)通道蒂胞,將旋轉(zhuǎn)矩形中所有像素都賦值上述計(jì)算出的angle大小
  • 最后得到的五個(gè)通道按照每隔4個(gè)像素采樣图呢,這樣就可以得到圖片\frac{1}{4}大小的geometry map了

三、損失函數(shù)的定義

損失函數(shù)定義如下
L = L_{s} + \lambda_{g}L_{g}
其中L_{s}L_{g}分別表示score map和geometry map的損失骗随, \lambda_{g}表示兩個(gè)損失的權(quán)重蛤织,文章設(shè)為1

1. score map的損失計(jì)算
這里要說明的是文章采用的是交叉熵計(jì)算該損失,但是程序?qū)崿F(xiàn)沒有采用鸿染,程序采用的是dice loss
L_{s}=1-\frac{2y_{s}p_{s}}{y_{s}+p_{s}}
其中y_{s}代表位置敏感圖像分割(position-sensitive segmentation)的label指蚜,p_{s}代表預(yù)測(cè)的分割值

2. geometry map的損失計(jì)算
采用IoU loss,計(jì)算方法如下
L_{g} = L_{AABB} + \lambda_{\theta}L_{\theta}
其中\lambda_{\theta}=10

  • L_{AABB}=-logIoU(\hat{R},R)=-log\frac{|\hat{R}\bigcap R^{*}|}{|{\hat{R}\bigcup R^{*}}|}
    其中涨椒,\hat{R}表示預(yù)測(cè)摊鸡, R^{*}表示真實(shí)值
    |\hat{R}\bigcap R^{*}|=w_{i}*h_{i}計(jì)算可以通過下述方法
    w_{i}=min(\hat{d_{2}}, d^{*}_{2})+min(\hat{d_{4}}, d^{*}_{4})
    h_{i}=min(\hat{d_{1}}, d^{*}_{1})+min(\hat{d_{3}}, d^{*}_{3})
    其中d_{1},d_{2},d_{3},d_{4}表示點(diǎn)到top绽媒、right、bottom免猾、left邊的距離是辕。
    |{\hat{R}\bigcup R^{*}}|=|\hat{R}|+|R^{*}|-|\hat{R}\bigcap R^{*}|

  • L_{\theta}(\hat{\theta}, \theta^{*})=1-cos(\hat{\theta}-\theta^{*}),其中\theta^{*}表示預(yù)測(cè)值猎提,\hat{\theta}表示真實(shí)值

最后文章還提出了Locality-Aware NMS获三,感覺就是先合并一次窗口,然后采用標(biāo)準(zhǔn)的NMS去抑制窗口忧侧,詳細(xì)可以看代碼實(shí)現(xiàn)石窑,采用的是c++實(shí)現(xiàn)的

中文本定位與識(shí)別的評(píng)測(cè)方法

歡迎加入OCR交流群:785515057(此群已滿)
歡迎加入OCR交流群2:826714963

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末牌芋,一起剝皮案震驚了整個(gè)濱河市蚓炬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌躺屁,老刑警劉巖肯夏,帶你破解...
    沈念sama閱讀 211,743評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異犀暑,居然都是意外死亡驯击,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門耐亏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來徊都,“玉大人,你說我怎么就攤上這事广辰∠窘茫” “怎么了?”我有些...
    開封第一講書人閱讀 157,285評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵择吊,是天一觀的道長(zhǎng)李根。 經(jīng)常有香客問我,道長(zhǎng)几睛,這世上最難降的妖魔是什么房轿? 我笑而不...
    開封第一講書人閱讀 56,485評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮所森,結(jié)果婚禮上囱持,老公的妹妹穿的比我還像新娘。我一直安慰自己焕济,他們只是感情好纷妆,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著吼蚁,像睡著了一般凭需。 火紅的嫁衣襯著肌膚如雪问欠。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,821評(píng)論 1 290
  • 那天粒蜈,我揣著相機(jī)與錄音顺献,去河邊找鬼。 笑死枯怖,一個(gè)胖子當(dāng)著我的面吹牛注整,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播度硝,決...
    沈念sama閱讀 38,960評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼肿轨,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了蕊程?” 一聲冷哼從身側(cè)響起椒袍,我...
    開封第一講書人閱讀 37,719評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎藻茂,沒想到半個(gè)月后驹暑,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,186評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡辨赐,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評(píng)論 2 327
  • 正文 我和宋清朗相戀三年优俘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片掀序。...
    茶點(diǎn)故事閱讀 38,650評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡帆焕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出不恭,到底是詐尸還是另有隱情叶雹,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評(píng)論 4 330
  • 正文 年R本政府宣布县袱,位于F島的核電站浑娜,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏式散。R本人自食惡果不足惜筋遭,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評(píng)論 3 313
  • 文/蒙蒙 一姻氨、第九天 我趴在偏房一處隱蔽的房頂上張望执俩。 院中可真熱鬧绿鸣,春花似錦扛禽、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽捶码。三九已至撕蔼,卻和暖如春豁鲤,著一層夾襖步出監(jiān)牢的瞬間秽誊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工琳骡, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留锅论,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,370評(píng)論 2 360
  • 正文 我出身青樓楣号,卻偏偏與公主長(zhǎng)得像最易,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子炫狱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容