1.核心思想
PSEnet是一種新的實例分割網(wǎng)絡舀患,它有兩方面的優(yōu)勢忆矛。首先,psenet作為一種基于分割的方法裕便,能夠?qū)θ我庑螤畹奈谋具M行定位绒净,其次,該模型提出了一種漸進的尺度擴展算法偿衰,該算法可以成功識別相鄰文本實例挂疆。PSEnet不僅適應任意角度的文本檢測,而且對近距離文本分割效果更好下翎。
從上圖(b)中可以看出基于回歸的方式不能對彎曲文本做出很好的定位缤言,而從(c)中可以看出基于語義分割的方式雖然可以定位彎曲文本,但是不容易將相鄰的文本區(qū)分開來视事。而(d)中采用本文提出的漸進式擴展算法能夠較好的定位彎曲文本胆萧,并且能將不同文本實例區(qū)分開來。 其具體采用的方式是首先預測每個文本行的不同kernels郑口,這些kernels和原始文本行具有同樣的形狀鸳碧,并且中心和原始文本行相同,但是在尺度上是逐漸遞增的犬性,最大的kernel就是原始文本行大小瞻离。之后對這些kernels采用bfs算法,首先從最小scale的kernel開始乒裆,逐步對它進行擴增到更大的kernel套利,最終擴增到原始文本行大小。而之所以這種方式能夠區(qū)分文本行邊緣像素,是因為對于最小scale的kernel肉迫,不同文本行是完全分離開的验辞,而在逐漸擴展的過程中是受上一級kernel監(jiān)督的,因此即使擴增到原始文本行大小也能夠?qū)⑦吘壪袼貐^(qū)分開來喊衫。
2.網(wǎng)絡結構
文章使用在ImageNet數(shù)據(jù)集上預訓練的Resnet+fpn作為特征提取的網(wǎng)絡結構
首先將高層特征和低層特征融合后得到(P2, P3, P4, P5)四個特征層跌造,其中每個特征層的channel數(shù)量為256。之后將四個特種層concat得到F族购, 其中F=C(P2,P3,P4,P5) = P2 || Upx2(P3) || Upx4(P4) || Upx8(P5)壳贪,其中的||就代表concat。x2,x4,x8分別代表2倍寝杖、4倍和8倍的上采樣违施。將F送入Conv(3,3)-BN-ReLU層,并將特征層的channel數(shù)量變?yōu)?56瑟幕。之后再將F送入多個Conv(1,1)-Up-Sigmod層來得到n個分割結果S1,S2,...Sn磕蒲,其中的Up代表上采樣。
3.漸進式擴展算法
漸進式擴展算法核心思想就是Breadth-First-Search(BFS)只盹,這里我們拿3個分割結果S={S1,S2,S3}來舉例辣往。
其中S1(上圖a)代表最小核的分割結果,它內(nèi)部有四個連通區(qū)域C={c1,c2,c3,c4}鹿霸。圖b將這四個連通區(qū)域使用不同顏色標記排吴。之后我們逐步判斷和C相鄰的像素是否在S2中,如果在懦鼠,則將其合并到圖b中钻哩,從而得到合并后的結果圖c。S3同理肛冶,最終我們抽取圖d中不同顏色標注的連通區(qū)域作為最后的文本行檢測結果街氢。
更多請參考原文鏈接:https://zhuanlan.zhihu.com/p/54767030