MSER+NMS檢測圖像中文本區(qū)域

OCR相關(guān)工作都有一個(gè)第一步寡具,那就是檢測圖像中的文本區(qū)域秤茅,只有找到了文本區(qū)域,才能對(duì)其內(nèi)容進(jìn)行識(shí)別童叠,也只有找到了文本區(qū)域框喳,才能更有針對(duì)性地判斷該文本圖像的質(zhì)量好壞,我們期望達(dá)到如下的文本區(qū)域檢測效果:

最終效果圖

MSER

MSER就是一種檢測圖像中文本區(qū)域的方法厦坛,這是一種傳統(tǒng)算法五垮,所謂傳統(tǒng)算法,是相對(duì)于現(xiàn)在大行其道的機(jī)器學(xué)習(xí)技術(shù)來說的杜秸,就準(zhǔn)確率來說放仗,MSER對(duì)文本區(qū)域的檢測效果自然是不能和深度學(xué)習(xí)如CTPN、Pixellink等相比的撬碟,但是如果只是想要對(duì)文本圖像的文本區(qū)域圖像質(zhì)量做一個(gè)前置檢查诞挨,那么使用這樣一個(gè)傳統(tǒng)算法來在效果和效率之間求取一個(gè)平衡莉撇,是不錯(cuò)的。

MSER全稱叫做最大穩(wěn)定極值區(qū)域(MSER-Maximally Stable Extremal Regions)惶傻,該算法是2002提出的棍郎,主要是基于分水嶺的思想來做圖像中斑點(diǎn)的檢測。

形象一點(diǎn)解釋這個(gè)原理就是:MSER對(duì)一幅已經(jīng)處理成灰度的圖像做二值化處理银室,這個(gè)處理的閾值從0到255遞增涂佃,這個(gè)閾值的遞增類似于在一片土地上做水平面的上升,隨著水平面上升粮揉,高高低低凹凸不平的土地區(qū)域就會(huì)不斷被淹沒巡李,這就是分水嶺算法,而這個(gè)高低不同扶认,就是圖像中灰度值的不同侨拦。而在一幅含有文字的圖像上,有些區(qū)域(比如文字)由于顏色(灰度值)是一致的辐宾,因此在水平面(閾值)持續(xù)增長的一段時(shí)間內(nèi)都不會(huì)被覆蓋狱从,直到閾值漲到文字本身的灰度值時(shí)才會(huì)被淹沒,這些區(qū)域就叫做最大穩(wěn)定極值區(qū)域叠纹。

該算法可以用來粗略地尋找圖像中的文字區(qū)域季研,雖然算法思想簡單,但要做到效果又快又好還是需要一定基礎(chǔ)的誉察,好在opencv直接提供了該算法的接口与涡,它使用了一種比算法作者要快的實(shí)現(xiàn)方式,有興趣的可以看這篇文章:Opencv2.4.9源碼分析——MSER持偏。一般來說我們只用知道怎么用它就行了驼卖。

要使用也很簡單:

import cv2
img = cv2.imread('img1.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 得到灰度圖
mser = cv2.MSER_create() # 得到mser算法對(duì)象
regions, _ = mser.detectRegions(gray) # 獲取文本區(qū)域
hulls = [cv2.convexHull(p.reshape(-1, 1, 2)) for p in regions] # 繪制文本區(qū)域
cv2.polylines(img, hulls, 1, (0, 255, 0))
cv2.namedWindow("img",0)
cv2.resizeWindow("img", 800, 640) # 限定顯示圖像的大小
cv2.imshow('img', img)
cv2.waitKey(0) # 顯示圖像直到按鍵盤任意鍵
cv2.destroyAllWindows()

效果像這樣:

獲取初始文本區(qū)域

注意上面代碼中我們是用“cv2.MSER_create()”得到了一個(gè)默認(rèn)的MSER算法對(duì)象,但其實(shí)這個(gè)對(duì)象也是可以設(shè)置參數(shù)的:

  • _delta it compares (sizei?sizei?delta)/sizei?delta
  • _min_area prune the area which smaller than minArea
  • _max_area prune the area which bigger than maxArea
  • _max_variation prune the area have similar size to its children
  • _min_diversity for color image, trace back to cut off mser with diversity less than min_diversity
  • _max_evolution for color image, the evolution steps
  • _area_threshold for color image, the area threshold to cause re-initialize
  • _min_margin for color image, ignore too small margin
  • _edge_blur_size for color image, the aperture size for edge blur

更多的使用細(xì)節(jié)可以參考cv::MSER官方文檔鸿秆。

但是上面效果中的文本框形狀太多變了酌畜,我們檢測文本區(qū)域一般都會(huì)設(shè)法得到一個(gè)包含文本的矩形框,以便于后續(xù)從圖像中通過坐標(biāo)獲取該區(qū)域卿叽,那怎么把這些區(qū)域轉(zhuǎn)換成矩形框呢桥胞?我們借用opencv的“cv2.boundingRect”和“cv2.rectangle”函數(shù)就可以了:

# 繪制目前的矩形文本框
vis = img.copy()
for c in hulls:
    x, y, w, h = cv2.boundingRect(c)
    cv2.rectangle(vis, (x, y), (x + w, y + h), (255, 255, 0), 1)            
cv2.namedWindow("hulls",0)
cv2.resizeWindow("hulls", 800, 640)
cv2.imshow("hulls", vis)
cv2.waitKey(0)
cv2.destroyAllWindows()

得到效果如下:

改成矩形文本框

但問題又出現(xiàn)了,這么多矩形框考婴,而且還互相包含贩虾,很明顯很多框是沒有必要的,要全部處理也很麻煩沥阱,能不能去掉重復(fù)的矩形框呢整胃?這就要用到NMS算法了。

NMS

NMS是經(jīng)常伴隨圖像區(qū)域檢測的算法,作用是去除重復(fù)的區(qū)域屁使,在人臉識(shí)別在岂、物體檢測等領(lǐng)域都經(jīng)常使用,全稱是非極大值抑制(non maximum suppression)蛮寂,顧名思義就是抑制不是極大值的元素蔽午,所以用在這里就是抑制不是最大框的框,也就是去除大框中包含的小框酬蹋。

NMS的基本思想是遍歷將所有的框得分排序及老,選中其中得分最高的框,然后遍歷其余框找到和當(dāng)前最高分的框的重疊面積(IOU)大于一定閾值的框范抓,刪除骄恶。然后繼續(xù)這個(gè)過程,找另一個(gè)得分高的框匕垫,再刪除IOU大于閾值的框僧鲁,循環(huán)。

在這個(gè)例子中象泵,就是設(shè)定一個(gè)IOU閾值(比如0.5寞秃,也就是如果兩個(gè)框的重疊面積大于其中一個(gè)框的50%,那么就刪除那個(gè)框)偶惠,然后遍歷所有框春寿,對(duì)剩下的每個(gè)框,遍歷判斷其余框中與他重疊面積大于閾值的忽孽,則刪除绑改。最后剩下的就是不包含重疊部分的文本框了。

def non_max_suppression_fast(boxes, overlapThresh):
    # 空數(shù)組檢測
    if len(boxes) == 0:
        return []
 
        # 將類型轉(zhuǎn)為float
    if boxes.dtype.kind == "i":
        boxes = boxes.astype("float")
 
    pick = []
 
    # grab the coordinates of the bounding boxes
        # 四個(gè)坐標(biāo)數(shù)組
    x1 = boxes[:,0]
    y1 = boxes[:,1]
    x2 = boxes[:,2]
    y2 = boxes[:,3]
 
    area = (x2 - x1 + 1) * (y2 - y1 + 1) # 計(jì)算面積數(shù)組
    idxs = np.argsort(y2) # 返回的是右下角坐標(biāo)從小到大的索引值
 
        # 開始遍歷刪除重復(fù)的框
    while len(idxs) > 0:
                # 將最右下方的框放入pick數(shù)組
        last = len(idxs) - 1
        i = idxs[last]
        pick.append(i)
 
                # 找到剩下的其余框中最大的坐標(biāo)x1y1兄一,和最小的坐標(biāo)x2y2,
        xx1 = np.maximum(x1[i], x1[idxs[:last]])
        yy1 = np.maximum(y1[i], y1[idxs[:last]])
        xx2 = np.minimum(x2[i], x2[idxs[:last]])
        yy2 = np.minimum(y2[i], y2[idxs[:last]])
 
                # 計(jì)算重疊面積占對(duì)應(yīng)框的比例
        w = np.maximum(0, xx2 - xx1 + 1)
        h = np.maximum(0, yy2 - yy1 + 1)
        overlap = (w * h) / area[idxs[:last]]
 
        # 如果占比大于閾值绢淀,則刪除
        idxs = np.delete(idxs, np.concatenate(([last], np.where(overlap > overlapThresh)[0])))

    return boxes[pick].astype("int")

pick = non_max_suppression_fast(keep, 0.5)
NMS坐標(biāo)示意圖

示意圖如上。

使用NMS算法后瘾腰,就可以去除我們重復(fù)的文本框了,效果如下:

不重疊的矩形文本框

完整代碼如下:

import cv2
import numpy as np

def non_max_suppression_fast(boxes, overlapThresh):
    # 空數(shù)組檢測
    if len(boxes) == 0:
        return []
 
        # 將類型轉(zhuǎn)為float
    if boxes.dtype.kind == "i":
        boxes = boxes.astype("float")
 
    pick = []
 
        # 四個(gè)坐標(biāo)數(shù)組
    x1 = boxes[:,0]
    y1 = boxes[:,1]
    x2 = boxes[:,2]
    y2 = boxes[:,3]
 
    area = (x2 - x1 + 1) * (y2 - y1 + 1) # 計(jì)算面積數(shù)組
    idxs = np.argsort(y2) # 返回的是右下角坐標(biāo)從小到大的索引值
 
        # 開始遍歷刪除重復(fù)的框
    while len(idxs) > 0:
                # 將最右下方的框放入pick數(shù)組
        last = len(idxs) - 1
        i = idxs[last]
        pick.append(i)
 
                # 找到剩下的其余框中最大的坐標(biāo)x1y1覆履,和最小的坐標(biāo)x2y2,
        xx1 = np.maximum(x1[i], x1[idxs[:last]])
        yy1 = np.maximum(y1[i], y1[idxs[:last]])
        xx2 = np.minimum(x2[i], x2[idxs[:last]])
        yy2 = np.minimum(y2[i], y2[idxs[:last]])
 
                # 計(jì)算重疊面積占對(duì)應(yīng)框的比例
        w = np.maximum(0, xx2 - xx1 + 1)
        h = np.maximum(0, yy2 - yy1 + 1)
        overlap = (w * h) / area[idxs[:last]]
 
        # 如果占比大于閾值蹋盆,則刪除
        idxs = np.delete(idxs, np.concatenate(([last], np.where(overlap > overlapThresh)[0])))

    return boxes[pick].astype("int")

img = cv2.imread('1501728414965.png')
vis = img.copy() # 用于繪制矩形框圖
orig = img.copy() # 用于繪制不重疊的矩形框圖
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 得到灰度圖
mser = cv2.MSER_create() # 得到mser算法對(duì)象
regions, _ = mser.detectRegions(gray) # 獲取文本區(qū)域
hulls = [cv2.convexHull(p.reshape(-1, 1, 2)) for p in regions] # 繪制文本區(qū)域
cv2.polylines(img, hulls, 1, (255, 0, 0))
cv2.namedWindow("img",0)
cv2.resizeWindow("img", 800, 640) # 限定顯示圖像的大小
cv2.imshow('img', img)


keep = []
# 繪制目前的矩形文本框
for c in hulls:
    x, y, w, h = cv2.boundingRect(c)
    keep.append([x, y, x + w, y + h])
    cv2.rectangle(vis, (x, y), (x + w, y + h), (255, 255, 0), 1)            
print("[x] %d initial bounding boxes" % (len(keep)))
cv2.namedWindow("hulls",0)
cv2.resizeWindow("hulls", 800, 640)
cv2.imshow("hulls", vis)

# 篩選不重復(fù)的矩形框
keep2=np.array(keep)
pick = non_max_suppression_fast(keep2, 0.5)
print("[x] after applying non-maximum, %d bounding boxes" % (len(pick)))
for (startX, startY, endX, endY) in pick:
    cv2.rectangle(orig, (startX, startY), (endX, endY), (255, 185, 120), 2)
cv2.namedWindow("After NMS",0)
cv2.resizeWindow("After NMS", 800, 640)
cv2.imshow("After NMS", orig)

cv2.waitKey(0)
cv2.destroyAllWindows()

查看作者首頁

參考文章:
http://www.reibang.com/p/1b9c275698c9
https://blog.csdn.net/zhaocj/article/details/40742191
https://blog.csdn.net/pandav5/article/details/50997272
https://blog.csdn.net/shuzfan/article/details/52711706

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市硝全,隨后出現(xiàn)的幾起案子栖雾,更是在濱河造成了極大的恐慌,老刑警劉巖伟众,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件析藕,死亡現(xiàn)場離奇詭異,居然都是意外死亡凳厢,警方通過查閱死者的電腦和手機(jī)账胧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門竞慢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人治泥,你說我怎么就攤上這事筹煮。” “怎么了居夹?”我有些...
    開封第一講書人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵败潦,是天一觀的道長。 經(jīng)常有香客問我准脂,道長劫扒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任狸膏,我火速辦了婚禮沟饥,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘环戈。我一直安慰自己闷板,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開白布院塞。 她就那樣靜靜地躺著遮晚,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拦止。 梳的紋絲不亂的頭發(fā)上县遣,一...
    開封第一講書人閱讀 51,631評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音汹族,去河邊找鬼萧求。 笑死,一個(gè)胖子當(dāng)著我的面吹牛顶瞒,可吹牛的內(nèi)容都是我干的夸政。 我是一名探鬼主播,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼榴徐,長吁一口氣:“原來是場噩夢啊……” “哼守问!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起坑资,我...
    開封第一講書人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤耗帕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后袱贮,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仿便,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了嗽仪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片荒勇。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖钦幔,靈堂內(nèi)的尸體忽然破棺而出枕屉,到底是詐尸還是另有隱情,我是刑警寧澤鲤氢,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布搀擂,位于F島的核電站,受9級(jí)特大地震影響卷玉,放射性物質(zhì)發(fā)生泄漏哨颂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一相种、第九天 我趴在偏房一處隱蔽的房頂上張望威恼。 院中可真熱鬧,春花似錦寝并、人聲如沸箫措。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽斤蔓。三九已至,卻和暖如春镀岛,著一層夾襖步出監(jiān)牢的瞬間弦牡,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來泰國打工漂羊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留驾锰,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓走越,卻偏偏與公主長得像椭豫,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子旨指,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容