MSER+NMS檢測圖像中文本區(qū)域

OCR相關(guān)工作都有一個(gè)第一步寡具，那就是檢測圖像中的文本區(qū)域秤茅，只有找到了文本區(qū)域，才能對(duì)其內(nèi)容進(jìn)行識(shí)別童叠，也只有找到了文本區(qū)域框喳，才能更有針對(duì)性地判斷該文本圖像的質(zhì)量好壞，我們期望達(dá)到如下的文本區(qū)域檢測效果：

最終效果圖

MSER

MSER就是一種檢測圖像中文本區(qū)域的方法厦坛，這是一種傳統(tǒng)算法五垮，所謂傳統(tǒng)算法，是相對(duì)于現(xiàn)在大行其道的機(jī)器學(xué)習(xí)技術(shù)來說的杜秸，就準(zhǔn)確率來說放仗，MSER對(duì)文本區(qū)域的檢測效果自然是不能和深度學(xué)習(xí)如CTPN、Pixellink等相比的撬碟，但是如果只是想要對(duì)文本圖像的文本區(qū)域圖像質(zhì)量做一個(gè)前置檢查诞挨，那么使用這樣一個(gè)傳統(tǒng)算法來在效果和效率之間求取一個(gè)平衡莉撇，是不錯(cuò)的。

MSER全稱叫做最大穩(wěn)定極值區(qū)域（MSER-Maximally Stable Extremal Regions）惶傻，該算法是2002提出的棍郎，主要是基于分水嶺的思想來做圖像中斑點(diǎn)的檢測。

形象一點(diǎn)解釋這個(gè)原理就是：MSER對(duì)一幅已經(jīng)處理成灰度的圖像做二值化處理银室，這個(gè)處理的閾值從0到255遞增涂佃，這個(gè)閾值的遞增類似于在一片土地上做水平面的上升，隨著水平面上升粮揉，高高低低凹凸不平的土地區(qū)域就會(huì)不斷被淹沒巡李，這就是分水嶺算法，而這個(gè)高低不同扶认，就是圖像中灰度值的不同侨拦。而在一幅含有文字的圖像上，有些區(qū)域（比如文字）由于顏色（灰度值）是一致的辐宾，因此在水平面（閾值）持續(xù)增長的一段時(shí)間內(nèi)都不會(huì)被覆蓋狱从，直到閾值漲到文字本身的灰度值時(shí)才會(huì)被淹沒，這些區(qū)域就叫做最大穩(wěn)定極值區(qū)域叠纹。

該算法可以用來粗略地尋找圖像中的文字區(qū)域季研，雖然算法思想簡單，但要做到效果又快又好還是需要一定基礎(chǔ)的誉察，好在opencv直接提供了該算法的接口与涡，它使用了一種比算法作者要快的實(shí)現(xiàn)方式，有興趣的可以看這篇文章：Opencv2.4.9源碼分析——MSER持偏。一般來說我們只用知道怎么用它就行了驼卖。

要使用也很簡單：

import cv2
img = cv2.imread('img1.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 得到灰度圖
mser = cv2.MSER_create() # 得到mser算法對(duì)象
regions, _ = mser.detectRegions(gray) # 獲取文本區(qū)域
hulls = [cv2.convexHull(p.reshape(-1, 1, 2)) for p in regions] # 繪制文本區(qū)域
cv2.polylines(img, hulls, 1, (0, 255, 0))
cv2.namedWindow("img",0)
cv2.resizeWindow("img", 800, 640) # 限定顯示圖像的大小
cv2.imshow('img', img)
cv2.waitKey(0) # 顯示圖像直到按鍵盤任意鍵
cv2.destroyAllWindows()

效果像這樣：

獲取初始文本區(qū)域

注意上面代碼中我們是用“cv2.MSER_create()”得到了一個(gè)默認(rèn)的MSER算法對(duì)象，但其實(shí)這個(gè)對(duì)象也是可以設(shè)置參數(shù)的：

_delta it compares (sizei?sizei?delta)/sizei?delta
_min_area prune the area which smaller than minArea
_max_area prune the area which bigger than maxArea
_max_variation prune the area have similar size to its children
_min_diversity for color image, trace back to cut off mser with diversity less than min_diversity
_max_evolution for color image, the evolution steps
_area_threshold for color image, the area threshold to cause re-initialize
_min_margin for color image, ignore too small margin
_edge_blur_size for color image, the aperture size for edge blur

更多的使用細(xì)節(jié)可以參考cv::MSER官方文檔鸿秆。

但是上面效果中的文本框形狀太多變了酌畜，我們檢測文本區(qū)域一般都會(huì)設(shè)法得到一個(gè)包含文本的矩形框，以便于后續(xù)從圖像中通過坐標(biāo)獲取該區(qū)域卿叽，那怎么把這些區(qū)域轉(zhuǎn)換成矩形框呢桥胞？我們借用opencv的“cv2.boundingRect”和“cv2.rectangle”函數(shù)就可以了：

# 繪制目前的矩形文本框
vis = img.copy()
for c in hulls:
    x, y, w, h = cv2.boundingRect(c)
    cv2.rectangle(vis, (x, y), (x + w, y + h), (255, 255, 0), 1)            
cv2.namedWindow("hulls",0)
cv2.resizeWindow("hulls", 800, 640)
cv2.imshow("hulls", vis)
cv2.waitKey(0)
cv2.destroyAllWindows()

得到效果如下：

改成矩形文本框

但問題又出現(xiàn)了，這么多矩形框考婴，而且還互相包含贩虾，很明顯很多框是沒有必要的，要全部處理也很麻煩沥阱，能不能去掉重復(fù)的矩形框呢整胃？這就要用到NMS算法了。

NMS

NMS是經(jīng)常伴隨圖像區(qū)域檢測的算法，作用是去除重復(fù)的區(qū)域屁使，在人臉識(shí)別在岂、物體檢測等領(lǐng)域都經(jīng)常使用，全稱是非極大值抑制（non maximum suppression）蛮寂，顧名思義就是抑制不是極大值的元素蔽午，所以用在這里就是抑制不是最大框的框，也就是去除大框中包含的小框酬蹋。

NMS的基本思想是遍歷將所有的框得分排序及老，選中其中得分最高的框，然后遍歷其余框找到和當(dāng)前最高分的框的重疊面積（IOU）大于一定閾值的框范抓，刪除骄恶。然后繼續(xù)這個(gè)過程，找另一個(gè)得分高的框匕垫，再刪除IOU大于閾值的框僧鲁，循環(huán)。

在這個(gè)例子中象泵，就是設(shè)定一個(gè)IOU閾值（比如0.5寞秃，也就是如果兩個(gè)框的重疊面積大于其中一個(gè)框的50%，那么就刪除那個(gè)框）偶惠，然后遍歷所有框春寿，對(duì)剩下的每個(gè)框，遍歷判斷其余框中與他重疊面積大于閾值的忽孽，則刪除绑改。最后剩下的就是不包含重疊部分的文本框了。

def non_max_suppression_fast(boxes, overlapThresh):
    # 空數(shù)組檢測
    if len(boxes) == 0:
        return []
 
        # 將類型轉(zhuǎn)為float
    if boxes.dtype.kind == "i":
        boxes = boxes.astype("float")
 
    pick = []
 
    # grab the coordinates of the bounding boxes
        # 四個(gè)坐標(biāo)數(shù)組
    x1 = boxes[:,0]
    y1 = boxes[:,1]
    x2 = boxes[:,2]
    y2 = boxes[:,3]
 
    area = (x2 - x1 + 1) * (y2 - y1 + 1) # 計(jì)算面積數(shù)組
    idxs = np.argsort(y2) # 返回的是右下角坐標(biāo)從小到大的索引值
 
        # 開始遍歷刪除重復(fù)的框
    while len(idxs) > 0:
                # 將最右下方的框放入pick數(shù)組
        last = len(idxs) - 1
        i = idxs[last]
        pick.append(i)
 
                # 找到剩下的其余框中最大的坐標(biāo)x1y1兄一，和最小的坐標(biāo)x2y2,
        xx1 = np.maximum(x1[i], x1[idxs[:last]])
        yy1 = np.maximum(y1[i], y1[idxs[:last]])
        xx2 = np.minimum(x2[i], x2[idxs[:last]])
        yy2 = np.minimum(y2[i], y2[idxs[:last]])
 
                # 計(jì)算重疊面積占對(duì)應(yīng)框的比例
        w = np.maximum(0, xx2 - xx1 + 1)
        h = np.maximum(0, yy2 - yy1 + 1)
        overlap = (w * h) / area[idxs[:last]]
 
        # 如果占比大于閾值绢淀，則刪除
        idxs = np.delete(idxs, np.concatenate(([last], np.where(overlap > overlapThresh)[0])))

    return boxes[pick].astype("int")

pick = non_max_suppression_fast(keep, 0.5)

NMS坐標(biāo)示意圖

示意圖如上。

使用NMS算法后瘾腰，就可以去除我們重復(fù)的文本框了，效果如下：

不重疊的矩形文本框

完整代碼如下：

import cv2
import numpy as np

def non_max_suppression_fast(boxes, overlapThresh):
    # 空數(shù)組檢測
    if len(boxes) == 0:
        return []
 
        # 將類型轉(zhuǎn)為float
    if boxes.dtype.kind == "i":
        boxes = boxes.astype("float")
 
    pick = []
 
        # 四個(gè)坐標(biāo)數(shù)組
    x1 = boxes[:,0]
    y1 = boxes[:,1]
    x2 = boxes[:,2]
    y2 = boxes[:,3]
 
    area = (x2 - x1 + 1) * (y2 - y1 + 1) # 計(jì)算面積數(shù)組
    idxs = np.argsort(y2) # 返回的是右下角坐標(biāo)從小到大的索引值
 
        # 開始遍歷刪除重復(fù)的框
    while len(idxs) > 0:
                # 將最右下方的框放入pick數(shù)組
        last = len(idxs) - 1
        i = idxs[last]
        pick.append(i)
 
                # 找到剩下的其余框中最大的坐標(biāo)x1y1覆履，和最小的坐標(biāo)x2y2,
        xx1 = np.maximum(x1[i], x1[idxs[:last]])
        yy1 = np.maximum(y1[i], y1[idxs[:last]])
        xx2 = np.minimum(x2[i], x2[idxs[:last]])
        yy2 = np.minimum(y2[i], y2[idxs[:last]])
 
                # 計(jì)算重疊面積占對(duì)應(yīng)框的比例
        w = np.maximum(0, xx2 - xx1 + 1)
        h = np.maximum(0, yy2 - yy1 + 1)
        overlap = (w * h) / area[idxs[:last]]
 
        # 如果占比大于閾值蹋盆，則刪除
        idxs = np.delete(idxs, np.concatenate(([last], np.where(overlap > overlapThresh)[0])))

    return boxes[pick].astype("int")

img = cv2.imread('1501728414965.png')
vis = img.copy() # 用于繪制矩形框圖
orig = img.copy() # 用于繪制不重疊的矩形框圖
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 得到灰度圖
mser = cv2.MSER_create() # 得到mser算法對(duì)象
regions, _ = mser.detectRegions(gray) # 獲取文本區(qū)域
hulls = [cv2.convexHull(p.reshape(-1, 1, 2)) for p in regions] # 繪制文本區(qū)域
cv2.polylines(img, hulls, 1, (255, 0, 0))
cv2.namedWindow("img",0)
cv2.resizeWindow("img", 800, 640) # 限定顯示圖像的大小
cv2.imshow('img', img)


keep = []
# 繪制目前的矩形文本框
for c in hulls:
    x, y, w, h = cv2.boundingRect(c)
    keep.append([x, y, x + w, y + h])
    cv2.rectangle(vis, (x, y), (x + w, y + h), (255, 255, 0), 1)            
print("[x] %d initial bounding boxes" % (len(keep)))
cv2.namedWindow("hulls",0)
cv2.resizeWindow("hulls", 800, 640)
cv2.imshow("hulls", vis)

# 篩選不重復(fù)的矩形框
keep2=np.array(keep)
pick = non_max_suppression_fast(keep2, 0.5)
print("[x] after applying non-maximum, %d bounding boxes" % (len(pick)))
for (startX, startY, endX, endY) in pick:
    cv2.rectangle(orig, (startX, startY), (endX, endY), (255, 185, 120), 2)
cv2.namedWindow("After NMS",0)
cv2.resizeWindow("After NMS", 800, 640)
cv2.imshow("After NMS", orig)

cv2.waitKey(0)
cv2.destroyAllWindows()

查看作者首頁

參考文章：
http://www.reibang.com/p/1b9c275698c9
https://blog.csdn.net/zhaocj/article/details/40742191
https://blog.csdn.net/pandav5/article/details/50997272
https://blog.csdn.net/shuzfan/article/details/52711706

最后編輯于：2018.12.17 11:40:45

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市硝全，隨后出現(xiàn)的幾起案子栖雾，更是在濱河造成了極大的恐慌，老刑警劉巖伟众，帶你破解...
沈念sama閱讀 218,755評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件析藕，死亡現(xiàn)場離奇詭異，居然都是意外死亡凳厢，警方通過查閱死者的電腦和手機(jī)账胧，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門竞慢，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人治泥，你說我怎么就攤上這事筹煮。” “怎么了居夹？”我有些...
開封第一講書人閱讀 165,138評(píng)論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵败潦，是天一觀的道長。經(jīng)常有香客問我准脂，道長劫扒，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,791評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任狸膏，我火速辦了婚禮沟饥，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘环戈。我一直安慰自己闷板，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,794評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布院塞。她就那樣靜靜地躺著遮晚，像睡著了一般。火紅的嫁衣襯著肌膚如雪拦止。梳的紋絲不亂的頭發(fā)上县遣，一...
開封第一講書人閱讀 51,631評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音汹族，去河邊找鬼萧求。笑死，一個(gè)胖子當(dāng)著我的面吹牛顶瞒，可吹牛的內(nèi)容都是我干的夸政。我是一名探鬼主播，決...
沈念sama閱讀 40,362評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼榴徐，長吁一口氣：“原來是場噩夢啊……” “哼守问！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起坑资，我...
開封第一講書人閱讀 39,264評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤耗帕，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后袱贮，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仿便，經(jīng)...
沈念sama閱讀 45,724評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了嗽仪。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片荒勇。...
茶點(diǎn)故事閱讀 40,040評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖钦幔，靈堂內(nèi)的尸體忽然破棺而出枕屉，到底是詐尸還是另有隱情，我是刑警寧澤鲤氢，帶...
沈念sama閱讀 35,742評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布搀擂，位于F島的核電站，受9級(jí)特大地震影響卷玉，放射性物質(zhì)發(fā)生泄漏哨颂。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,364評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一相种、第九天我趴在偏房一處隱蔽的房頂上張望威恼。院中可真熱鬧，春花似錦寝并、人聲如沸箫措。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,944評(píng)論 0贊 22
一樁弒父案衬潦，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽斤蔓。三九已至，卻和暖如春镀岛，著一層夾襖步出監(jiān)牢的瞬間弦牡，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,060評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工漂羊，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留驾锰，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,247評(píng)論 3贊 371
代替公主和親
正文我出身青樓走越，卻偏偏與公主長得像椭豫，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子旨指，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,979評(píng)論 2贊 355

MSER+NMS檢測圖像中文本區(qū)域

MSER

NMS

推薦閱讀更多精彩內(nèi)容