OCR相關(guān)工作都有一個(gè)第一步寡具,那就是檢測圖像中的文本區(qū)域秤茅,只有找到了文本區(qū)域,才能對(duì)其內(nèi)容進(jìn)行識(shí)別童叠,也只有找到了文本區(qū)域框喳,才能更有針對(duì)性地判斷該文本圖像的質(zhì)量好壞,我們期望達(dá)到如下的文本區(qū)域檢測效果:
MSER
MSER就是一種檢測圖像中文本區(qū)域的方法厦坛,這是一種傳統(tǒng)算法五垮,所謂傳統(tǒng)算法,是相對(duì)于現(xiàn)在大行其道的機(jī)器學(xué)習(xí)技術(shù)來說的杜秸,就準(zhǔn)確率來說放仗,MSER對(duì)文本區(qū)域的檢測效果自然是不能和深度學(xué)習(xí)如CTPN、Pixellink等相比的撬碟,但是如果只是想要對(duì)文本圖像的文本區(qū)域圖像質(zhì)量做一個(gè)前置檢查诞挨,那么使用這樣一個(gè)傳統(tǒng)算法來在效果和效率之間求取一個(gè)平衡莉撇,是不錯(cuò)的。
MSER全稱叫做最大穩(wěn)定極值區(qū)域(MSER-Maximally Stable Extremal Regions)惶傻,該算法是2002提出的棍郎,主要是基于分水嶺的思想來做圖像中斑點(diǎn)的檢測。
形象一點(diǎn)解釋這個(gè)原理就是:MSER對(duì)一幅已經(jīng)處理成灰度的圖像做二值化處理银室,這個(gè)處理的閾值從0到255遞增涂佃,這個(gè)閾值的遞增類似于在一片土地上做水平面的上升,隨著水平面上升粮揉,高高低低凹凸不平的土地區(qū)域就會(huì)不斷被淹沒巡李,這就是分水嶺算法,而這個(gè)高低不同扶认,就是圖像中灰度值的不同侨拦。而在一幅含有文字的圖像上,有些區(qū)域(比如文字)由于顏色(灰度值)是一致的辐宾,因此在水平面(閾值)持續(xù)增長的一段時(shí)間內(nèi)都不會(huì)被覆蓋狱从,直到閾值漲到文字本身的灰度值時(shí)才會(huì)被淹沒,這些區(qū)域就叫做最大穩(wěn)定極值區(qū)域叠纹。
該算法可以用來粗略地尋找圖像中的文字區(qū)域季研,雖然算法思想簡單,但要做到效果又快又好還是需要一定基礎(chǔ)的誉察,好在opencv直接提供了該算法的接口与涡,它使用了一種比算法作者要快的實(shí)現(xiàn)方式,有興趣的可以看這篇文章:Opencv2.4.9源碼分析——MSER持偏。一般來說我們只用知道怎么用它就行了驼卖。
要使用也很簡單:
import cv2
img = cv2.imread('img1.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 得到灰度圖
mser = cv2.MSER_create() # 得到mser算法對(duì)象
regions, _ = mser.detectRegions(gray) # 獲取文本區(qū)域
hulls = [cv2.convexHull(p.reshape(-1, 1, 2)) for p in regions] # 繪制文本區(qū)域
cv2.polylines(img, hulls, 1, (0, 255, 0))
cv2.namedWindow("img",0)
cv2.resizeWindow("img", 800, 640) # 限定顯示圖像的大小
cv2.imshow('img', img)
cv2.waitKey(0) # 顯示圖像直到按鍵盤任意鍵
cv2.destroyAllWindows()
效果像這樣:
注意上面代碼中我們是用“cv2.MSER_create()”得到了一個(gè)默認(rèn)的MSER算法對(duì)象,但其實(shí)這個(gè)對(duì)象也是可以設(shè)置參數(shù)的:
- _delta it compares (sizei?sizei?delta)/sizei?delta
- _min_area prune the area which smaller than minArea
- _max_area prune the area which bigger than maxArea
- _max_variation prune the area have similar size to its children
- _min_diversity for color image, trace back to cut off mser with diversity less than min_diversity
- _max_evolution for color image, the evolution steps
- _area_threshold for color image, the area threshold to cause re-initialize
- _min_margin for color image, ignore too small margin
- _edge_blur_size for color image, the aperture size for edge blur
更多的使用細(xì)節(jié)可以參考cv::MSER官方文檔鸿秆。
但是上面效果中的文本框形狀太多變了酌畜,我們檢測文本區(qū)域一般都會(huì)設(shè)法得到一個(gè)包含文本的矩形框,以便于后續(xù)從圖像中通過坐標(biāo)獲取該區(qū)域卿叽,那怎么把這些區(qū)域轉(zhuǎn)換成矩形框呢桥胞?我們借用opencv的“cv2.boundingRect”和“cv2.rectangle”函數(shù)就可以了:
# 繪制目前的矩形文本框
vis = img.copy()
for c in hulls:
x, y, w, h = cv2.boundingRect(c)
cv2.rectangle(vis, (x, y), (x + w, y + h), (255, 255, 0), 1)
cv2.namedWindow("hulls",0)
cv2.resizeWindow("hulls", 800, 640)
cv2.imshow("hulls", vis)
cv2.waitKey(0)
cv2.destroyAllWindows()
得到效果如下:
但問題又出現(xiàn)了,這么多矩形框考婴,而且還互相包含贩虾,很明顯很多框是沒有必要的,要全部處理也很麻煩沥阱,能不能去掉重復(fù)的矩形框呢整胃?這就要用到NMS算法了。
NMS
NMS是經(jīng)常伴隨圖像區(qū)域檢測的算法,作用是去除重復(fù)的區(qū)域屁使,在人臉識(shí)別在岂、物體檢測等領(lǐng)域都經(jīng)常使用,全稱是非極大值抑制(non maximum suppression)蛮寂,顧名思義就是抑制不是極大值的元素蔽午,所以用在這里就是抑制不是最大框的框,也就是去除大框中包含的小框酬蹋。
NMS的基本思想是遍歷將所有的框得分排序及老,選中其中得分最高的框,然后遍歷其余框找到和當(dāng)前最高分的框的重疊面積(IOU)大于一定閾值的框范抓,刪除骄恶。然后繼續(xù)這個(gè)過程,找另一個(gè)得分高的框匕垫,再刪除IOU大于閾值的框僧鲁,循環(huán)。
在這個(gè)例子中象泵,就是設(shè)定一個(gè)IOU閾值(比如0.5寞秃,也就是如果兩個(gè)框的重疊面積大于其中一個(gè)框的50%,那么就刪除那個(gè)框)偶惠,然后遍歷所有框春寿,對(duì)剩下的每個(gè)框,遍歷判斷其余框中與他重疊面積大于閾值的忽孽,則刪除绑改。最后剩下的就是不包含重疊部分的文本框了。
def non_max_suppression_fast(boxes, overlapThresh):
# 空數(shù)組檢測
if len(boxes) == 0:
return []
# 將類型轉(zhuǎn)為float
if boxes.dtype.kind == "i":
boxes = boxes.astype("float")
pick = []
# grab the coordinates of the bounding boxes
# 四個(gè)坐標(biāo)數(shù)組
x1 = boxes[:,0]
y1 = boxes[:,1]
x2 = boxes[:,2]
y2 = boxes[:,3]
area = (x2 - x1 + 1) * (y2 - y1 + 1) # 計(jì)算面積數(shù)組
idxs = np.argsort(y2) # 返回的是右下角坐標(biāo)從小到大的索引值
# 開始遍歷刪除重復(fù)的框
while len(idxs) > 0:
# 將最右下方的框放入pick數(shù)組
last = len(idxs) - 1
i = idxs[last]
pick.append(i)
# 找到剩下的其余框中最大的坐標(biāo)x1y1兄一,和最小的坐標(biāo)x2y2,
xx1 = np.maximum(x1[i], x1[idxs[:last]])
yy1 = np.maximum(y1[i], y1[idxs[:last]])
xx2 = np.minimum(x2[i], x2[idxs[:last]])
yy2 = np.minimum(y2[i], y2[idxs[:last]])
# 計(jì)算重疊面積占對(duì)應(yīng)框的比例
w = np.maximum(0, xx2 - xx1 + 1)
h = np.maximum(0, yy2 - yy1 + 1)
overlap = (w * h) / area[idxs[:last]]
# 如果占比大于閾值绢淀,則刪除
idxs = np.delete(idxs, np.concatenate(([last], np.where(overlap > overlapThresh)[0])))
return boxes[pick].astype("int")
pick = non_max_suppression_fast(keep, 0.5)
示意圖如上。
使用NMS算法后瘾腰,就可以去除我們重復(fù)的文本框了,效果如下:
完整代碼如下:
import cv2
import numpy as np
def non_max_suppression_fast(boxes, overlapThresh):
# 空數(shù)組檢測
if len(boxes) == 0:
return []
# 將類型轉(zhuǎn)為float
if boxes.dtype.kind == "i":
boxes = boxes.astype("float")
pick = []
# 四個(gè)坐標(biāo)數(shù)組
x1 = boxes[:,0]
y1 = boxes[:,1]
x2 = boxes[:,2]
y2 = boxes[:,3]
area = (x2 - x1 + 1) * (y2 - y1 + 1) # 計(jì)算面積數(shù)組
idxs = np.argsort(y2) # 返回的是右下角坐標(biāo)從小到大的索引值
# 開始遍歷刪除重復(fù)的框
while len(idxs) > 0:
# 將最右下方的框放入pick數(shù)組
last = len(idxs) - 1
i = idxs[last]
pick.append(i)
# 找到剩下的其余框中最大的坐標(biāo)x1y1覆履,和最小的坐標(biāo)x2y2,
xx1 = np.maximum(x1[i], x1[idxs[:last]])
yy1 = np.maximum(y1[i], y1[idxs[:last]])
xx2 = np.minimum(x2[i], x2[idxs[:last]])
yy2 = np.minimum(y2[i], y2[idxs[:last]])
# 計(jì)算重疊面積占對(duì)應(yīng)框的比例
w = np.maximum(0, xx2 - xx1 + 1)
h = np.maximum(0, yy2 - yy1 + 1)
overlap = (w * h) / area[idxs[:last]]
# 如果占比大于閾值蹋盆,則刪除
idxs = np.delete(idxs, np.concatenate(([last], np.where(overlap > overlapThresh)[0])))
return boxes[pick].astype("int")
img = cv2.imread('1501728414965.png')
vis = img.copy() # 用于繪制矩形框圖
orig = img.copy() # 用于繪制不重疊的矩形框圖
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 得到灰度圖
mser = cv2.MSER_create() # 得到mser算法對(duì)象
regions, _ = mser.detectRegions(gray) # 獲取文本區(qū)域
hulls = [cv2.convexHull(p.reshape(-1, 1, 2)) for p in regions] # 繪制文本區(qū)域
cv2.polylines(img, hulls, 1, (255, 0, 0))
cv2.namedWindow("img",0)
cv2.resizeWindow("img", 800, 640) # 限定顯示圖像的大小
cv2.imshow('img', img)
keep = []
# 繪制目前的矩形文本框
for c in hulls:
x, y, w, h = cv2.boundingRect(c)
keep.append([x, y, x + w, y + h])
cv2.rectangle(vis, (x, y), (x + w, y + h), (255, 255, 0), 1)
print("[x] %d initial bounding boxes" % (len(keep)))
cv2.namedWindow("hulls",0)
cv2.resizeWindow("hulls", 800, 640)
cv2.imshow("hulls", vis)
# 篩選不重復(fù)的矩形框
keep2=np.array(keep)
pick = non_max_suppression_fast(keep2, 0.5)
print("[x] after applying non-maximum, %d bounding boxes" % (len(pick)))
for (startX, startY, endX, endY) in pick:
cv2.rectangle(orig, (startX, startY), (endX, endY), (255, 185, 120), 2)
cv2.namedWindow("After NMS",0)
cv2.resizeWindow("After NMS", 800, 640)
cv2.imshow("After NMS", orig)
cv2.waitKey(0)
cv2.destroyAllWindows()
參考文章:
http://www.reibang.com/p/1b9c275698c9
https://blog.csdn.net/zhaocj/article/details/40742191
https://blog.csdn.net/pandav5/article/details/50997272
https://blog.csdn.net/shuzfan/article/details/52711706