OCR,全名為Optical Character Recognition目锭,是指對文本資料的圖像文件進(jìn)行分析識別處理湃鹊,獲取文字及版面信息的過程。
識別的過程大致可以分為這些過程:圖像的預(yù)處理(二值化供汛、噪聲去除、傾斜校正)涌穆,字符的切割(如識別各種文字)怔昨、字符的識別。
本文就來總結(jié)一下OCR箱體邊框識別的一些心得宿稀。采用傳統(tǒng)的python+opencv方法趁舀。
1 預(yù)處理
由于拍的照片有光線的干擾,并且拍攝箱體的表面有很多顆粒祝沸,并不是很光滑矮烹,所以圖像處理的第一步便是預(yù)處理越庇。
1.1 均值漂移(MeanShift)
這個(gè)方法將圖像的特征空間視為先驗(yàn)概率密度函數(shù),輸入被視作滿足某種概率分布的樣本點(diǎn)奉狈,這樣圖像中數(shù)據(jù)最密集的地方卤唉,對應(yīng)于密度最大的地方,概率密度的質(zhì)心被視作概率密度函數(shù)的局部最優(yōu)值仁期,也就是聚類的中心桑驱,對于每一個(gè)樣本點(diǎn),計(jì)算以它為中心的某個(gè)范圍內(nèi)所有樣本點(diǎn)的均值跛蛋,作為新的中心(這就是shift既中心的移動(dòng))熬的,移動(dòng)直至收斂。這樣每一輪迭代赊级,中心都會(huì)向數(shù)據(jù)更密集的地方移動(dòng)押框,直到最后穩(wěn)定收斂到樣本的“質(zhì)心”。用這個(gè)方法此衅,可以使得圖像變得更加平滑强戴。在python中,實(shí)現(xiàn)的代碼如下:
第一個(gè)參數(shù)是source image挡鞍,第二個(gè)參數(shù)dst,輸出圖像预烙,跟輸入src有同樣的大小和數(shù)據(jù)格式墨微,第三個(gè)參數(shù)sp,定義的漂移物理空間半徑大小扁掸,第四個(gè)參數(shù)sr翘县,定義的漂移色彩空間半徑大小,第五個(gè)參數(shù)maxLevel谴分,定義金字塔的最大層數(shù)锈麸,第六個(gè)參數(shù)termcrit,定義的漂移迭代終止條件牺蹄,可以設(shè)置為迭代次數(shù)滿足終止忘伞,迭代目標(biāo)與中心點(diǎn)偏差滿足終止,或者兩者的結(jié)合沙兰。在這里物理空間半徑為25氓奈,色彩空間半徑為10。
1.2 圖像的灰度歸一化
由于光照對圖像的影響依然很大鼎天,這有可能會(huì)影響接下去的圖像二值化的效果舀奶。歸一化可以通過一系列變換消除其他變換函數(shù)對圖像變換的影響,也就是轉(zhuǎn)換成唯一標(biāo)準(zhǔn)的形式斋射,這里為了使灰度圖的像素值分布能夠比較均勻育勺,找到像素的最大值和最小值但荤,然后將所有的像素值拉成0-255之間的像素值,即圖像灰度歸一化涧至。
1.3 直方圖均值化
opencv 里有個(gè)函數(shù)是cv2.equalizeHist,在某些情況下腹躁,一副圖像中大部分像素的強(qiáng)度都集中在某一區(qū)域,而質(zhì)量較高的圖像中化借,像素的強(qiáng)度應(yīng)該均衡的分布潜慎。為此,可將表示像素強(qiáng)度的直方圖進(jìn)行拉伸蓖康,將其平坦化铐炫。
2 圖像的二值化
opencv里面有很多二值化的方法,這里比較簡單的方法是對灰度圖的像素值進(jìn)行遍歷蒜焊,設(shè)置一個(gè)閾值倒信,若大于該閾值且小于255,則設(shè)為0(黑色)泳梆。
3 識別檢測(檢測矩形和直線)
在計(jì)算機(jī)視覺中鳖悠,輪廓檢測能夠檢測出我們感興趣的區(qū)域,如:計(jì)算多邊形的邊界优妙、形狀逼近和計(jì)算感興趣的區(qū)域乘综。這里,對于圖像中的標(biāo)簽區(qū)域套硼,我的思路是先檢測圖像中的所有輪廓卡辰,然后對于輪廓內(nèi)的所有面積,計(jì)算面積的大小和夾角(因?yàn)檫@里標(biāo)簽的形狀近似為一個(gè)矩形)邪意。
3.1 檢測矩形
在opencv中有個(gè)方法九妈,叫cv2.findContours,
第一個(gè)參數(shù)是尋找輪廓的圖像雾鬼;
第二個(gè)參數(shù)表示輪廓的檢索模式萌朱,有四種(本文介紹的都是新的cv2接口):
cv2.RETR_EXTERNAL表示只檢測外輪廓
cv2.RETR_LIST檢測的輪廓不建立等級關(guān)系
cv2.RETR_CCOMP建立兩個(gè)等級的輪廓,上面的一層為外邊界策菜,里面的一層為內(nèi)孔的邊界信息晶疼。如果內(nèi)孔內(nèi)還有一個(gè)連通物體,這個(gè)物體的邊界也在頂層做入。
cv2.RETR_TREE建立一個(gè)等級樹結(jié)構(gòu)的輪廓冒晰。
第三個(gè)參數(shù)method為輪廓的近似辦法
cv2.CHAIN_APPROX_NONE存儲所有的輪廓點(diǎn),相鄰的兩個(gè)點(diǎn)的像素位置差不超過1竟块,即max(abs(x1-x2)壶运,abs(y2-y1))==1
cv2.CHAIN_APPROX_SIMPLE壓縮水平方向,垂直方向浪秘,對角線方向的元素蒋情,只保留該方向的終點(diǎn)坐標(biāo)埠况,例如一個(gè)矩形輪廓只需4個(gè)點(diǎn)來保存輪廓信息
cv2.CHAIN_APPROX_TC89_L1,CV_CHAIN_APPROX_TC89_KCOS使用teh-Chinl chain 近似算法.
返回值contour為所有輪廓的集合棵癣,hierarchy包含輪廓的屬性辕翰。這里我采用cv2.contourArea,還有cv2.boundingRect找邊框特別好用狈谊。
3.2 檢測直線
最直接的方法是霍夫曼直線檢測喜命,在圖像預(yù)處理之后,個(gè)人覺得cv2.HoughLinesP比cv2.HoughLines更加好用河劝,采用投票的方式檢測出所有投票最高的直線壁榕,由于生成的直線比較多,所以還得做一個(gè)直線擬合赎瞎,最終得到一條直線牌里。
結(jié)果: