CV學習筆記(二十三):發(fā)票類OCR識別

在基本完成了銀行卡識別之后,開始新的任務:發(fā)票類OCR識別画侣。發(fā)票類OCR識別一直以來也是OCR之中的熱點祥绞,包括證件類識別等等,后續(xù)都要一步步來段誊。

一:發(fā)票格式解析

現(xiàn)在隨著無紙化辦公的推行,電子發(fā)票的使用率越來越多栈拖,紙質發(fā)票的數(shù)量越來越少连舍,一般來說,我們現(xiàn)在的發(fā)票分為三大類:

①:增值稅電子普通發(fā)票 ②:增值稅普通發(fā)票 ③:增值稅專用發(fā)票

現(xiàn)在以我在京東購物的發(fā)票為例:

發(fā)票的尺寸為24*14cm,都是比較規(guī)范的標準涩哟。

二:發(fā)票識別分析

我們識別一張發(fā)票索赏,我們一定是想從當中查詢到那些信息盼玄,那些信息有用我們著重識別,那些信息沒用我們可以暫且放在一邊潜腻。在國家稅務總局全國增值稅查驗平臺上埃儿,我們來驗證一張發(fā)票是否合法,著重要注意四項:

①發(fā)票代碼融涣,②:發(fā)票號碼童番,③:開票日期,④開票金額

只要找到這四項威鹿,基本上一張發(fā)票的利用價值就結束了剃斧。

那問題來了,如何找到這四項专普,現(xiàn)在有兩個思路:

第一種,識別發(fā)票二維碼弹沽。第二種檀夹,直接全局識別發(fā)票內(nèi)容(最全,也是最麻煩)

當然策橘,為了保證代碼的有效性炸渡,這兩種我們肯定都得做。

第一種:識別發(fā)票二維碼

識別左上角的二維碼丽已,二維碼中包含發(fā)票里面大部分有用信息蚌堵,并且識別的結果基本上無誤差。我寫了個小代碼識別了一下:

01,10,011002000111,31015945,251.77,20200407,68212483303223031362,A6CA,

這里邊的信息需要說一下:

發(fā)票二維碼中一共有8個屬性:

以我識別出來的為例:

其中第二項:不同的代碼表示的發(fā)票類型不一樣

10表示的是增值稅電子發(fā)票沛婴, 04表示的增值稅普通發(fā)票(紙票)吼畏,01表示增值稅專用發(fā)票

微信識別結果:

但是二維碼識別的問題在于,如果上傳的都是電子版截圖嘁灯,效果很不錯泻蚊,很好識別,但是如果上傳的是拍照的紙質發(fā)票丑婿,這種識別方法需要做一些圖像處理后再去識別性雄,并且很多情況下識別二維碼是無效的。這是需要改進的地方羹奉。使用pyzbar

識別的成功率在65%左右秒旋。

第二種:OpenCV+神經(jīng)網(wǎng)絡

第二種方法使用的方法和之前識別銀行卡的架構很相似,但是處理起來會更麻煩诀拭,原因有幾點:

①:銀行卡只需要識別卡號迁筛,而發(fā)票信息需要定位更多地方

②:需要標注數(shù)據(jù)量很多,人力要求高

初步思路:

讀入圖片-> 邊緣檢測->二值化->輪廓檢測->篩選結果融合->定位->數(shù)據(jù)集制作->模型訓練->識別

先慢慢進行耕挨,一點點摸索吧~

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末瑰煎,一起剝皮案震驚了整個濱河市铺然,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌酒甸,老刑警劉巖魄健,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異插勤,居然都是意外死亡沽瘦,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進店門农尖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來析恋,“玉大人,你說我怎么就攤上這事盛卡≈恚” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵滑沧,是天一觀的道長并村。 經(jīng)常有香客問我,道長滓技,這世上最難降的妖魔是什么哩牍? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮令漂,結果婚禮上膝昆,老公的妹妹穿的比我還像新娘。我一直安慰自己叠必,他們只是感情好荚孵,可當我...
    茶點故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著纬朝,像睡著了一般处窥。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上玄组,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天滔驾,我揣著相機與錄音,去河邊找鬼俄讹。 笑死哆致,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的患膛。 我是一名探鬼主播摊阀,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了胞此?” 一聲冷哼從身側響起臣咖,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎漱牵,沒想到半個月后夺蛇,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡酣胀,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年刁赦,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片闻镶。...
    茶點故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡甚脉,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出铆农,到底是詐尸還是另有隱情牺氨,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布墩剖,位于F島的核電站猴凹,受9級特大地震影響,放射性物質發(fā)生泄漏涛碑。R本人自食惡果不足惜精堕,卻給世界環(huán)境...
    茶點故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一孵淘、第九天 我趴在偏房一處隱蔽的房頂上張望蒲障。 院中可真熱鬧,春花似錦瘫证、人聲如沸揉阎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽毙籽。三九已至,卻和暖如春毡庆,著一層夾襖步出監(jiān)牢的瞬間坑赡,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工么抗, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留毅否,地道東北人。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓蝇刀,卻偏偏與公主長得像螟加,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,700評論 2 354