摘要: 近日,阿里安全圖靈實驗室(Alibaba Turing Lab)的ATL Cangjie OCR算法在ICDAR2017的MLT(Competition on Multi-lingual scene text detection)自然場景多語言文本檢測競賽中刷新了世界最好成績吩跋,以73.52%的Hmean排名第一撇叁。
原文地址:http://click.aliyun.com/m/43719/
近日,阿里安全圖靈實驗室(Alibaba Turing Lab)的ATL Cangjie OCR算法在ICDAR2017的MLT(Competition on Multi-lingual scene text detection)自然場景多語言文本檢測競賽中刷新了世界最好成績劲藐,以73.52%的Hmean排名第一八堡。(競賽結果頁面:http://rrc.cvc.uab.es/?ch=8&com=evaluation&task=1)
據了解,ICDAR(International Conference on Document Analysis and Recognition)具有OCR領域的奧斯卡盛會之稱聘芜,是全球OCR領域公認最權威的比賽之一兄渺。
當前,OCR技術被廣泛應用于多個領域汰现。從名片挂谍、發(fā)票、銀行卡等票據的數字化到室外街道商店索引瞎饲,路標路牌識別口叙;再到圖片、視頻文字內容理解與內容安全嗅战,OCR技術都發(fā)揮著越來越重要的作用妄田。
阿里安全圖靈實驗室研究人員稱,在技術上驮捍,文本檢測和識別需要應付各種考驗和挑戰(zhàn)疟呐,如自然場景下光照的影響,物體的遮擋东且,文字大小启具、比例、角度的變化珊泳,圖像視頻中文字的模糊等等鲁冯。ICDAR2017 MLT競賽包含了中、日色查、韓薯演、拉丁(英综慎、法涣仿、德、意)、阿拉伯和孟加拉等9種語言好港,其圖像采集自各種各樣的場景愉镰,其中的文本的長度、字體钧汹、尺寸丈探、顏色千變萬化,同時還包含了許多真實場景的噪聲包括光照拔莱、遮擋碗降、傾斜、文字堆疊塘秦、文字鑲嵌讼渊、透視變化等等,這對于OCR算法的適應能力更具挑戰(zhàn)性尊剔。
為攻克這些難題爪幻,阿里安全圖靈實驗室的研究人員設計了基于深度學習的網絡模型和算法。
據介紹须误,圖靈實驗室的研究人員在文字檢測模型方面挨稿,采用深度卷積神經網絡獲得更深層的圖像特征;并利用多尺度特征和非對稱卷積核獲得更好的感受視野京痢,從而適應各種環(huán)境奶甘,各種大小、比例祭椰、角度的文字臭家。此外,由于框架采用創(chuàng)新性的檢測策略吭产,因此相較于傳統(tǒng)的RCNN-based方案侣监,在檢測速度上有很大提升鸭轮。在文字識別模型臣淤,圖靈實驗室的研究人員在主流方案的基礎上,做了全新的探索和研究窃爷,從而獲得了更為有效的識別模型邑蒋,在保證識別準確率的前提下,提高了識別效率按厘。
阿里安全圖靈實驗室研究人員表示医吊,ATL Cangjie OCR提供在線同步、異步通用OCR文字檢測和識別服務逮京,以及離線ODPS服務卿堂,為圖片文字內容理解與內容安全提供強有力的技術支撐。該模型已經全面支撐阿里生態(tài)中的商品內容安全、業(yè)務安全草描、平臺治理览绿、評價、交互穗慕、認證等多個業(yè)務場景饿敲,同時,還通過阿里云盾-內容安全(綠網)產品逛绵,輸出給第三方客戶使用怀各。
目前,ATL Cangjie OCR服務日均調用量幾億次术浪,可為客戶提供穩(wěn)定的技術保障瓢对。
識別以下二維碼,閱讀更多干貨?