easyocr和paddleocr的簡(jiǎn)單使用與對(duì)比

這次有個(gè)OCR的需求后频，對(duì)比了一下easyocr和paddleocr的識(shí)別效果坷剧，最終選擇了paddleocr脑沿。

這里記錄一下使用過(guò)程和遇到的問(wèn)題颈将。

easyocr

github地址

安裝

使用easyocr前麻诀，需要先安裝torch和torchvision

如果使用GPU的話鳖轰，還需要先安裝CUDA（安裝方式自行百度）

CUDA和pytorch安裝好后话速，再pip install easyocr

簡(jiǎn)單使用

import easyocr
image = r"D:\tmp\test\1.PNG"
reader = easyocr.Reader(['ch_sim', 'en'])
result = reader.readtext(image, detail=0)
print(result)

遇到的問(wèn)題

安裝torch的時(shí)候洒宝，使用conda安裝比pip安裝购公，快了不知道多少倍！Ｑ愀琛宏浩！一開(kāi)始使用pip安裝等得花兒都謝了
對(duì)比了一下，同一張圖片靠瞎，使用GPU的識(shí)別速度比使用CPU快2.4倍左右
如果報(bào)錯(cuò)ImportError: cannot import name 'model_urls' from 'torchvision.models.vgg'比庄，那就是easyocr和torchvision的版本差異問(wèn)題（我當(dāng)時(shí)使用的版本：easyocr=1.7.1，torch=2.2.1乏盐，torchvision=0.17.1)
如果報(bào)錯(cuò)can't open/read file: check file path/integrity....AttributeError: 'NoneType' object has no attribute 'shape'那就是圖片路徑出現(xiàn)中文了佳窑，不要有中文路徑

圖片越大，OCR耗時(shí)越長(zhǎng)父能，如果你只需要識(shí)別圖片特定部分神凑，可以先把圖片裁剪了，減少識(shí)別區(qū)域法竞，加快OCR識(shí)別速度（我當(dāng)時(shí)的需求耙厚，只需要識(shí)別圖片上半部分强挫，于是就將上半張圖片另存為新圖。識(shí)別半張圖比完整圖快2.6倍）

將上半張圖另存為新圖的代碼：

def split_image_vertically_get_upper_part(image_path) -> str:
    # 將圖片分為上下2半薛躬，將上半張圖片保存為新文件俯渤，并返回路徑
    img = Image.open(image_path)
    width, height = img.size
    split_point_y = height // 2
    top_img = img.crop((0, 0, width, split_point_y))
    # 保存上半部分圖片 保存到同級(jí)目錄
    dir_path, filename_with_suffix = os.path.split(image_path)
    filename, suffix = os.path.splitext(filename_with_suffix)
    new_path = os.path.join(dir_path, f'{filename}_top{suffix}')
    top_img.save(new_path)
    return new_path

使用效果

英文圖片識(shí)別：

中文圖片識(shí)別：

目前看起來(lái)一切正常，挺滿意的型宝。但是八匠，一旦圖片變大一點(diǎn)，字體變小一點(diǎn)趴酣，中文識(shí)別就有問(wèn)題了（大圖小字英文圖片我沒(méi)試過(guò)）梨树。下圖是這次要識(shí)別的圖片，圖大字小岖寞，為了數(shù)據(jù)脫敏抡四，只截取了幾個(gè)片段：

沒(méi)辦法，只能換一個(gè)OCR庫(kù)仗谆，于是轉(zhuǎn)向了paddleocr

paddleocr

github地址

安裝

使用paddleocr指巡，需要先安裝paddlepaddle：
如果使用GPU 也需要先安裝CUDA（安裝方式見(jiàn)上文），然后pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple
如果使用CPU：pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
再pip install "paddleocr>=2.0.1"

遇到的問(wèn)題

我目前使用的版本：paddleocr=2.7.0.3隶垮， paddlepaddle-gpu=2.6.0藻雪。貌似這倆對(duì)CUDA的版本要求是<=11，而我在上面體驗(yàn)easyocr到時(shí)候已經(jīng)安裝了最新版的12.2狸吞，真是造化弄人啊勉耀。我不想卸載CUDA重新安裝，太麻煩了蹋偏，先直接運(yùn)行看看能不能跑

結(jié)果一堆報(bào)錯(cuò)便斥，說(shuō)缺少動(dòng)態(tài)連接文件，比如Could not locate cudnn_cnn_infer64_8.dll. Please make sure it is in your library path!

這種版本不匹配的情況暖侨，通常只能推倒重來(lái)椭住，但我使用了另一種偏方：
我用everything搜索缺的那個(gè)動(dòng)態(tài)鏈接庫(kù)cudnn_cnn_infer64_8.dll，結(jié)果在上面easyocr的環(huán)境中找到了笑哭.gif字逗。于是它報(bào)缺什么dll京郑，我就從anaconda\envs\torchocr2\Lib\site-packages\torch\lib easyocr的虛擬環(huán)境中找到復(fù)制到anaconda\envs\paddle_env\Lib\site-packages\paddle\libs 中去

最后還報(bào)了卻一個(gè)cublas64_11.dll 但是我只在CUDA的安裝目錄C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2\bin 中找到了cublas64_12.dll ，但是版本不匹配呀葫掉，怎么搞些举？我又用了個(gè)偏方把cublas64_12.dll 復(fù)制到anaconda\envs\paddle_env\Lib\site-packages\paddle\libs 把12改成11，騙一下它俭厚，看看行不行户魏，結(jié)果還真騙過(guò)去了再次笑哭.gif

簡(jiǎn)單使用

from paddleocr import PaddleOCR

image2 = r"D:\tmp\test\1.PNG"
ocr = PaddleOCR(use_angle_cls=False, lang="ch")
result = ocr.ocr(image2, cls=False)
content_list=[]
for idx in range(len(result)):
    res = result[idx]
    for line in res:
        content_list.append(line[-1][0])
content=''.join(content_list)
print(content)

使用效果

很好，超出預(yù)期，上面easyocr未識(shí)別出來(lái)的叼丑，paddleocr全部識(shí)別出來(lái)了关翎，中文OCR還得是國(guó)產(chǎn)強(qiáng)。
我那大圖小字的圖片不好脫敏鸠信，就不貼圖了纵寝。
唯一的缺點(diǎn)就是 i j l 0 o 這些識(shí)別可能不準(zhǔn)確。但是情有可原星立，已經(jīng)非常棒了爽茴。

2個(gè)OCR庫(kù)該有的功能都有,比如識(shí)別出的文字坐標(biāo), 準(zhǔn)確率等.本文只是基于我的需求,測(cè)了文字提取,更多其他功能,各位自行去查閱官方文檔

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市绰垂，隨后出現(xiàn)的幾起案子室奏，更是在濱河造成了極大的恐慌，老刑警劉巖劲装，帶你破解...
沈念sama閱讀 212,884評(píng)論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件胧沫，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡占业，警方通過(guò)查閱死者的電腦和手機(jī)琳袄，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,755評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)纺酸，“玉大人，你說(shuō)我怎么就攤上這事址否〔褪撸” “怎么了？”我有些...
開(kāi)封第一講書人閱讀 158,369評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵佑附，是天一觀的道長(zhǎng)樊诺。經(jīng)常有香客問(wèn)我，道長(zhǎng)音同，這世上最難降的妖魔是什么词爬？我笑而不...
開(kāi)封第一講書人閱讀 56,799評(píng)論 1贊 285
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮权均，結(jié)果婚禮上顿膨，老公的妹妹穿的比我還像新娘。我一直安慰自己叽赊，他們只是感情好恋沃，可當(dāng)我...
茶點(diǎn)故事閱讀 65,910評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著必指，像睡著了一般囊咏。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 50,096評(píng)論 1贊 291
城市分裂傳說(shuō)
那天梅割，我揣著相機(jī)與錄音霜第，去河邊找鬼。笑死户辞，一個(gè)胖子當(dāng)著我的面吹牛泌类，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播咆课，決...
沈念sama閱讀 39,159評(píng)論 3贊 411
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼末誓，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了书蚪？” 一聲冷哼從身側(cè)響起喇澡，我...
開(kāi)封第一講書人閱讀 37,917評(píng)論 0贊 268
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎殊校，沒(méi)想到半個(gè)月后晴玖，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,360評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡为流，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,673評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年呕屎，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片敬察。...
茶點(diǎn)故事閱讀 38,814評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡秀睛，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出莲祸，到底是詐尸還是另有隱情蹂安，我是刑警寧澤，帶...
沈念sama閱讀 34,509評(píng)論 4贊 334
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布锐帜，位于F島的核電站田盈，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏缴阎。R本人自食惡果不足惜允瞧，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,156評(píng)論 3贊 317
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望蛮拔。院中可真熱鬧述暂，春花似錦、人聲如沸语泽。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 30,882評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)踱卵。三九已至廊驼，卻和暖如春据过，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背妒挎。一陣腳步聲響...
開(kāi)封第一講書人閱讀 32,123評(píng)論 1贊 267
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工绳锅，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人酝掩。一個(gè)月前我還...
沈念sama閱讀 46,641評(píng)論 2贊 362
代替公主和親
正文我出身青樓鳞芙，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親期虾。傳聞我的和親對(duì)象是個(gè)殘疾皇子原朝，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,728評(píng)論 2贊 351

easyocr和paddleocr的簡(jiǎn)單使用與對(duì)比

easyocr

安裝

簡(jiǎn)單使用

遇到的問(wèn)題

使用效果

paddleocr

安裝

遇到的問(wèn)題

簡(jiǎn)單使用

使用效果

推薦閱讀更多精彩內(nèi)容