爬蟲遇到了驗證碼無法識別舌劳?
PDF 里的掃描文檔讓你無從下手帚湘?
公司的有 OCR 需求但又不想花錢?
寫論文就想 抄參考 一段甚淡,但文庫下載都要收費大诸?
不用擔(dān)心這些了捅厂!
來吧朋友,這款適合人類食用的離線中文 OCR 項目解決你所有的煩惱资柔!
今天的主角就是這款在 github 上開源的項目:TrWebOCR
介紹
項目是基于開源離線 OCR 項目 Tr構(gòu)建的焙贷,
解決了 Tr 不支持并發(fā)的問題,
并且提供了 web 頁面和 web 接口可使用贿堰,
因此無論是日常的使用還是其他項目調(diào)用也都十分的方便辙芍。
效果
明人不說暗話,是騾子是馬拉出來遛遛就知道了羹与!
下面是可能比較常用的兩個場景:文檔和驗證碼的識別故硅。
文檔識別的置信度基本在 99%,驗證碼識別出的置信度也在 72%以上纵搁。
這極簡的界面吃衅,
超高的識別率,
強大的功能腾誉,
你心動了嗎徘层?
如何安裝
再優(yōu)秀的東西,
如果安裝就得花上半天利职,
那也足以勸退很多人趣效,
因此,
它的部署起來是極其容易的眼耀。
即使你想在自己的 Windows 或 MacOS 上部署也沒有問題英支,
通過 Docker 就可以完美解決~
在 Linux 服務(wù)器部署
在服務(wù)器上部署只需要 3 步:
- 安裝 python3.7
推薦使用 miniconda )
- 執(zhí)行 install.py
python install.py
- 安裝依賴包
pip install -r requirements.txt
搞定!
運行 main.py后哮伟,
web 服務(wù)默認(rèn)運行在 8089 端口干花,
看到以下輸出就代表運行成功了:
$ python backend/main.py
> tr 1.5.0 https://github.com/myhub/tr
> server is running: 0.0.0.0:8089
如果有報錯,可以參考項目的 wiki 來解決
在 Docker 部署
在 Docker 上部署就更加簡單了楞黄,
該方法適合非 Linux 的用戶池凄,
或者對環(huán)境有潔癖的用戶。
項目提供了 Dockerfile
鬼廓,
只需要簡單的build
, run
就可以運行了肿仑!
- 編譯 Dockerfile
$ docker build -t TrWebOCR:latest .
- 運行一個容器
$ docker run -itd -p 8089:8089 --name trweb trweb-ocr:latest /bin/bash
這里把容器的 8089 端口映射到了物理機的 8089 上,
但如果你不喜歡映射碎税,
去掉 run 后面的 -p 8089:8089
尤慰,
就可以通過 Docker 容器的 ip 來訪問了。
配置的要求
最后一點雷蹂,也是最重要的一點伟端。
該項目不需要太高的配置!7嘶汀责蝠!
一個 1 核 2G的機器就能夠跑得起來了党巾!
但如果你的項目對并發(fā)的要求比較高的話,
還是得上高配置一點的機器~