比如硬耍,在看類似上面的掃描版 PDF 時垄琐,想要復(fù)制其中的文字,怎么辦经柴?手打狸窘?太累。試試我新開發(fā)的工具 iText 吧坯认。
iText 是 macOS 平臺的 OCR 工具翻擒,自帶截圖功能,選擇屏幕任意區(qū)域牛哺,即可識別其中的文字陋气,又爽又酷。
識別后的文字已經(jīng)復(fù)制到系統(tǒng)剪貼板引润,直接粘貼即可恩伺。
配合 ??1
快捷鍵,使用體驗更佳椰拒。當(dāng)然,你也可以選擇圖片文件凰荚,或者將圖片拖拽至 iText 的菜單欄圖標(biāo)進(jìn)行識別燃观。
文字識別精準(zhǔn)
你有沒有這種印象:OCR 識別出來的文字有很多問題,還不如自己打字來得快便瑟±禄伲可見,識別的準(zhǔn)確性非常重要到涂,也是我非常在意的一點脊框。
騰訊、Google 雙引擎
首先践啄,我排除了離線的識別庫浇雹,因為離線注定了這些庫的識別能力是死的,不會自己增強屿讽。接下來昭灵,在一票在線 OCR 服務(wù)中,我對比了百度、騰訊烂完、微軟试疙、Google 等大廠的產(chǎn)品,最后選擇了國內(nèi)使用騰訊抠蚣、國外使用 Google 的組合祝旷。判斷依據(jù)是什么?少量測試 + 主觀傾向嘶窄,比如不測我就覺得 Google 比微軟牛怀跛。
那么,到底識別準(zhǔn)不準(zhǔn)呢护侮?這么說吧:
- 對于一般的自然語言敌完,比如書中的一段話、新聞稿羊初,識別效果是驚人的準(zhǔn)確滨溉,甚至可以達(dá)到 100%
-
對于排版復(fù)雜、尤其有特殊字符的文字长赞,比如程序代碼晦攒、選擇題,識別效果就不太理想得哆,需要手動對識別后的結(jié)果進(jìn)行修正
- 比如脯颜,單純地給一個豎線,機器是無法區(qū)分到底是小寫的 l贩据、還是大寫的 I(順便問一下栋操,你看出二者的區(qū)別了嗎?)饱亮;與之相對矾芙,機器是需要根據(jù)上下文進(jìn)行判斷和優(yōu)化的。而像程序代碼這種非自然語言近上,機器目前是很難進(jìn)行語義識別的
到底準(zhǔn)不準(zhǔn)剔宪?你不妨一試。
獨創(chuàng)算法壹无,進(jìn)一步優(yōu)化識別結(jié)果
OCR 服務(wù)還有一些欠缺葱绒,iText 針對性地做了這些優(yōu)化:
- 自動識別段落
- 中文環(huán)境使用全角標(biāo)點符號
- 中文與英文字母、數(shù)字間增加空格
- 刪除中文字符間斗锭、英文字符與標(biāo)點符號間的多余空格
- 英文首字母大寫
如果你發(fā)現(xiàn)識別不好的地方地淀,歡迎把圖發(fā)給我,我會相應(yīng)地優(yōu)化算法岖是,畢竟算法是需要數(shù)據(jù)喂養(yǎng)的骚秦,先謝她倘。
預(yù)覽原圖,方便校對
在目前 OCR 技術(shù)不能始終達(dá)到 100% 的情況下作箍,預(yù)覽原圖硬梁、并進(jìn)行修正,還是有必要的胞得。在 iText 中荧止,你可以這樣:
- 將識別后的窗口拖到圖片附近
- 調(diào)用 iText 識別結(jié)果的 雙欄模式:左側(cè)展示圖片、右側(cè)展示識別后的文字
這樣阶剑,就可以很方便地對照原圖進(jìn)行手動優(yōu)化識別后的文字跃巡。
下載與付費
其實,很多場景都會用到 iText牧愁,比如 識別快遞單上的號碼素邪、圖片中的聯(lián)系人信息、需要登錄才能復(fù)制的網(wǎng)頁 等等猪半,歡迎 下載 iText 試試兔朦。
每月可免費識別 20 次,訂閱 iText 高級版即可無限次識別磨确。首發(fā)期間沽甥,高級版限時 6 折優(yōu)惠:¥3/月、¥30/年乏奥。關(guān)于收費模式摆舟,我很是糾結(jié)了一番。如果你準(zhǔn)備吐槽邓了,請先看下這篇文章:再次糾結(jié)付費模式恨诱,這次是 iText
如果你覺得 iText 還不錯,還請幫忙 在 App Store 評論骗炉;如果你覺得 iText 還可以改進(jìn)照宝,歡迎:
- 在這里留言討論
- 加入 Telegram 群
- 微信加小號入群:it_guwen