故事的開始:
? ? ? ?某年的一個暑期,初戀在學(xué)校找了個兼職完域,內(nèi)容是把圖書館中舊一點(diǎn)的書籍打字錄到電腦嘱朽。她高興的和我說打千字可以給七八塊錢旭贬,如果她一天不動的話,可以打幾萬字搪泳,這樣就是兩百了稀轨,打十天就有多少多少了......
? ? ? ?她算著算著,晃了晃可愛的丸子頭岸军,把我的心也晃的生疼奋刽,我知道夏天坐幾個小時的不好受,就和她說:“我回去幫你找找把掃描的文字自動提取出來的軟件艰赞,這樣你也可以輕松些(我當(dāng)時都還不知道OCR這個詞)杨名。” 她對我的回答沒有放在心上猖毫,也沒有太大的反應(yīng)台谍。
? ? ? ?回實(shí)驗(yàn)室之后,產(chǎn)生的一點(diǎn)雄心壯志吁断,被新的煩心事迅速所泯滅趁蕊。直到再一次見面后,她開心的和我說這幾天賺了多少錢后仔役,我終于舍得強(qiáng)迫自己去嘗試一個從來沒有碰過的技術(shù)了掷伙。
? ? ? 故事的結(jié)局并沒有一點(diǎn)點(diǎn)甜蜜,而是我在找了github后又兵,發(fā)現(xiàn)沒有一個我可以立馬上手的實(shí)現(xiàn)任柜,查到的僅有的一個靠譜的百度實(shí)現(xiàn),好像也關(guān)停了沛厨。于是我默默的關(guān)掉了瀏覽器宙地,把這件事拋到腦后,安慰自己:我又沒有接觸過逆皮,而且實(shí)驗(yàn)室還有那么多東西要忙宅粥,大不了給她多買些禮物賠償賠償。
? ? ? ? 她當(dāng)然不會責(zé)怪我什么电谣,也是過了兩個星期后她才和我說秽梅,圖書館派給她的活已經(jīng)做完了。我也小松了口氣剿牺,可以不用考慮實(shí)現(xiàn)的問題了企垦。
......
? ? ? ?昨天我在清除電腦存儲的時候,意外的找到了我們玩gopro時拍的唯一一段視頻晒来,視頻里面沒有我和她的圖像钞诡,這讓我慶幸而又失望,不過在把聲音調(diào)到最大后,我還是聽到了曾經(jīng)最熟悉的聲音臭增。過去的記憶再也壓制不住,洶涌而來竹习。輾轉(zhuǎn)反側(cè)誊抛,難以入眠,故而想到“打字”的故事整陌,于半夜中搜索項(xiàng)目拗窃,調(diào)試代碼,寫下此文泌辫。
一.十分鐘快速實(shí)(跑)現(xiàn)(通)中文OCR
tesseract?随夸,然后按照README.md來就行了(摔,你這不是廢話嗎U鸱拧)好吧宾毒,我還是接著寫寫我的過程,可以連README.md都不用看了(Mac OSX系統(tǒng))殿遂。
1.1從源碼編譯
先裝依賴(brew 好久沒有update的诈铛,可以先更新一下)直接復(fù)制到終端,已經(jīng)裝過的自然會跳過去墨礁,因?yàn)榫W(wǎng)絡(luò)問題而中斷的自然要先想辦法解決網(wǎng)問題:
brew install automake autoconf autoconf-archive libtool
brew install pkgconfig
brew install icu4c
brew install leptonica
brew install gcc
再下源碼編譯:
git clone https://github.com/tesseract-ocr/tesseract/
cd tesseract
./autogen.sh
./configure CC=gcc-6 CXX=g++-6 CPPFLAGS=-I/usr/local/opt/icu4c/include LDFLAGS=-L/usr/local/opt/icu4c/lib
make -j
sudo make install #if desired
make training
后面兩行我畫斜杠幢竹,是因?yàn)槲覜]install(實(shí)際上就是各種移動文件的過程,順便定義一個命令)恩静,我也沒有訓(xùn)練(我覺得那要耗時很久焕毫,也沒試。)
可執(zhí)行文件調(diào)用就是進(jìn)入tesseract文件夾后:
./api/tesseract
執(zhí)行一下會出現(xiàn)一頁的命令提示信息驶乾,這說明編譯的至少沒有問題了(我中間出過錯誤邑飒,執(zhí)行了brew update 就可以了。)
接下來需要下載訓(xùn)練好的字符數(shù)據(jù):字符數(shù)據(jù)级乐,這是一百多種語言訓(xùn)練好的數(shù)據(jù)幸乒。
接下來可以執(zhí)行命令:
./api/tesseract ./testing/phototest.tif ./testing/out
這時候如果報(bào)錯:
Error opening data file /usr/local/share/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
那是因?yàn)橛?xùn)練庫的路徑?jīng)]有給,從提示上看要么把剛剛下載的的字符數(shù)據(jù)包移動到第一行的指定文件夾中唇牧,要么確定TESSDATA_PREFIX這個環(huán)境變量罕扎,我選擇的是后者。
具體過程:
vim ~/.bash_profile
添加:
export TESSDATA_PREFIX="剛剛下載的字符數(shù)據(jù)的文件夾路徑"
我是直接放在已有的/tesseract/tessdata中丐重。
source ~/.bash_profile
這樣一切都配好啦~
重復(fù)剛剛失敗的執(zhí)行命令腔召,就可以有英文的結(jié)果了。
1.2 不自己源碼編譯扮惦。
brew install tesseract
一句臀蛛,然后等就行了,GOOGLE做事當(dāng)然是這樣啦~呵呵噠。
下面放個識別英文網(wǎng)頁截圖的效果。
識別結(jié)果:
iStat Menus — Bjango
https://bjango.com/mac/istatmenus/ v
Weather with current temperature, hourly forecast, weekly overview and so much more. A compact?
Notification Center widget, covering some of the popular iStat ...
iStat Menus version history : Apps : Help : Contact
iStat View for iOS — Bjango
https://bjango.com/ios/istat/ v
iStat View is a highly detailed remote monitoring app, letting you check the vital stats for Macs, PCs and
servers from anywhere in the world.
Istat. it
www.istat.iten/ v
The National Institute for Statistics (Istat) is the main supplier of official statistical information in Italy. It
collects and produces information on Italian economy and ...
About Istat — Dati ISTAT : Labour and wages : Databases
About Italian National Institute of Statistics — Istat
https://www.istat.iten/about—istat v
The history of Istat starts in 1926, when the Central Institute of Statistics was created under law n. 1162:
the idea of statistics as a tool for understanding ...
i—STAT Handheld Blood Analyzer | Abbott Point of Care
https://www.pointofcare.abbott/us/en/offerings/istat/istat—handheld x
i—STAT Advanced Quality Features and STATNotes also help integrate test results into your facility‘s
software. istat—system—integration—lis—emr.jpg ...
National Institute of Statistics (Italy) — Wikipedia
https://en.wikipedia.org/wiki/National_ Institute_of_Statistics_(Italy) v
The Italian National Institute of Statistics is the main producer of official statistics in Italy. Its activities
include the census of population, economic censuses and a number of social, economic and
environmental surveys and analyses. Istat is by far the largest producer of statistical information in Italy,
and is an ...
我掃了一下浊仆,除了個小三角符號識別成了“V”客峭,其他好像沒有錯誤。
中文(簡體)的執(zhí)行命令:
./api/tesseract? 待識別文件? 輸出文本 -l chi_sim
中文識別結(jié)果展示:
結(jié)果:
文 章 都 有 確 定 的 主 題 , 作 者 環(huán) 繞 文 章 的 主 題 表 述 自 己 的 忌煜 與 感 情 , 需 要 使 用 大 量 的 語 言 材 料 抡柿。?
語 言 材 料 使 用 得 是 否 恰當(dāng) , 疚 很 大 程 度 上 影 響 文 章 的 質(zhì) 量 舔琅。語 言 材 料 包 括 詞 、 詞 組 洲劣、 句 子 备蚓、 段 落 。 這 些 成 分 自 小 到 大 ,逐 淅 結(jié) 合 , 組 成 一 體 而 成 文 章 囱稽。 本 書 就 詞 組 郊尝、 葉 子 和 段 落 提 供 一定 數(shù) 量 的 紊 材 , 給 讀 者 參 考 、 借 鑒 战惊。
本 書 是 從 大 量 的 中 外 文 學(xué) 作 品 中 精 選 了 擋 寫 人 物 的 外 貂神 態(tài) 流昏、 心 理 性 格 以 及 事 件 情 狀 、 自 然 景 象 等 詞 組 吞获、 句 子 , 片 段 , 按題 材 分 門 別 類 , 匯 集 編 籬 而 成 横缔。 本 辭 典 有 如 下 特 點(diǎn) :
一 、 在 寫 作 和 閱 讀 兩 方 面 可 供 讀 者 借 鑒 衫哥。 文 章 耍 寫 得 好 ,在 主 題 確 立 并 有 了 全 篇 提 綱 之 后 , 遣 詞 造 句 便 成 了 非 常 重 要 的環(huán) 節(jié) , 要 使 詞 句 達(dá) 到 準(zhǔn) 確 茎刚、 鮮 明 、 生 動 的 地 步 , 參 閱 優(yōu) 秀 作 品 中的 表 現(xiàn) 手 法 是 十 分 重 要 的 撤逢。 本 辭 典 正 是 適 應(yīng) 寫 作 者 的 這 一 需要 , 收 集 了 大 量 表 現(xiàn) 力 強(qiáng) 的 詞 組 膛锭、 句 子 和 段 落 , 這 些 內(nèi) 容 既 能 供讀 者 閱 讀 , 又 能 使 讀 者 從 閱 讀 之 中 學(xué) 習(xí) 到 詞 語 按 配 、 句 子 組 線以 至 謀 箭 成 章 的 各 種 方 法 , 從 而 提 高 自 己 的 寫 作 水 平 蚊荣。
二 初狰、 辭 典 所 收 的 詞 組 和 旬 子 , 寓 詞 的 搭 配 和 辭 藻 修 飾 兩 方面 的 用 意 。 詞 語 相 互 間 的 搭 配 十 分 復(fù) 雜 , 而 修 飾 成 分 對 語 句 表現(xiàn) 生 動 與 否 又 極 為 重 要 , 本 辭 典 以 一 半 以 上 的 讀 者 提 儈詞 語 按 配 和 修 飾 的 手 法 互例。 例 如 描 寫 炎 熱 的 夏 天 , 跋 奠 提 供 了 :炎 熱 的 夏 天 火 熱 的 夏 天 _ 灼 熱 的 夏 滅 熾 熱 的 蚊天 炎 熱 的 夏 天 “ 熬 熱 的 夏 天 “ 糜 熱 的 夏 天 “ 疏 熱 的 夏天 暑 氣 熙 騰 的 夏 天 “ 熱 浪 滾 演 的 尋 天 “ 易 氣 逗 人 的 夏
我調(diào)整了一下段落奢入,粗的大約就是紅線標(biāo)出來的,看起來錯的不算少媳叨,但是這個質(zhì)量的影印識別結(jié)果腥光,我覺得還是挺厲害了。
再貼幾個結(jié)果:
知 乎 - 維 基 百 科 , 自 由 的 百 科 全 書 - 維 基 百 科
https:/zh.wikipedia.org/zh-cn/ 知 乎 “
知 乎 是 一 家 創(chuàng) 立 于 2011 年 1 月 26 日 的 中 國 大 陸 社 會 化 問 答 網(wǎng) 站 , 產(chǎn) 品 形 態(tài) 模 仿 了 美 國 類 似 網(wǎng) 站 Quora糊秆。 “ 知
乎 “ 在 文 言 文 中 意 為 “ 知 道 嗎 “武福。2012 年 2 月 底 , 知 乎 使 用 “ 發(fā) 現(xiàn) 更 …
知 乎 - Android Apps on Google Play
https:/play「google.com/store/apps/details?id=com.zhihu.android v
文 文 友 文 央 評 分 : 4.3 - 16,463 票 - 免 費(fèi)
知 乎 , 中 文 互 聯(lián) 網(wǎng) 最 大 的 知 識 平 臺 。 擁 有 認(rèn) 真 痘番、 專 業(yè) 捉片、 友 商 的 社 區(qū) 氛 圍 , 聚 焦 熱 點(diǎn) 事 件 平痰、 討 論 深 度 話
題 , 觀 點(diǎn) 犀 利 , 生 動 有 趣 。 知 友 可 以 第 一 時 間 在 知 乎 參 與 眾 多 新 鮮 …
知 乎 的 微 博 _ 微 博 - 微 博 臺 灣
weibo.com/zhihu
知 乎 , 知 乎 網(wǎng) 官 方 微 博 , 新 浪 微 博 社 區(qū) 委 員 會 專 家 成 員 伍纫。宗雇。 知 乎 的 微 博 主 頁 、 個 人 資 料 莹规、 相 冊 赔蒲。 新 浪 微
博 , 隨 時 隨 地 分 享 身 邊 的 新 鮮 事 兒 。
知 乎 _ 百 度 百 科
https:/baike.baidu.com/item/ 知 乎 “
準(zhǔn) 確 地 講 , 知 乎 更 像 一 個 論 壇 : 用 戶 圍 繞 著 某 一 感 興 趣 的 話 題 進(jìn) 行 相 關(guān) 的 討 論 , 同 時 可 以 關(guān) 注 興 趣 一 致 的
人 访惜。 對 于 概 念 性 的 解 釋 , 網(wǎng) 絡(luò) 百 科 幾 乎 涵 蓋 了 你 所 有 的 疑 問 ; …
知 乎 的 1 野 心 與 終 局 」 | 雷 鋒 網(wǎng)
https:/www.leiphone.com/news/201701/Pmsr9n3y0AI3VAxR.html “
2017 年 1 月 16 日 - 知 乎 的 終 局 到 底 會 是 什 么 ? 還 有 多 大 的 上 升 空 間 ? 該 如 何 盈 利 ?
知 乎 作 了 什 么 惡 ? _ 科 技 _ 騰 訊 網(wǎng)
tech.qq.com/a/201702251/044047.htm “
2017 年 2 月 25 日 - 本 文 轉(zhuǎn) 載 自 微 信 公 眾 號 “ 霍 老 爺 “. 這 篇 文 章 會 比 較 長 , 一 共 分 為 三 個 部 分 : . 1. 知 乎 是 個
什 么 網(wǎng) 站 . 2. 怎 么 成 為 知 乎 大 V 3. 知 乎 之 死 . 回 答 標(biāo) 題 提 出 的 問 題 …
知 乎 的 相 關(guān) 搜 索
這個識別結(jié)果可以說很不錯了。
接下來挑個獨(dú)特點(diǎn)的身份證識別:
姆 名 愛 新 覺 羅 腻扇。 玄 燁
性 別 男 - 民 族 滿
出 生 1654 年 5 月 4 日
佳 址 北 京 市 東 城 區(qū) 景 山 前 街 4 號
紫 禁 城 欽 清 宮
公 民 身 份 證 號 碼 88B8831654858498 42
固定的字錯了兩個债热,內(nèi)容字錯了一個,數(shù)字0則完全當(dāng)成了8幼苛,當(dāng)然如果你僅僅選擇很多身份證的數(shù)據(jù)作為訓(xùn)練集的話窒篱,我相信肯定會有更好的結(jié)果的。
一個外行人的建議:如果可以輸出一個PDF,用不同的顏色表示不同的置信度就好了舶沿,這樣校驗(yàn)的時候可以單單檢測置信度低的識別結(jié)果就可以了墙杯。
故事的結(jié)束:
刪了程序,睡覺括荡,“打字”這個事情結(jié)束了高镐。