使用Tesseract+python進(jìn)行圖片轉(zhuǎn)文字記錄

先把Tesseract的基礎(chǔ)部分放上來购裙。
由于對(duì)游戲的文案非常感興趣链嘀,所以希望可以將游戲中圖片截圖萌狂,識(shí)別圖片上的文字轉(zhuǎn)成txt,基于此記錄一下學(xué)習(xí)過程怀泊,簡單記錄茫藏。

環(huán)境說明:

Mac 10.13
python 2.7
Tesseract 3.05.01github地址
因?yàn)閷?duì)這些也不懂所以都是按照網(wǎng)上的教程來得

英文識(shí)別

Tesseractgithub有安裝教程
相關(guān)API參照Python:文本識(shí)別拋棄pytesser,直接使用Tesseract

也就是說包个,當(dāng)安裝好后Tesseract之后刷允,可以在終端直接操作
主要命令操作:

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

tesseract    圖片名  輸出文件名 -l 字庫文件 -psm pagesegmode 配置文件

-l后的字庫文件可以切換為中文冤留,默認(rèn)是英文
-psm是對(duì)于識(shí)別模式的一些設(shè)置

按照wiki的說法

tesseract 圖片路徑   輸出文件名//eg:tesseract x.png out

即可在終端對(duì)應(yīng)目錄下輸出out.txt 里面是對(duì)文字的識(shí)別碧囊,按照如上試了以下兩張圖片


test.jpg

這張圖片的識(shí)別結(jié)果未成功,并未生產(chǎn)任何txt文件纤怒,終端報(bào)錯(cuò)如下

Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Warning. Invalid resolution 0 dpi. Using 70 instead.
//關(guān)于為什么會(huì)報(bào)這一行還沒有查明白糯而,因?yàn)榘l(fā)現(xiàn)無論成功與否都會(huì)報(bào)這一行
//簡單搜索一下大概于tif什么之類的有關(guān)系,還沒有查找

當(dāng)換成另一張圖片
4979037-c4469cd2356e5a06.jpg

識(shí)別且產(chǎn)生txt泊窘,內(nèi)容如下

Y" ‘ WWIHBNEISM H8 3

ORGAN
NICHOLSON FREEMAN
MUM’VHHIIV-HUN’N/D?mhnAMENUMMME UWUFDW WM TIFEUEKEMT A
¢ WWW!“ HUBEEWWMWFW .
zzrmmn Jmmmu JWMHH ‘ ,
mum _. v _ mm“
now

從以上看出熄驼,識(shí)別還是要看圖片背景等像寒,在tesseract總默認(rèn)是英文識(shí)別,且涉及到參數(shù)psm的問題瓜贾,關(guān)于參數(shù)psm請(qǐng)?jiān)诮K端直接輸入tesseract

Page segmentation modes:
  0    Orientation and script detection (OSD) only.
  1    Automatic page segmentation with OSD.
  2    Automatic page segmentation, but no OSD, or OCR.
  3    Fully automatic page segmentation, but no OSD. (Default)
  4    Assume a single column of text of variable sizes.
  5    Assume a single uniform block of vertically aligned text.
  6    Assume a single uniform block of text.
  7    Treat the image as a single text line.
  8    Treat the image as a single word.
  9    Treat the image as a single word in a circle.
 10    Treat the image as a single character.
 11    Sparse text. Find as much text as possible in no particular order.
 12    Sparse text with OSD.
 13    Raw line. Treat the image as a single text line,
            bypassing hacks that are Tesseract-specific.

初步的文字識(shí)別還是ok的诺祸,因?yàn)樽罱K要的結(jié)果是中文識(shí)別,所以要看一下如何進(jìn)行中文識(shí)別祭芦。

中文識(shí)別

tesseract提供了中文的文字識(shí)別筷笨,下載地址https://github.com/daheicode/chi_sim
下載之后將chi_sim.traineddata文件拷貝到中文文件存放地址:

/usr/local/Cellar/tesseract/3.05.01/share/tessdata
//我在mac上存放到這里時(shí)有效的,如果無效就需要再查查了
//這個(gè)文件進(jìn)去后可以看到英文的識(shí)別文件`eng.traineddata`)

開啟終端進(jìn)行中文文字識(shí)別

tesseract 輸入圖片路徑 -l chi_sim 輸出文件名字

這里測試了一下龟劲,識(shí)別結(jié)果一言難盡吧胃夏,對(duì)于陰陽師的傳記識(shí)別很差,周圍有一些文字進(jìn)行干擾


圖片j

如果對(duì)于圖片進(jìn)行裁剪到如下程度
x.jpeg

識(shí)別結(jié)果是很一言難盡的昌跌,仰禀。這個(gè)結(jié)果的誤差率挺高的。
待1己二 lw

楨言宛一次出現(xiàn)耱訣盯町倪 釁
也只是笑笑蚕愤、 并沒有責(zé)怪這個(gè)驤子
D 但是幔憧地. 貴怪也開始了' 篷
篝還有打罵. 驥子的靴上遍布傷痕

害怕受列懲罰的孩子. 哭*預(yù)知著
一切. 預(yù)言卻還是耬未趟不準(zhǔn)口
終于. 有人操亂 這孜子既然己經(jīng)
失去T傾知的能九 不如就放弄這
個(gè)孩子, 將他獻(xiàn)給淹禮 或許還能
平息災(zāi)祝 纂一次聽到這個(gè)提議時(shí).
人4?紛汾反對(duì), 認(rèn)為這對(duì)璩子太瀵
忍了口 可是巢二炎 第三次的時(shí)伉
反對(duì)的人罐毅赭嘰

嘗試了一下微博的截圖


t.png

結(jié)果為

全球健身中心-喧
11分鐘前來目 微博淝伽咖
拿去參考-下0

@全球裝飾大全 - 甜
我敢說這是我見過最漂亮最實(shí)用的室內(nèi)設(shè)計(jì)了,絕對(duì)沒有比這更簡美了.迸門就是原木地板,
客廳就簡單的布藝沙發(fā)搭配原木電器柜.迸門兩邊做的是嵌入式柜體,牧納更是做到了極致;
住在這樣純夫然酌冢里簡直不要不要的m 喜歡就關(guān)注@全球裝飾大全 胗微博全景圖片

〕

微博全景圖片
我敢說這是我見過最室內(nèi)設(shè)計(jì)了, 絕對(duì)沒有比這更簡美了° 布藝沙發(fā)
搭配原木電器柜° 迸門兩邊做的是嵌入式柜體, 底面整體原木地板,

12分鐘前 來自 微博 weibo.oom 區(qū) 97 臼 6 凸 35

到這里看一下我自己的需求是可以將圖片中的文字轉(zhuǎn)換答恶,而且需求圖片沒有陰陽師背景那么雜亂,所以轉(zhuǎn)換結(jié)果很好萍诱,因此沒有繼續(xù)看如何提高識(shí)別準(zhǔn)確度亥宿。
這里一直講的是通過終端進(jìn)行圖片轉(zhuǎn)文字。但其實(shí)最后是通過python調(diào)用的Tesseract

未完待續(xù)

那最后的實(shí)現(xiàn)過程是

python控制安卓截圖=>截圖后裁圖到合適區(qū)域=》圖片轉(zhuǎn)換文字存儲(chǔ)=》模擬點(diǎn)擊進(jìn)行下一頁面 【循環(huán)此過程】
(循環(huán)過程還沒寫 程序大概就是借鑒跳一跳的那個(gè)來~~~畢竟還不會(huì)python……)

終于告別手敲文案啦砂沛!還是很棒的烫扼!撒花~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市碍庵,隨后出現(xiàn)的幾起案子映企,更是在濱河造成了極大的恐慌,老刑警劉巖静浴,帶你破解...
    沈念sama閱讀 210,978評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件堰氓,死亡現(xiàn)場離奇詭異,居然都是意外死亡苹享,警方通過查閱死者的電腦和手機(jī)双絮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來得问,“玉大人囤攀,你說我怎么就攤上這事」常” “怎么了焚挠?”我有些...
    開封第一講書人閱讀 156,623評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長漓骚。 經(jīng)常有香客問我蝌衔,道長榛泛,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,324評(píng)論 1 282
  • 正文 為了忘掉前任噩斟,我火速辦了婚禮曹锨,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘剃允。我一直安慰自己艘希,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,390評(píng)論 5 384
  • 文/花漫 我一把揭開白布硅急。 她就那樣靜靜地躺著覆享,像睡著了一般。 火紅的嫁衣襯著肌膚如雪营袜。 梳的紋絲不亂的頭發(fā)上撒顿,一...
    開封第一講書人閱讀 49,741評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音荚板,去河邊找鬼凤壁。 笑死,一個(gè)胖子當(dāng)著我的面吹牛跪另,可吹牛的內(nèi)容都是我干的拧抖。 我是一名探鬼主播,決...
    沈念sama閱讀 38,892評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼免绿,長吁一口氣:“原來是場噩夢啊……” “哼唧席!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起嘲驾,我...
    開封第一講書人閱讀 37,655評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤淌哟,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后辽故,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體徒仓,經(jīng)...
    沈念sama閱讀 44,104評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年誊垢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了掉弛。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,569評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡喂走,死狀恐怖殃饿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情缴啡,我是刑警寧澤壁晒,帶...
    沈念sama閱讀 34,254評(píng)論 4 328
  • 正文 年R本政府宣布瓷们,位于F島的核電站业栅,受9級(jí)特大地震影響秒咐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜碘裕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,834評(píng)論 3 312
  • 文/蒙蒙 一携取、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧帮孔,春花似錦雷滋、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至姆坚,卻和暖如春澳泵,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背兼呵。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評(píng)論 1 264
  • 我被黑心中介騙來泰國打工兔辅, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人击喂。 一個(gè)月前我還...
    沈念sama閱讀 46,260評(píng)論 2 360
  • 正文 我出身青樓维苔,卻偏偏與公主長得像,于是被迫代替她去往敵國和親懂昂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子介时,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,446評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容