python提取圖片內(nèi)容并轉(zhuǎn)換成對應表格的markdown代碼

本節(jié)我們將介紹使用python識別一張圖片中的內(nèi)容茵乱,并試著得到一張表格,當然并不是類似于Excel的表格威根,而是該表格的markdown代碼。

注:原創(chuàng)內(nèi)容视乐,轉(zhuǎn)載請標明出處洛搀,首發(fā)于個人博客園賬號!



相關工具的安裝

本次實驗環(huán)境:win10,Pycharm2019.3佑淀。
安裝相關庫既可以使用命令行留美,也可以使用Pycharm自帶的工具。

打開cmd命令行或者powershell。
首先安裝PIL:

pip install Pillow
image

這是已經(jīng)安裝好PIL的示意圖谎砾。

之后逢倍,安裝pytesseract:

pip install pytesseract
image

這是已經(jīng)安裝好pytesseract的示意圖。

接下來景图,安裝Tesseract-OCR较雕,注意對應系統(tǒng)。
環(huán)境配置挚币,輸入

tesseract
tesseract -v
image

如果正常輸出亮蒋,表示配置成功了(我在實際操作時,安裝完成后自動配置了系統(tǒng)變量)忘晤,如果沒有宛蚓,找到之前安裝的路徑:
例如:

image
G:\Program Files (x86)\Tesseract-OCR

將該路徑添加到系統(tǒng)變量中


image

如果你想做英文之外的識別,Tesseract-OCR是沒有帶其他語言包的设塔,你可以去下載其他語言包
這里我添加了簡體中文的語言包远舅,但是使用的是自帶的英文語言包闰蛔。

image

同時,我們還需要一項配置图柏,找到python安裝路徑下的pytesseract.py序六,我這里的路徑是

G:\Python37\Lib\site-packages\pytesseract
image

打開該路徑下的pytesseract.py文件。

image

將其中的

tesseract_cmd = tesseract.exe

替換為你之前安裝Tesseract-OCR的路徑蚤吹。

tesseract_cmd = 'G:/Program Files (x86)/Tesseract-OCR/tesseract.exe'


簡單測試

這是一張圖:

3.jpg

先簡單演示一下:

# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract

# 注意圖片路徑和名稱
path = "3.jpg"
# lang參數(shù)指定了語言包,你可以下載相應的語言包,這里使用自帶的英文包
content = pytesseract.image_to_string(Image.open(path), lang="eng")
print(content)

由于數(shù)據(jù)有些多例诀,我只列出一部分。

90
70
50
40
130
70
90
20
120
110
100
30
...
70
60
80
60
80
60
50
50
60
60
60
60

這里呢裁着,我們的工作就完成了大部分了繁涂,接下來我們試著將它轉(zhuǎn)換一個對應表格的markdown代碼。


轉(zhuǎn)換

我們得到的結果是一個字符串二驰,離我們實際的表格內(nèi)容還有一段距離扔罪,也不難,做些數(shù)據(jù)處理就可以了桶雀。
markdown表格的語法:

| 左對齊 |  居中對齊 | 右對齊 |
| :-----| :----: | ----: |
| 內(nèi)容 | 內(nèi)容 | 內(nèi)容 |
| 內(nèi)容 | 內(nèi)容 | 內(nèi)容 |

這里直接上程序了:

# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract

path = "3.jpg"
text = pytesseract.image_to_string(Image.open(path), lang="eng")

text_list = text.split()
rows = 12
lists = 6
md_text = []
list_name = ["語文", "數(shù)學", "英語", "物理", "化學", "生物"]
md_text.append(["|"])
for name in list_name:
    md_text[0].append(str(name) + "|")
md_text[0] = "".join(md_text[0])
direction = ["中", "中", "中", "中", "中", "中"]
md_text.append(["|"])
for d in direction:
    if str(d) == "左":
        md_text[1].append(":----|")
    if str(d) == "中":
        md_text[1].append(":----:|")
    if str(d) == "右":
        md_text[1].append("----:|")
md_text[1] = "".join(md_text[1])
for r in range(rows):
    res = "|"
    for l in range(lists):
        res += (text_list[r + l * rows] + "|")
    md_text.append(res)
file = open("3.txt", "w")
for m in md_text:
    file.write(m + "\n")
file.close()
print(md_text)

結果:

['|語文|數(shù)學|英語|物理|化學|生物|', '|:----:|:----:|:----:|:----:|:----:|:----:|', '|90|120|130|100|80|70|', '|70|110|110|60|60|60|', '|50|40|120|90|80|80|', '|40|60|100|70|60|60|', '|130|90|90|80|80|80|', '|70|50|90|60|60|60|', '|90|70|140|50|50|50|', '|20|140|100|90|70|50|', '|120|130|80|60|60|60|', '|110|90|60|50|70|60|', '|100|70|50|90|90|60|', '|30|100|50|80|80|60|']

看看文件內(nèi)容矿酵。

image



看看渲染結果:

image


結果還不錯,當然我們并沒有訓練樣本矗积,所以對于稍微復雜一點的圖片全肮,可能識別結果就不好了。

之后我將以這個為基礎棘捣,寫一個帶GUI的程序辜腺,界面如下:

image.png


完整帶GUI程序的github倉庫地址

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市哪自,隨后出現(xiàn)的幾起案子丰包,更是在濱河造成了極大的恐慌,老刑警劉巖壤巷,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件邑彪,死亡現(xiàn)場離奇詭異,居然都是意外死亡胧华,警方通過查閱死者的電腦和手機寄症,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來矩动,“玉大人有巧,你說我怎么就攤上這事”唬” “怎么了篮迎?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長示姿。 經(jīng)常有香客問我甜橱,道長,這世上最難降的妖魔是什么栈戳? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任岂傲,我火速辦了婚禮,結果婚禮上子檀,老公的妹妹穿的比我還像新娘镊掖。我一直安慰自己,他們只是感情好褂痰,可當我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布亩进。 她就那樣靜靜地躺著,像睡著了一般脐恩。 火紅的嫁衣襯著肌膚如雪镐侯。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天驶冒,我揣著相機與錄音苟翻,去河邊找鬼。 笑死骗污,一個胖子當著我的面吹牛崇猫,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播需忿,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼诅炉,長吁一口氣:“原來是場噩夢啊……” “哼蜡歹!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起涕烧,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤月而,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后议纯,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體父款,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年瞻凤,在試婚紗的時候發(fā)現(xiàn)自己被綠了憨攒。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡阀参,死狀恐怖肝集,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蛛壳,我是刑警寧澤杏瞻,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站衙荐,受9級特大地震影響伐憾,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赫模,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蒸矛。 院中可真熱鬧瀑罗,春花似錦、人聲如沸雏掠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽乡话。三九已至摧玫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間绑青,已是汗流浹背诬像。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留闸婴,地道東北人坏挠。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像邪乍,于是被迫代替她去往敵國和親降狠。 傳聞我的和親對象是個殘疾皇子对竣,可洞房花燭夜當晚...
    茶點故事閱讀 43,465評論 2 348