大家好,從PDF中提取信息是辦公場景中經(jīng)常需要用到的操作烤送,也是經(jīng)常又讀者在后臺問的一個操作寒随。
內(nèi)容少的話我們可以手動復(fù)制粘貼,但如果需要批量提取就可以考慮使用Python胯努,之前我也轉(zhuǎn)載過相關(guān)文章牢裳,提到主要就是使用pdfplumber
庫,今天我們再次舉例講解叶沛。
通常PDF里的表格分為圖片型和文本型蒲讯。文本型又分簡單型和復(fù)雜型。本文就針對這三部分舉例講解灰署。
- 提取簡單型表格
- 提取較為復(fù)雜型表格
- 提取圖片型表格
用到的模塊主要有
pdfplumber
pandas
Tesseract
PIL
內(nèi)容總共有6頁溉箕,后文中的例子會有展示晦墙。
一、簡單文本類型數(shù)據(jù)
簡單文本類型表格就是一頁PDF中只有一個表格肴茄,并且表格內(nèi)容完整可復(fù)制晌畅,例如我們選定內(nèi)容為PDF中的第四頁,內(nèi)容如下:
可以看到寡痰,該頁只有一個表格抗楔,下面我們將這個表寫入Excel中,先上代碼
import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購買銀行理財產(chǎn)品的進(jìn)展公告.PDF')
ps = pdf.pages
pg = ps[3]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
for j in range(len(table[i])):
table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df1.to_excel('page2.xlsx')
得到的結(jié)果如下:通過與PDF上原表格對比拦坠,在內(nèi)容上是完全一致的连躏,唯一不同的是由于主營業(yè)務(wù)內(nèi)容較多,導(dǎo)致顯示的不全面贞滨,現(xiàn)在來說說這段代碼入热。
首先導(dǎo)入要用到的兩個庫。在pdfplumber
中,open()
函數(shù)是用來打開PDF文件勺良,該代碼用的是相對路徑绰播。.open().pages
則是獲取PDF的頁數(shù),打印ps值可以得到如下
pg = ps[3]
代表的就是我們所選的第三頁郑气。
pg.extract_tables()
:可輸出頁面中所有表格幅垮,并返回一個嵌套列表,其結(jié)構(gòu)層次為table→row→cell
尾组。此時忙芒,頁面上的整個表格被放入一個大列表中,原表格中的各行組成該大列表中的各個子列表讳侨。若需輸出單個外層列表元素呵萨,得到的便是由原表格同一行元素構(gòu)成的列表。
與其類似的是pg.extract_table( )
:返回多個獨立列表跨跨,其結(jié)構(gòu)層次為row→cell
潮峦。若頁面中存在多個行數(shù)相同的表格,則默認(rèn)輸出頂部表格勇婴;否則忱嘹,僅輸出行數(shù)最多的一個表格。此時耕渴,表格的每一行都作為一個單獨的列表拘悦,列表中每個元素即為原表格的各個單元格內(nèi)容。
由于該頁面中只有一個表格橱脸,我們需要tables
集合中的第一個元素础米。打印table
值,如下:
可以看到在上述中是存在\n
這種沒不要的字符添诉,它的作用其實是換行但我們在Excel中是不需要的屁桑。所以需要剔除它,用代碼中的for循環(huán)與replace
函數(shù)將控制替換成空格(即刪除\n)栏赴。觀察table是一個裝有2個元素的列表蘑斧。
最后df1 = pd.DataFrame(table[1:],columns = table[0])
這段代碼的作用就是創(chuàng)建一個數(shù)據(jù)框,將內(nèi)容放到對應(yīng)的行列中须眷。
本代碼只是簡單將數(shù)據(jù)存入到Excel乌叶,如果你需要進(jìn)一步對樣式進(jìn)行調(diào)整,可以使用openpyxl
等模塊進(jìn)行修改柒爸。
二、復(fù)雜型表格提取
復(fù)雜型表格即表格樣式不統(tǒng)一或一頁中有多個表格事扭,以PDF中的第五頁為例:
可以看到本頁中有兩個大的表格捎稚,并且細(xì)看的話,其實是4個表格,按照簡單型表格類型提取方法今野,得到的效果如下:
可以看到葡公,只是將全部表格文本提取出來,但實際上第一個表格又細(xì)分為兩個表条霜,所以需要我們進(jìn)一步修改催什,將這張表再次拆分!例如提取上半部分代碼如下:
import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購買銀行理財產(chǎn)品的進(jìn)展公告.PDF')
ps = pdf.pages
pg = ps[4]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
for j in range(len(table[i])):
table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df2 = df1.iloc[2:,:]
df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"})
df2 = df2.loc[3:,:]
df1 = df1.loc[:1,:]
with pd.ExcelWriter('公司影響.xlsx') as i:
df1.to_excel(i,sheet_name='資產(chǎn)', index=False, header=True) #放入資產(chǎn)數(shù)據(jù)
df2.to_excel(i,sheet_name='營業(yè)',index=False, header=True) #放入營業(yè)數(shù)據(jù)
這段代碼在簡單型表格提取的基礎(chǔ)上進(jìn)行了修改宰睡,第十四行代碼的作用就是提取另外一個表頭的信息蒲凶,并將他賦值給df2,而后對df2進(jìn)行重命名操作(用到rename
函數(shù))拆内。
打印df2可以看出columns
列名和第一行信息重復(fù)了旋圆,因此我們需要重復(fù)剛剛的步驟,利用loc()
函數(shù)切割數(shù)據(jù)框麸恍。
注意灵巧,我們這里用了罕見的pandas.Excelwriter
函數(shù)套for循環(huán),這個是為了避免直接寫入導(dǎo)致的最后數(shù)據(jù)覆蓋原數(shù)據(jù)抹沪,感興趣可以嘗試一下不用withopen這種方法后結(jié)果刻肄。最終得到的效果如下:
可以看到,現(xiàn)在這個表格就被放在兩個sheet中單獨展示融欧,當(dāng)然用于對比放在一張表中也是可以的
說到底復(fù)雜型表格的主觀性是非常大的敏弃,需要根據(jù)不同情況進(jìn)行不同處理,想寫出一個一勞永逸的辦法是比較困難的蹬癌!
三权她、圖片型表格提取
最后也是最難處理的就是圖片型表格,經(jīng)常有人會問如何提取圖片型PDF中的表格/文本等信息逝薪。
其實本質(zhì)上就是提取圖片隅要,之后如何對圖片進(jìn)一步處理提取信息就與Python提取PDF表格這個主題沒有太大關(guān)系了!
這里我們也簡單進(jìn)行介紹董济,也就是先提取圖片再進(jìn)行OCR識別提取表格步清,在Python中可以使用Tesseract
庫,首先需要pip安裝
pip install pytesseract
在Python中安裝完這個庫之后我們需要安裝exe文件以在后面代碼用到虏肾。
http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下載安裝完即可廓啊,注意目前如果按照正常步驟安裝的話是不會識別中文的,所以需要安裝簡體中文語言包封豪,下載地址為https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata
谴轮,將其放到Tesseract-OCR
的tessdata目錄下即可。
接下來我們使用一個簡單的圖片型pdf如下:
第一步吹埠,提取圖片第步,這里使用在GUI辦公自動化系列
中的圖片提取軟件來提取PDF中的圖片疮装,得到如下圖片:
接著執(zhí)行下方代碼識別圖片內(nèi)容:
import pytesseract
from PIL import Image
import pandas as pd
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
tiqu = pytesseract.image_to_string(Image.open('圖片型.jpg'))
print(tiqu)
tiqu = tiqu.split('\n')
while '' in tiqu: #不能使用for
tiqu.remove('')
first = tiqu[:6]
second = tiqu[6:12]
third = tiqu[12:]
df = pd.DataFrame()
df[first[0]] = first[1:]
df[second[0]] = second[1:]
df[third[0]] = third[1:]
#df.to_excel('圖片型表格.xlsx') #轉(zhuǎn)為xlsx文件
我們的思路是用Tesseract-OCR
來解析圖片,得到一個字符串粘都,接著對字符串運用split
函數(shù)廓推,把字符串變成列表同時刪除\n
。
接著可以發(fā)現(xiàn)我們的列表里還存在空格翩隧,這時我們用while
循環(huán)來刪除這些空字符樊展,注意,這里不能用for循環(huán)堆生,因為每次刪除一個专缠,列表里的元素就會前進(jìn)一個,這樣會刪不完全顽频。最后就是用pandas
把這些變成數(shù)據(jù)框形式藤肢。最終得到的效果如下:
可以看到,該圖片型表格內(nèi)容被完美解析與處理糯景!當(dāng)然能輕松搞定的原因也與這個表格足夠簡單有關(guān)嘁圈,在真實場景中的圖片可能會有更復(fù)雜的干擾因素,而這就需要大家在處理的同時自行找到一個最合適的辦法蟀淮!