Python 提取 PDF 表格门岔，三種類型數(shù)據(jù)轉(zhuǎn)換成 Excel

大家好，從PDF中提取信息是辦公場景中經(jīng)常需要用到的操作烤送，也是經(jīng)常又讀者在后臺問的一個操作寒随。

內(nèi)容少的話我們可以手動復(fù)制粘貼，但如果需要批量提取就可以考慮使用Python胯努，之前我也轉(zhuǎn)載過相關(guān)文章牢裳，提到主要就是使用pdfplumber庫，今天我們再次舉例講解叶沛。

通常PDF里的表格分為圖片型和文本型蒲讯。文本型又分簡單型和復(fù)雜型。本文就針對這三部分舉例講解灰署。

提取簡單型表格
提取較為復(fù)雜型表格
提取圖片型表格

用到的模塊主要有

pdfplumber
pandas
Tesseract
PIL

文中出現(xiàn)的PDF材料是在巨潮資訊官網(wǎng)下載的公開PDF文件判帮，主題是關(guān)于理財?shù)模嚓P(guān)發(fā)布信息等信息如下：

內(nèi)容總共有6頁溉箕，后文中的例子會有展示晦墙。

一、簡單文本類型數(shù)據(jù)

簡單文本類型表格就是一頁PDF中只有一個表格肴茄，并且表格內(nèi)容完整可復(fù)制晌畅，例如我們選定內(nèi)容為PDF中的第四頁，內(nèi)容如下：

可以看到寡痰，該頁只有一個表格抗楔，下面我們將這個表寫入Excel中，先上代碼

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購買銀行理財產(chǎn)品的進(jìn)展公告.PDF')
ps = pdf.pages
pg = ps[3]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df1.to_excel('page2.xlsx')

得到的結(jié)果如下：

通過與PDF上原表格對比拦坠，在內(nèi)容上是完全一致的连躏，唯一不同的是由于主營業(yè)務(wù)內(nèi)容較多，導(dǎo)致顯示的不全面贞滨，現(xiàn)在來說說這段代碼入热。

首先導(dǎo)入要用到的兩個庫。在pdfplumber中，open()函數(shù)是用來打開PDF文件勺良，該代碼用的是相對路徑绰播。.open().pages則是獲取PDF的頁數(shù)，打印ps值可以得到如下

pg = ps[3]代表的就是我們所選的第三頁郑气。

pg.extract_tables()：可輸出頁面中所有表格幅垮，并返回一個嵌套列表，其結(jié)構(gòu)層次為table→row→cell尾组。此時忙芒，頁面上的整個表格被放入一個大列表中，原表格中的各行組成該大列表中的各個子列表讳侨。若需輸出單個外層列表元素呵萨，得到的便是由原表格同一行元素構(gòu)成的列表。

與其類似的是pg.extract_table( )：返回多個獨立列表跨跨，其結(jié)構(gòu)層次為row→cell潮峦。若頁面中存在多個行數(shù)相同的表格，則默認(rèn)輸出頂部表格勇婴；否則忱嘹，僅輸出行數(shù)最多的一個表格。此時耕渴，表格的每一行都作為一個單獨的列表拘悦，列表中每個元素即為原表格的各個單元格內(nèi)容。

由于該頁面中只有一個表格橱脸，我們需要tables集合中的第一個元素础米。打印table值，如下：

可以看到在上述中是存在\n這種沒不要的字符添诉，它的作用其實是換行但我們在Excel中是不需要的屁桑。所以需要剔除它，用代碼中的for循環(huán)與replace函數(shù)將控制替換成空格(即刪除\n)栏赴。觀察table是一個裝有2個元素的列表蘑斧。

最后df1 = pd.DataFrame(table[1:],columns = table[0])這段代碼的作用就是創(chuàng)建一個數(shù)據(jù)框，將內(nèi)容放到對應(yīng)的行列中须眷。

本代碼只是簡單將數(shù)據(jù)存入到Excel乌叶，如果你需要進(jìn)一步對樣式進(jìn)行調(diào)整，可以使用openpyxl等模塊進(jìn)行修改柒爸。

二、復(fù)雜型表格提取

復(fù)雜型表格即表格樣式不統(tǒng)一或一頁中有多個表格事扭，以PDF中的第五頁為例：

可以看到本頁中有兩個大的表格捎稚，并且細(xì)看的話，其實是4個表格，按照簡單型表格類型提取方法今野，得到的效果如下：

可以看到葡公，只是將全部表格文本提取出來，但實際上第一個表格又細(xì)分為兩個表条霜，所以需要我們進(jìn)一步修改催什，將這張表再次拆分！例如提取上半部分代碼如下：

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購買銀行理財產(chǎn)品的進(jìn)展公告.PDF')
ps = pdf.pages
pg = ps[4]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df2 = df1.iloc[2:,:]
df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"})
df2 = df2.loc[3:,:]
df1 = df1.loc[:1,:]
with pd.ExcelWriter('公司影響.xlsx') as i:
    df1.to_excel(i,sheet_name='資產(chǎn)', index=False, header=True) #放入資產(chǎn)數(shù)據(jù)
    df2.to_excel(i,sheet_name='營業(yè)',index=False, header=True) #放入營業(yè)數(shù)據(jù)

這段代碼在簡單型表格提取的基礎(chǔ)上進(jìn)行了修改宰睡，第十四行代碼的作用就是提取另外一個表頭的信息蒲凶，并將他賦值給df2，而后對df2進(jìn)行重命名操作(用到rename函數(shù))拆内。

打印df2可以看出columns列名和第一行信息重復(fù)了旋圆，因此我們需要重復(fù)剛剛的步驟，利用loc()函數(shù)切割數(shù)據(jù)框麸恍。

注意灵巧，我們這里用了罕見的pandas.Excelwriter函數(shù)套for循環(huán)，這個是為了避免直接寫入導(dǎo)致的最后數(shù)據(jù)覆蓋原數(shù)據(jù)抹沪，感興趣可以嘗試一下不用withopen這種方法后結(jié)果刻肄。最終得到的效果如下：

可以看到，現(xiàn)在這個表格就被放在兩個sheet中單獨展示融欧，當(dāng)然用于對比放在一張表中也是可以的

說到底復(fù)雜型表格的主觀性是非常大的敏弃，需要根據(jù)不同情況進(jìn)行不同處理，想寫出一個一勞永逸的辦法是比較困難的蹬癌！

三权她、圖片型表格提取

最后也是最難處理的就是圖片型表格，經(jīng)常有人會問如何提取圖片型PDF中的表格/文本等信息逝薪。

其實本質(zhì)上就是提取圖片隅要，之后如何對圖片進(jìn)一步處理提取信息就與Python提取PDF表格這個主題沒有太大關(guān)系了！

這里我們也簡單進(jìn)行介紹董济，也就是先提取圖片再進(jìn)行OCR識別提取表格步清，在Python中可以使用Tesseract庫，首先需要pip安裝

pip install pytesseract

在Python中安裝完這個庫之后我們需要安裝exe文件以在后面代碼用到虏肾。

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下載安裝完即可廓啊，注意目前如果按照正常步驟安裝的話是不會識別中文的，所以需要安裝簡體中文語言包封豪，下載地址為https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata谴轮，將其放到Tesseract-OCR的tessdata目錄下即可。

接下來我們使用一個簡單的圖片型pdf如下：

第一步吹埠，提取圖片第步，這里使用在GUI辦公自動化系列中的圖片提取軟件來提取PDF中的圖片疮装，得到如下圖片：

接著執(zhí)行下方代碼識別圖片內(nèi)容：

import pytesseract
from PIL import Image
import pandas as pd
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
tiqu = pytesseract.image_to_string(Image.open('圖片型.jpg'))
print(tiqu)
tiqu = tiqu.split('\n')
while '' in tiqu:    #不能使用for
  tiqu.remove('')
  first = tiqu[:6]
  second = tiqu[6:12]
  third =  tiqu[12:]
  df = pd.DataFrame()
  df[first[0]] = first[1:]
  df[second[0]] = second[1:]
  df[third[0]] = third[1:]
#df.to_excel('圖片型表格.xlsx')  #轉(zhuǎn)為xlsx文件

我們的思路是用Tesseract-OCR來解析圖片，得到一個字符串粘都，接著對字符串運用split函數(shù)廓推，把字符串變成列表同時刪除\n。

接著可以發(fā)現(xiàn)我們的列表里還存在空格翩隧，這時我們用while循環(huán)來刪除這些空字符樊展，注意，這里不能用for循環(huán)堆生，因為每次刪除一個专缠，列表里的元素就會前進(jìn)一個，這樣會刪不完全顽频。最后就是用pandas把這些變成數(shù)據(jù)框形式藤肢。最終得到的效果如下：

可以看到，該圖片型表格內(nèi)容被完美解析與處理糯景！當(dāng)然能輕松搞定的原因也與這個表格足夠簡單有關(guān)嘁圈，在真實場景中的圖片可能會有更復(fù)雜的干擾因素，而這就需要大家在處理的同時自行找到一個最合適的辦法蟀淮！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末最住，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子怠惶，更是在濱河造成了極大的恐慌涨缚，老刑警劉巖，帶你破解...
沈念sama閱讀 218,682評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件策治，死亡現(xiàn)場離奇詭異脓魏，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)通惫，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,277評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門茂翔，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人履腋，你說我怎么就攤上這事珊燎。” “怎么了遵湖？”我有些...
開封第一講書人閱讀 165,083評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵悔政，是天一觀的道長。經(jīng)常有香客問我延旧，道長谋国，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,763評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任迁沫，我火速辦了婚禮芦瘾，結(jié)果婚禮上闷盔，老公的妹妹穿的比我還像新娘。我一直安慰自己旅急，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,785評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布牡整。她就那樣靜靜地躺著藐吮，像睡著了一般。火紅的嫁衣襯著肌膚如雪逃贝。梳的紋絲不亂的頭發(fā)上谣辞，一...
開封第一講書人閱讀 51,624評論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音沐扳，去河邊找鬼泥从。笑死，一個胖子當(dāng)著我的面吹牛沪摄，可吹牛的內(nèi)容都是我干的躯嫉。我是一名探鬼主播，決...
沈念sama閱讀 40,358評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼杨拐，長吁一口氣：“原來是場噩夢啊……” “哼祈餐！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起哄陶，我...
開封第一講書人閱讀 39,261評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤帆阳，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后屋吨，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蜒谤，經(jīng)...
沈念sama閱讀 45,722評論 1贊 315
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,900評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年至扰，在試婚紗的時候發(fā)現(xiàn)自己被綠了鳍徽。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,030評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡渊胸，死狀恐怖旬盯，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情翎猛，我是刑警寧澤胖翰，帶...
沈念sama閱讀 35,737評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站切厘，受9級特大地震影響萨咳，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜疫稿，卻給世界環(huán)境...
茶點故事閱讀 41,360評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一培他、第九天我趴在偏房一處隱蔽的房頂上張望鹃两。院中可真熱鬧，春花似錦舀凛、人聲如沸俊扳。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,941評論 0贊 22
一樁弒父案猛遍，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽馋记。三九已至，卻和暖如春懊烤，著一層夾襖步出監(jiān)牢的瞬間梯醒，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,057評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工腌紧，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留茸习，地道東北人。一個月前我還...
沈念sama閱讀 48,237評論 3贊 371
代替公主和親
正文我出身青樓壁肋，卻偏偏與公主長得像号胚，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子墩划，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,976評論 2贊 355

Python 提取 PDF 表格涉馁，三種類型數(shù)據(jù)轉(zhuǎn)換成 Excel

Python 提取 PDF 表格门岔，三種類型數(shù)據(jù)轉(zhuǎn)換成 Excel

一、簡單文本類型數(shù)據(jù)

二、復(fù)雜型表格提取

三权她、圖片型表格提取

推薦閱讀更多精彩內(nèi)容