PDF表格信息提取

本文作者:王碧琪
文字編輯:錢夢璇
技術(shù)總編:張 邯

在《提取PDF文本信息:入門》中壁酬,我們介紹了使用pdfminer提取PDF中的信息,其中提取的是文本內(nèi)容巷查,而對于表格內(nèi)容皱坛,使用pdfminer會(huì)輸出無格式的文本,不能保留表格格式靶剑,而pdfplumber就能很好的解決問題。本文將比較兩個(gè)方法的差異池充。
待處理的PDF文檔中的表格如下:

image

一桩引、pdfminer

我們用以下程序使用pdfminer進(jìn)行提取(具體原理已在上篇文章中詳述):

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *

parser = PDFParser(open(r"d: \table.pdf"))  
doc = PDFDocument() 
parser.set_document(doc) 
doc.set_parser(parser) 

rsrcmgr = PDFResourceManager() #創(chuàng)建PDF資源管理器來管理共享資源
laparams = LAParams() #創(chuàng)建一個(gè)PDF設(shè)備對象
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device) #創(chuàng)建一個(gè)PDF解釋器對象

with open(r"d:\table.txt", 'w') as f:
    for page in doc.get_pages(): #循環(huán)遍歷列表,每次處理一個(gè)page的內(nèi)容
        interpreter.process_page(page)
        layout = device.get_result()
        for x in layout:
            if isinstance(x, LTTextBox):
                print(x.get_text().strip())
                f.write(x.get_text().strip()+"\n")

結(jié)果為:

2010
Things
Quantity
Apples
Oranges
Pears
10
20
8

由于只能提取文字收夸,這樣的結(jié)果已經(jīng)破壞了最初的表格樣式坑匠。

二、pdfplumber

首先導(dǎo)入庫咱圆,生成pdfplumber對象:

import pdfplumber 
pdf = pdfplumber.open(r"d: \table.pdf") 
print(pdf)

結(jié)果如下:

<pdfplumber.pdf.PDF object at 0x000001A536631DC8>

結(jié)果表明生成了一個(gè)pdfplumber對象笛辟,我們可以調(diào)用.pages()方法解析得到每一頁的內(nèi)容:

pages=pdf.pages 
print(pages)

結(jié)果如下:

[<pdfplumber.page.Page object at 0x000001A534FD8348>]

生成的可迭代對象可以通過for遍歷:

for p in pages:
    table1=p.extract_table()
    print(table1)

結(jié)果如下:

[['2010', None], ['Things', 'Quantity'], ['Apples', '10'], ['Oranges', '20'], ['Pears', '8']]

table1是一個(gè)列表,到這里我們就得到了文檔中的表格內(nèi)容了序苏。列表table1中有若干個(gè)小列表手幢,分別表示表格內(nèi)容中的每一行,每個(gè)小列表中有兩個(gè)元素忱详,雖然原表格內(nèi)容的第一行只有一個(gè)元素围来,但是這里的結(jié)果是補(bǔ)齊成兩個(gè)元素。我們逐行打印出來匈睁。

for unitrow in table1:
print(unitrow)

結(jié)果如下:

['2010', None]
['Things', 'Quantity']
['Apples', '10']
['Oranges', '20']
['Pears', '8']

另外监透,這里為了更清晰明了地展示列表內(nèi)容,可以引入pandas庫航唆。

import pandas as pd

df=pd.DataFrame(table1[1:],columns=table1[0])
print(df)

結(jié)果如下:


image

這樣胀蛮,就得到了比較規(guī)整的保留原格式的PDF表格內(nèi)容了。PDF文檔的內(nèi)容提取比較費(fèi)工夫糯钙,這里提供的表格內(nèi)容提取方式相對比較成熟粪狼。接下來,小編將繼續(xù)探索PDF文檔的內(nèi)容提取方式任岸,敬請關(guān)注~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末再榄,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子享潜,更是在濱河造成了極大的恐慌困鸥,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件剑按,死亡現(xiàn)場離奇詭異疾就,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)吕座,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進(jìn)店門虐译,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人吴趴,你說我怎么就攤上這事漆诽。” “怎么了锣枝?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵厢拭,是天一觀的道長。 經(jīng)常有香客問我撇叁,道長供鸠,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任陨闹,我火速辦了婚禮楞捂,結(jié)果婚禮上薄坏,老公的妹妹穿的比我還像新娘。我一直安慰自己寨闹,他們只是感情好胶坠,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著繁堡,像睡著了一般沈善。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上椭蹄,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天闻牡,我揣著相機(jī)與錄音,去河邊找鬼绳矩。 笑死罩润,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的埋酬。 我是一名探鬼主播哨啃,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼写妥!你這毒婦竟也來了拳球?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤珍特,失蹤者是張志新(化名)和其女友劉穎祝峻,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體扎筒,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡莱找,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了嗜桌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片奥溺。...
    茶點(diǎn)故事閱讀 40,561評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖骨宠,靈堂內(nèi)的尸體忽然破棺而出浮定,到底是詐尸還是另有隱情,我是刑警寧澤层亿,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布桦卒,位于F島的核電站,受9級特大地震影響匿又,放射性物質(zhì)發(fā)生泄漏方灾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一碌更、第九天 我趴在偏房一處隱蔽的房頂上張望裕偿。 院中可真熱鬧洞慎,春花似錦、人聲如沸嘿棘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蔫巩。三九已至,卻和暖如春快压,著一層夾襖步出監(jiān)牢的瞬間圆仔,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工蔫劣, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留坪郭,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓脉幢,卻偏偏與公主長得像歪沃,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子嫌松,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評論 2 359