PDF主要是面向展示和打印使用星立,并不需要文檔被編輯,所以很多編輯的屬性丟失了。當(dāng)您需要分析或修改PDF文檔數(shù)據(jù)時扭仁,您會發(fā)現(xiàn)PDF特別難操作炊琉≌沟伲可以將PDF保存為Excel工作簿,實現(xiàn)輕松編輯數(shù)據(jù)的需求。PDF轉(zhuǎn)Excel锰悼,技術(shù)關(guān)鍵就是提取原文檔內(nèi)的表格數(shù)據(jù)柳骄,保證轉(zhuǎn)換前后數(shù)據(jù)的一致性,方便復(fù)制粘貼及可輕松編輯箕般。本文將介紹如何使用 Spire.PDF for Python 在 Python 中實現(xiàn)PDF轉(zhuǎn) Excel夹界。
安裝 Spire.PDF for Python
本教程需要用到 Spire.PDF for Python“溃可通過以下 pip 命令將它們輕松安裝到 VS Code 中可柿。
pip install Spire.PDF
Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法能將 PDF 文件保存為 Excel 格式。以下是如何使用 Spire.PDF for Python 將 PDF 文檔轉(zhuǎn)換為 Excel XLSX 格式并指定轉(zhuǎn)換選項的具體步驟:
- 創(chuàng)建一個 PdfDocument 對象
- 使用 PdfDocument.LoadFromFile() 方法加載 PDF 文檔丙者。
- 創(chuàng)建一個 XlsxLineLayoutOptions 對象复斥,并將相應(yīng)的參數(shù)傳遞給 XlsxLineLayoutOptions 類的構(gòu)造函數(shù),以指定轉(zhuǎn)換選項械媒。
- 使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法應(yīng)用轉(zhuǎn)換選項目锭。
- 使用 PdfDocument.SaveToFile() 方法將 PDF 文檔保存為 Excel XLSX 格式。
from spire.pdf.common import *
from spire.pdf import *
# 創(chuàng)建PdfDocument對象
pdf = PdfDocument()
# 加載PDF文檔
pdf.LoadFromFile("Sample.pdf")
# 創(chuàng)建 XlsxLineLayoutOptions 對象來指定轉(zhuǎn)換選項
# 參數(shù): convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)
# 設(shè)置轉(zhuǎn)換選項
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)
# 將PDF文檔保存為Excel XLSX格式
pdf.SaveToFile("PdftoExcel.xlsx", FileFormat.XLSX)
pdf.Close()
將 PDF保存為Excel后纷捞,轉(zhuǎn)換后可以輕松提取文檔里面的數(shù)據(jù)痢虹。效果圖如下
除了將PDF保存為Excel, Spire.PDF for python組件還支持將PDF 存為OFD, PDF文檔轉(zhuǎn)換為Word, 將PDF另存為圖片,如PDF to PNG, JPG主儡,BMP等奖唯。