[Python] 自動化辦公批量PDF處理（合并拆分水印加密）

轉(zhuǎn)載請注明：陳熹 chenx6542@foxmail.com （簡書號：半為花間酒）
若公眾號內(nèi)轉(zhuǎn)載請聯(lián)系公眾號：早起Python

本例可以學(xué)到的知識點：

os 模塊綜合應(yīng)用

glob 模塊綜合應(yīng)用

PyPDF2 模塊操作

之前已經(jīng)寫過一個PDF合并的案例：多個PDF合并成單個PDF
這個案例初衷只是給大家提供一個便利的腳本，并沒有太多講解原理
其中涉及的就是PDF處理很實用的模塊： PyPDF2
今天好好剖析一下這個模塊

PyPDF2 導(dǎo)入模塊的代碼常常是：

from PyPDF2 import PdfFileReader, PdfFileWriter

這里導(dǎo)入了兩個方法：

PdfFileReader 可以理解為讀取器
PdfFileWriter 可以理解為寫入器

接下來通過幾個案例進一步認(rèn)識這兩個工具的奇妙之處
用到的示例文件是5個發(fā)票的pdf

每個發(fā)票的PDF都由兩頁組成：

一析砸、合并

第一個工作是將5個發(fā)票pdf合并成10頁焦读。這里讀取器和寫入器應(yīng)該怎么配合呢菇肃？

邏輯：

讀取器將所有pdf讀取一遍
讀取器將讀取的內(nèi)容交給寫入器
寫入器統(tǒng)一輸出到一個新pdf

這里還有一個重要的知識點：讀取器只能將讀取的內(nèi)容一頁一頁交給寫入器
因此界斜，邏輯中第1步和第2步實際上不是彼此獨立的步驟染簇，而是讀取器讀取完一個pdf后，就將這個pdf全部頁循環(huán)一遍，挨頁交給寫入器代赁。最后等讀取工作全部結(jié)束后再輸出

看一下代碼可以讓思路更清楚：

from PyPDF2 import PdfFileReader, PdfFileWriter

path = r'C:\Users\xxxxxx'
pdf_writer = PdfFileWriter()

for i in range(1, 6):
    pdf_reader = PdfFileReader(path + '/INV{}.pdf'.format(i))
    for page in range(pdf_reader.getNumPages()):
        pdf_writer.addPage(pdf_reader.getPage(page))

with open(path + r'\合并PDF\merge.pdf', 'wb') as out:
    pdf_writer.write(out)

由于全部內(nèi)容都需要交給同一個寫入器最后一起輸出，所以寫入器的初始化一定是在循環(huán)體之外的兽掰，如果在循環(huán)體內(nèi)則會變成每次訪問讀取一個pdf就生成一個新的寫入器管跺，這樣每一個讀取器交給寫入器的內(nèi)容就會被反復(fù)覆蓋，無法實現(xiàn)我們的合并需求

循環(huán)體開頭的代碼：

for i in range(1, 6):
    pdf_reader = PdfFileReader(path + '/INV{}.pdf'.format(i))

目的就是每次循環(huán)讀取一個新的pdf文件交給讀取器進行后續(xù)操作禾进。實際上這種寫法不是很提倡豁跑，由于各pdf命名恰好很規(guī)則，所以可以直接人為指定數(shù)字進行循環(huán)泻云。更好的方法是用 glob 模塊：

import glob
for file in glob.glob(path + '/*.pdf'):
    pdf_reader = PdfFileReader(path)

代碼中 pdf_reader.getNumPages(): 能夠獲取讀取器的頁數(shù)艇拍，配合 range 就能遍歷讀取器的所有頁
pdf_writer.addPage(pdf_reader.getPage(page)) 能夠?qū)?dāng)前頁交給寫入器
最后，用 with 新建一個pdf并由寫入器的 pdf_writer.write(out) 方法輸出即可

二宠纯、拆分

如果明白了合并操作中讀取器和寫入器的配合卸夕，那么拆分就很好理解了，這里我們以拆分 INV1.pdf 為2個單獨的pdf文檔為例婆瓜，同樣也先來捋一捋邏輯

邏輯：

讀取器讀取PDF文檔
讀取器一頁一頁交給寫入器
寫入器每獲取一頁就立即輸出

通過這個代碼邏輯我們也可以明白快集，寫入器初始化和輸出的位置一定都在讀取PDF循環(huán)每一頁的循環(huán)體內(nèi)贡羔，而不是在循環(huán)體外

代碼很簡單：

from PyPDF2 import PdfFileReader, PdfFileWriter
path = r'C:\Users\xxx'
pdf_reader = PdfFileReader(path + '\INV1.pdf')

for page in range(pdf_reader.getNumPages()):
    # 遍歷到每一頁挨個生成寫入器
    pdf_writer = PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(page))
    # 寫入器被添加一頁后立即輸出產(chǎn)生pdf
    with open(path + '\INV1-{}.pdf'.format(page + 1), 'wb') as out:
        pdf_writer.write(out)

三、水印

本次的工作是將下圖：

作為水印添加到 INV1.pdf 中

首先是準(zhǔn)備工作个初，將需要作為水印的圖片插入word中調(diào)整合適位置后保存為PDF文件

然后就可以碼代碼了乖寒，需要額外用到 copy 模塊，具體解釋見下圖：

就是把讀取器和寫入器初始化院溺，并且把水印PDF頁先讀取好備用

核心代碼稍微比較難理解：

加水印本質(zhì)上就是把水印PDF頁和需要加水印的每一頁都合并一遍
由于需要加水印的PDF可能有很多頁楣嘁，而水印PDF只有一頁，因此如果直接把水印PDF拿來合并珍逸，可以抽象理解成加完第一頁逐虚，水印PDF頁就沒有了
因此不能直接拿來合并，而要把水印PDF頁不斷copy出來成新的一頁備用new_page谆膳，再運用.mergePage 方法完成跟每一頁合并叭爱，把合并后的頁交給寫入器待最后統(tǒng)一輸出

關(guān)于 .mergePage 的使用：出現(xiàn)在下面的頁.mergePage(出現(xiàn)在上面的頁)

最后效果如圖：

四、加密

加密很簡單漱病，只需要記茁蛭怼：加密是針對寫入器加密，因此只需要在相關(guān)操作完成后調(diào)用 pdf_writer.encrypt(密碼)

以單個PDF的加密為例：

[Python] 自動化辦公 批量PDF處理（合并 拆分 水印 加密）

一析砸、合并

二宠纯、拆分

三、水印

四、加密

[Python] 自動化辦公批量PDF處理（合并拆分水印加密）