[Python] 自動化辦公 批量PDF處理(合并 拆分 水印 加密)

轉(zhuǎn)載請注明:陳熹 chenx6542@foxmail.com (簡書號:半為花間酒)
若公眾號內(nèi)轉(zhuǎn)載請聯(lián)系公眾號:早起Python

本例可以學(xué)到的知識點:

  1. os 模塊綜合應(yīng)用
  2. glob 模塊綜合應(yīng)用
  3. PyPDF2 模塊操作

之前已經(jīng)寫過一個PDF合并的案例:多個PDF合并成單個PDF
這個案例初衷只是給大家提供一個便利的腳本,并沒有太多講解原理
其中涉及的就是PDF處理很實用的模塊: PyPDF2
今天好好剖析一下這個模塊

PyPDF2 導(dǎo)入模塊的代碼常常是:

from PyPDF2 import PdfFileReader, PdfFileWriter

這里導(dǎo)入了兩個方法:

  1. PdfFileReader 可以理解為讀取器
  2. PdfFileWriter 可以理解為寫入器

接下來通過幾個案例進一步認(rèn)識這兩個工具的奇妙之處
用到的示例文件是5個發(fā)票的pdf

每個發(fā)票的PDF都由兩頁組成:

一析砸、合并

第一個工作是將5個發(fā)票pdf合并成10頁焦读。這里讀取器和寫入器應(yīng)該怎么配合呢菇肃?

邏輯

  1. 讀取器將所有pdf讀取一遍
  2. 讀取器將讀取的內(nèi)容交給寫入器
  3. 寫入器統(tǒng)一輸出到一個新pdf

這里還有一個重要的知識點:讀取器只能將讀取的內(nèi)容一頁一頁交給寫入器
因此界斜,邏輯中第1步和第2步實際上不是彼此獨立的步驟染簇,而是讀取器讀取完一個pdf后,就將這個pdf全部頁循環(huán)一遍,挨頁交給寫入器代赁。最后等讀取工作全部結(jié)束后再輸出

看一下代碼可以讓思路更清楚:

from PyPDF2 import PdfFileReader, PdfFileWriter

path = r'C:\Users\xxxxxx'
pdf_writer = PdfFileWriter()

for i in range(1, 6):
    pdf_reader = PdfFileReader(path + '/INV{}.pdf'.format(i))
    for page in range(pdf_reader.getNumPages()):
        pdf_writer.addPage(pdf_reader.getPage(page))

with open(path + r'\合并PDF\merge.pdf', 'wb') as out:
    pdf_writer.write(out)

由于全部內(nèi)容都需要交給同一個寫入器最后一起輸出,所以寫入器的初始化一定是在循環(huán)體之外的兽掰,如果在循環(huán)體內(nèi)則會變成每次訪問讀取一個pdf就生成一個新的寫入器管跺,這樣每一個讀取器交給寫入器的內(nèi)容就會被反復(fù)覆蓋,無法實現(xiàn)我們的合并需求

循環(huán)體開頭的代碼:

for i in range(1, 6):
    pdf_reader = PdfFileReader(path + '/INV{}.pdf'.format(i))

目的就是每次循環(huán)讀取一個新的pdf文件交給讀取器進行后續(xù)操作禾进。實際上這種寫法不是很提倡豁跑,由于各pdf命名恰好很規(guī)則,所以可以直接人為指定數(shù)字進行循環(huán)泻云。更好的方法是用 glob 模塊:

import glob
for file in glob.glob(path + '/*.pdf'):
    pdf_reader = PdfFileReader(path)

代碼中 pdf_reader.getNumPages(): 能夠獲取讀取器的頁數(shù)艇拍,配合 range 就能遍歷讀取器的所有頁
pdf_writer.addPage(pdf_reader.getPage(page)) 能夠?qū)?dāng)前頁交給寫入器
最后,用 with 新建一個pdf并由寫入器的 pdf_writer.write(out) 方法輸出即可

二宠纯、拆分

如果明白了合并操作中讀取器和寫入器的配合卸夕,那么拆分就很好理解了,這里我們以拆分 INV1.pdf 為2個單獨的pdf文檔為例婆瓜,同樣也先來捋一捋邏輯

邏輯

  1. 讀取器讀取PDF文檔
  2. 讀取器一頁一頁交給寫入器
  3. 寫入器每獲取一頁就立即輸出

通過這個代碼邏輯我們也可以明白快集,寫入器初始化和輸出的位置一定都在讀取PDF循環(huán)每一頁的循環(huán)體內(nèi)贡羔,而不是在循環(huán)體外

代碼很簡單:

from PyPDF2 import PdfFileReader, PdfFileWriter
path = r'C:\Users\xxx'
pdf_reader = PdfFileReader(path + '\INV1.pdf')

for page in range(pdf_reader.getNumPages()):
    # 遍歷到每一頁挨個生成寫入器
    pdf_writer = PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(page))
    # 寫入器被添加一頁后立即輸出產(chǎn)生pdf
    with open(path + '\INV1-{}.pdf'.format(page + 1), 'wb') as out:
        pdf_writer.write(out)

三、水印

本次的工作是將下圖:

作為水印添加到 INV1.pdf

首先是準(zhǔn)備工作个初,將需要作為水印的圖片插入word中調(diào)整合適位置后保存為PDF文件

然后就可以碼代碼了乖寒,需要額外用到 copy 模塊,具體解釋見下圖:

就是把讀取器和寫入器初始化院溺,并且把水印PDF頁先讀取好備用

核心代碼稍微比較難理解:

加水印本質(zhì)上就是把水印PDF頁和需要加水印的每一頁都合并一遍
由于需要加水印的PDF可能有很多頁楣嘁,而水印PDF只有一頁,因此如果直接把水印PDF拿來合并珍逸,可以抽象理解成加完第一頁逐虚,水印PDF頁就沒有了
因此不能直接拿來合并,而要把水印PDF頁不斷copy出來成新的一頁備用new_page谆膳,再運用.mergePage 方法完成跟每一頁合并叭爱,把合并后的頁交給寫入器待最后統(tǒng)一輸出

關(guān)于 .mergePage 的使用:出現(xiàn)在下面的頁.mergePage(出現(xiàn)在上面的頁)

最后效果如圖:

四、加密

加密很簡單漱病,只需要記茁蛭怼:加密是針對寫入器加密,因此只需要在相關(guān)操作完成后調(diào)用 pdf_writer.encrypt(密碼)

以單個PDF的加密為例:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末缨称,一起剝皮案震驚了整個濱河市凝果,隨后出現(xiàn)的幾起案子祝迂,更是在濱河造成了極大的恐慌睦尽,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件型雳,死亡現(xiàn)場離奇詭異当凡,居然都是意外死亡,警方通過查閱死者的電腦和手機纠俭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門沿量,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人冤荆,你說我怎么就攤上這事朴则。” “怎么了钓简?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵乌妒,是天一觀的道長。 經(jīng)常有香客問我外邓,道長撤蚊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任损话,我火速辦了婚禮侦啸,結(jié)果婚禮上槽唾,老公的妹妹穿的比我還像新娘。我一直安慰自己光涂,他們只是感情好庞萍,可當(dāng)我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著顶捷,像睡著了一般挂绰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上服赎,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天葵蒂,我揣著相機與錄音,去河邊找鬼重虑。 笑死践付,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的缺厉。 我是一名探鬼主播永高,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼提针!你這毒婦竟也來了命爬?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤辐脖,失蹤者是張志新(化名)和其女友劉穎饲宛,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嗜价,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡艇抠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了久锥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片家淤。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖瑟由,靈堂內(nèi)的尸體忽然破棺而出絮重,到底是詐尸還是另有隱情,我是刑警寧澤歹苦,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布青伤,位于F島的核電站,受9級特大地震影響暂氯,放射性物質(zhì)發(fā)生泄漏潮模。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一痴施、第九天 我趴在偏房一處隱蔽的房頂上張望擎厢。 院中可真熱鬧究流,春花似錦、人聲如沸动遭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽厘惦。三九已至偷仿,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間宵蕉,已是汗流浹背酝静。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留羡玛,地道東北人别智。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像稼稿,于是被迫代替她去往敵國和親薄榛。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,037評論 2 355