市面上的PDF合并和壓縮挺貴的,雖然有很多免費(fèi)額度琉历,但是文件一旦大到定程度坠七,動(dòng)不動(dòng)就要開(kāi)會(huì)員,其實(shí)要是懂點(diǎn)R語(yǔ)言或者其他語(yǔ)言旗笔,其實(shí)是完全不需要花費(fèi)任何money的彪置,而且速度可能比線上的壓縮合并更快
R語(yǔ)言處理PDF軟件包精選 - 知乎 (zhihu.com)
這篇文章很好介紹了目前PDF操作有哪些R包::
R中可以對(duì)PDF做很多操作,如關(guān)鍵詞提取蝇恶、頁(yè)數(shù)統(tǒng)計(jì)拳魁、多PDF拆分與合并等。這里精選相關(guān)R包撮弧,以便于后續(xù)取用潘懊。
CRAN - Package pdfsearch:可以找到關(guān)鍵字在PDF文件中的所在行耀盗,以及上下的行的文本。如果要對(duì)PDF文件做文本分析卦尊,是一個(gè)很好的工具。
CRAN - Package staplr:對(duì)PDF文件進(jìn)行合并舌厨、拆分岂却、刪除、旋轉(zhuǎn)裙椭、重命名等操作躏哩。
CRAN - Package qpdf:對(duì)PDF文件進(jìn)行拆分、合并和壓縮揉燃。
CRAN - Package pdftools:可以對(duì)PDF中的數(shù)據(jù)進(jìn)行提取扫尺,同時(shí)可以高效轉(zhuǎn)格式(如JPG等圖片格式)。
這里我主要是用 qpdf
使用也就是幾句代碼而已
getwd()
setwd("文件位置的絕對(duì)路徑")
sort(dir()) #查看這個(gè)文件夾下有什么文件炊汤,主要有以下文件
#[1] "1-1.pdf" "1-2.pdf" "1-3.pdf" "1-4.pdf" "1-5.pdf"
# [6] "1-6.pdf" "1-7.pdf" "1-8.pdf" "1-9.pdf" "10.pdf"
#[11] "11.pdf" "12.pdf" "13.pdf" "14.pdf" "15.pdf"
#[16] "16.pdf" "17.pdf" "18.pdf" "19.pdf" "20.pdf"
于是就把這個(gè)文件夾下面所有的pdf合并了(普通電腦不知道要多久正驻,300M的文件反正服務(wù)器一秒搞完)
library(qpdf)
pdf_combine(sort(dir()),
output = "all_new.pdf")
壓縮PDF
pdf_compress("all_new.pdf",linearize = T)
其實(shí)它還有拆分PDF等功能
Details
Currently the package provides the following wrappers:
pdf_length: show the number of pages in a pdf
pdf_split: split a single pdf into separate files, one for each page
pdf_subset: create a new pdf with a subset of the input pages
pdf_combine: join several pdf files into one
pdf_compress: compress or linearize a pdf file
但是要是PDF文件合并之后有大有小怎么辦?這個(gè)R包就幫不上什么忙抢腐,但是研究了一下發(fā)現(xiàn)有些小技巧:
用edge瀏覽器打開(kāi)PDF姑曙,然后選擇打印,選擇Microsoft Print to PDF迈倍,默認(rèn)選擇A4伤靠,然后打印為PDF就OK了,東西就非常整齊啼染,而且大小也會(huì)小很多宴合。