概述
一般來說,我們無法對PDF文檔格式的內(nèi)容進(jìn)行修改編輯禀综,但當(dāng)我們確有此需求時衬浑,可通過提取文本內(nèi)容的方式來實現(xiàn)。本文就將介紹如何通過Java代碼來提取PDF文檔中的文本內(nèi)容快集。
此教程用到的第三方控件是Free Spire.PDF for Java(免費版)贡羔。根據(jù)不同需求,它可以支持以下三方面的提取功能个初。
●? 提取PDF文檔中的所有文本內(nèi)容
●? 提取PDF指定頁面的文本內(nèi)容
●? 提取PDF指定區(qū)域的文本內(nèi)容
Jar包的獲取及導(dǎo)入
在運行代碼前乖寒,需將Free Spire.PDF for Java控件中的Jar包導(dǎo)入IDEA中。導(dǎo)入方式有兩種:其一院溺,在官網(wǎng)上下載產(chǎn)品包楣嘁,解壓后將lib文件夾下的Spire.Pdf.jar手動導(dǎo)入IDEA;其二珍逸,在IDEA中創(chuàng)建一個Maven項目逐虚,然后在pom.xml文件中鍵入以下代碼,最后點擊“Import Changes”即可谆膳。
<repositories>
???????<repository>
???????????<id>com.e-iceblue</id>
???????????<url>http://repo.e-iceblue.cn/repository/maven-public/</url>
???????</repository>
??? </repositories>
<dependencies>
??? <dependency>
???????<groupId>e-iceblue</groupId>
???????<artifactId>spire.pdf.free</artifactId>
???????<version>3.9.0</version>
??? </dependency>
</dependencies>
示例代碼
示例1 提取PDF文檔中的所有文本內(nèi)容
import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;
public class ExtractAllText {
public static void main(String[] args) {
//創(chuàng)建PdfDocument實例
PdfDocument doc=new PdfDocument();
//加載PDF文檔
doc.loadFromFile("C:\\Users\\Test1\\Desktop\\Sample.pdf");
//創(chuàng)建StringBuilder實例
StringBuilder sb=new StringBuilder();
PdfPageBase page;
//遍歷PDF頁面叭爱,獲取每個頁面的文本并添加到StringBuilder對象
for(int i=0;i
page=doc.getPages().get(i);
sb.append(page.extractText(true));
??????? }
FileWriter writer;
try {
//將StringBuilder對象中的文本寫入到文本文件
writer = new FileWriter("output/ExtractText.txt");
writer.write(sb.toString());
writer.flush();
??????? }?catch (IOExceptione) {
??????????? e.printStackTrace();
??????? }
??????? doc.close();
??? }
}
提取效果:
示例2 提取PDF指定頁面的文本內(nèi)容
import com.spire.pdf.*;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractTextFromParticularPage {
public static void main(String[] args) throws IOException{
//加載PDF文檔
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile("C:\\Users\\Test1\\Desktop\\Sample.pdf");
//創(chuàng)建.txt文件,用于保存提取的文本
String result = "output/extractTextFromAParticularPage.txt";
File file=?new File(result);
if(!file.exists()){
??????????? file.delete();
??????? }
file.createNewFile();
FileWriter fw=?new FileWriter(file,true);
BufferedWriter bw=?new BufferedWriter(fw);
//獲取第一頁的文本
PdfPageBase page = pdf.getPages().get(0);
String text = page.extractText(true);
//String text = page.extractText(false);
??????? bw.write(text);
??????? bw.flush();
???? ???bw.close();
??????? fw.close();
??? }
}
提取效果:
示例3 提取PDF指定區(qū)域的文本內(nèi)容
import com.spire.pdf.*;
import java.awt.geom.Rectangle2D;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractTextFromSpecificArea {
public static void main(String[] args) throws IOException{
//加載PDF文檔
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile("C:\\Users\\Test1\\Desktop\\Sample.pdf");
//創(chuàng)建.txt文件漱病,用于保存提取的文本
File file=new File("output/extractTextFromASpecificArea.txt");
if(!file.exists()){
??????????? file.delete();
??????? }
?file.createNewFile();
FileWriter fw=?new FileWriter(file,true);
BufferedWriter bw=?new BufferedWriter(fw);
//獲取第一頁
PdfPageBase page = pdf.getPages().get(0);
//提取第一頁指定區(qū)域的文本
String text = page.extractText(new Rectangle2D.Float(80, 20,500, 110));
bw.write(text);
bw.flush();
bw.close();
fw.close();
??? }
}
提取效果: