大家好,我是“Java分布式架構(gòu)實(shí)戰(zhàn)”的作者Jamesfu寿桨。
需求背景
最近在做一個(gè)項(xiàng)目,需要將CMS中的內(nèi)容動(dòng)態(tài)地生成word文檔和pdf文檔。
word模板
Word模板主要包括頁(yè)眉鸯旁、頁(yè)腳、正文量蕊。正文中又分為標(biāo)題铺罢、題注、富文本內(nèi)容残炮。
- 經(jīng)過(guò)調(diào)研韭赘、測(cè)試發(fā)現(xiàn),Easypoi能較好地滿足模板化生成势就。但是沒(méi)有發(fā)現(xiàn)如何插入富文本內(nèi)容泉瞻。
- 后來(lái)發(fā)現(xiàn)docx4j能夠插入富文本內(nèi)容。
使用Easypoi解析word模板
//構(gòu)造規(guī)章文檔生成參數(shù)
String notes = "";
if (StringUtils.isNotBlank(articleInsertVo.getNotes())) {
notes = "(" + articleInsertVo.getNotes() + ")";
}
Map<String, String> params = new HashMap<>();
params.put("title", articleInsertVo.getTitle());
params.put("notes", notes);
params.put("content", articleInsertVo.getContent());
XWPFDocument doc = WordExportUtil.exportWord07(templatePath, data)
FileOutputStream fos = new FileOutputStream(outputFile)
doc.write(fos);
fos.flush();
fos.close();
使用docx4j插入富文本內(nèi)容
### 對(duì)html進(jìn)行標(biāo)準(zhǔn)化處理并增加字符集設(shè)置
Document document = org.jsoup.Jsoup.parse(htmlContent);
document.head().prepend("<meta charset=\"utf-8\"/>");
String normalizedHtmlContent = document.html();
### 將標(biāo)準(zhǔn)化后的html內(nèi)容插入word文件
WordprocessingMLPackage aPackage = WordprocessingMLPackage.load(outputFile);
MainDocumentPart mainDocumentPart = aPackage.getMainDocumentPart();
mainDocumentPart.addAltChunk(AltChunkType.Html, normalizedHtmlContent.getBytes(Charsets.UTF_8));
aPackage.save(outputFile);
將本地文件outputFile上傳到OSS
### 將本地文件轉(zhuǎn)換成MultipartFile后苞冯,執(zhí)行上傳
private MultipartFile fileToMultipartFile(File localFile) throws IOException {
FileItem fileItem = new DiskFileItem("file",
Files.probeContentType(localFile.toPath()),
false, localFile.getName(),
(int) localFile.length(),
localFile.getParentFile());
MultipartFile multipartFile;
try (InputStream input = new FileInputStream(localFile); OutputStream os = fileItem.getOutputStream()) {
IOUtils.copy(input, os);
multipartFile = new CommonsMultipartFile(fileItem);
return multipartFile;
} catch (IOException ex) {
throw new RuntimeException(ex);
}
}
最終效果
最終瓦灶,通過(guò)了Windows,MacOS上的Microsoft Word\WPS測(cè)試。
遇到的問(wèn)題
- 僅使用Easypoi生成的word文檔如下
- 使用docx4j向word文件中追加html網(wǎng)頁(yè)內(nèi)容時(shí)顯示html標(biāo)簽
經(jīng)過(guò)排查發(fā)現(xiàn)html內(nèi)容不規(guī)范抱完,缺少html/head/body標(biāo)簽贼陶,可以通過(guò)Jsoup進(jìn)行標(biāo)準(zhǔn)化。
Document document = org.jsoup.Jsoup.parse(htmlContent);
document.head().prepend("<meta charset=\"utf-8\"/>");
String normalizedHtmlContent = document.html();
- 使用docx4j向word文件中追加html網(wǎng)頁(yè)內(nèi)容時(shí)顯示亂碼
經(jīng)過(guò)排查發(fā)現(xiàn)html內(nèi)容head中缺少meta標(biāo)簽:<meta charset="utf-8"/>
總結(jié)
本項(xiàng)目的難點(diǎn)在于正文是富文本編輯器產(chǎn)生的一段html內(nèi)容巧娱,最終通過(guò)Easypoi和docx4j組合來(lái)生成word文檔碉怔。在測(cè)試過(guò)程中,本來(lái)想用word轉(zhuǎn)pdf禁添,經(jīng)過(guò)測(cè)試發(fā)現(xiàn)docx4j轉(zhuǎn)pdf不能正常處理頁(yè)眉撮胧、頁(yè)腳和html內(nèi)容部分。后來(lái)發(fā)現(xiàn)可以考慮用wkhtmltopdf來(lái)生成pdf老翘。
/usr/local/bin/wkhtmltopdf \
--enable-local-file-access \
--header-html file:///Users/jamesfu/data/temp/ruleArticle/header.html \
--footer-html file:///Users/jamesfu/data/temp/ruleArticle/footer.html \
/Users/jamesfu/data/temp/ruleArticle/gz.html \
/Users/jamesfu/data/temp/ruleArticle/gz.pdf
看到這個(gè)結(jié)果我還是挺興奮的芹啥,wkhtmltopdf幫助我們打印出來(lái)漂亮的頁(yè)眉锻离、頁(yè)腳和內(nèi)容,只是出現(xiàn)了亂碼而已墓怀。此亂碼問(wèn)題汽纠,應(yīng)該是文件亂碼導(dǎo)致的。通過(guò)Visual Studio Code查看文件發(fā)現(xiàn)是UTF-8編碼.
那為什么還會(huì)打印出亂碼呢傀履?
我點(diǎn)擊右下角的編碼,彈出菜單虱朵,選擇“Save with Encoding”, 文件重新保存為“UTF-8”。
文件編碼調(diào)整為“UTF-8”后钓账,重新打印為pdf文件碴犬,一切正常了,接下來(lái)還需要研究書(shū)簽和目錄梆暮。
先簡(jiǎn)單寫(xiě)到這里吧服协,這一周為這個(gè)事費(fèi)了不少精力。
參考資料
- DOCX4J操作WORD文檔之替換模板數(shù)據(jù)
- docx4j-convert-html-to-docx
- converting docx to pdf
- converting docx to pdf
- https://blog.csdn.net/csonst1017/article/details/105533619
- Java 通過(guò)wkhtmltopdf在線生成PDF及遇到的坑
- https://wkhtmltopdf.org/
- <meta>:文檔級(jí)元數(shù)據(jù)元素
- Java中解析HTML框架之Jsoup
- jsoup 標(biāo)準(zhǔn)化html代碼,Jsoup從元素抽取屬性啦粹,文本和HTML
- @SneakyThrows
- CSS字體中英文名稱(chēng)對(duì)照表 CSS常用中文字體英文名稱(chēng)對(duì)照表
- XHTML 與 HTML 之間的差異
- CSS Fonts Module Level 4
- Doctype