easypoi+docx4j+wkhtmltopdf生成帶有富文本編輯內(nèi)容的word和pdf

大家好,我是“Java分布式架構(gòu)實(shí)戰(zhàn)”的作者Jamesfu寿桨。

需求背景

最近在做一個(gè)項(xiàng)目,需要將CMS中的內(nèi)容動(dòng)態(tài)地生成word文檔和pdf文檔。

word模板

Word模板主要包括頁(yè)眉鸯旁、頁(yè)腳、正文量蕊。正文中又分為標(biāo)題铺罢、題注、富文本內(nèi)容残炮。


image.png
  1. 經(jīng)過(guò)調(diào)研韭赘、測(cè)試發(fā)現(xiàn),Easypoi能較好地滿足模板化生成势就。但是沒(méi)有發(fā)現(xiàn)如何插入富文本內(nèi)容泉瞻。
  2. 后來(lái)發(fā)現(xiàn)docx4j能夠插入富文本內(nèi)容。

使用Easypoi解析word模板

//構(gòu)造規(guī)章文檔生成參數(shù)
String notes = "";
if (StringUtils.isNotBlank(articleInsertVo.getNotes())) {
    notes = "(" + articleInsertVo.getNotes() + ")";
}
Map<String, String> params = new HashMap<>();
params.put("title", articleInsertVo.getTitle());
params.put("notes", notes);
params.put("content", articleInsertVo.getContent());

XWPFDocument doc = WordExportUtil.exportWord07(templatePath, data)
FileOutputStream fos = new FileOutputStream(outputFile)
doc.write(fos);
fos.flush();
fos.close();

使用docx4j插入富文本內(nèi)容

### 對(duì)html進(jìn)行標(biāo)準(zhǔn)化處理并增加字符集設(shè)置
Document document = org.jsoup.Jsoup.parse(htmlContent);
document.head().prepend("<meta charset=\"utf-8\"/>");
String normalizedHtmlContent = document.html();

### 將標(biāo)準(zhǔn)化后的html內(nèi)容插入word文件
WordprocessingMLPackage aPackage = WordprocessingMLPackage.load(outputFile);
MainDocumentPart mainDocumentPart = aPackage.getMainDocumentPart();
mainDocumentPart.addAltChunk(AltChunkType.Html, normalizedHtmlContent.getBytes(Charsets.UTF_8));
aPackage.save(outputFile);

將本地文件outputFile上傳到OSS

### 將本地文件轉(zhuǎn)換成MultipartFile后苞冯,執(zhí)行上傳
private MultipartFile fileToMultipartFile(File localFile) throws IOException {
    FileItem fileItem = new DiskFileItem("file",
            Files.probeContentType(localFile.toPath()),
            false, localFile.getName(),
            (int) localFile.length(),
            localFile.getParentFile());
    MultipartFile multipartFile;
    try (InputStream input = new FileInputStream(localFile); OutputStream os = fileItem.getOutputStream()) {
        IOUtils.copy(input, os);
        multipartFile = new CommonsMultipartFile(fileItem);
        return multipartFile;
    } catch (IOException ex) {
        throw new RuntimeException(ex);
    }
}

最終效果

最終瓦灶,通過(guò)了Windows,MacOS上的Microsoft Word\WPS測(cè)試。

image.png

遇到的問(wèn)題

  1. 僅使用Easypoi生成的word文檔如下
image.png
  1. 使用docx4j向word文件中追加html網(wǎng)頁(yè)內(nèi)容時(shí)顯示html標(biāo)簽
    經(jīng)過(guò)排查發(fā)現(xiàn)html內(nèi)容不規(guī)范抱完,缺少html/head/body標(biāo)簽贼陶,可以通過(guò)Jsoup進(jìn)行標(biāo)準(zhǔn)化。
Document document = org.jsoup.Jsoup.parse(htmlContent);
document.head().prepend("<meta charset=\"utf-8\"/>");
String normalizedHtmlContent = document.html();
image.png
  1. 使用docx4j向word文件中追加html網(wǎng)頁(yè)內(nèi)容時(shí)顯示亂碼
    經(jīng)過(guò)排查發(fā)現(xiàn)html內(nèi)容head中缺少meta標(biāo)簽:<meta charset="utf-8"/>
    image.png

總結(jié)

本項(xiàng)目的難點(diǎn)在于正文是富文本編輯器產(chǎn)生的一段html內(nèi)容巧娱,最終通過(guò)Easypoi和docx4j組合來(lái)生成word文檔碉怔。在測(cè)試過(guò)程中,本來(lái)想用word轉(zhuǎn)pdf禁添,經(jīng)過(guò)測(cè)試發(fā)現(xiàn)docx4j轉(zhuǎn)pdf不能正常處理頁(yè)眉撮胧、頁(yè)腳和html內(nèi)容部分。后來(lái)發(fā)現(xiàn)可以考慮用wkhtmltopdf來(lái)生成pdf老翘。

/usr/local/bin/wkhtmltopdf \
--enable-local-file-access \
--header-html file:///Users/jamesfu/data/temp/ruleArticle/header.html \
--footer-html file:///Users/jamesfu/data/temp/ruleArticle/footer.html \
/Users/jamesfu/data/temp/ruleArticle/gz.html \
/Users/jamesfu/data/temp/ruleArticle/gz.pdf
image.png

看到這個(gè)結(jié)果我還是挺興奮的芹啥,wkhtmltopdf幫助我們打印出來(lái)漂亮的頁(yè)眉锻离、頁(yè)腳和內(nèi)容,只是出現(xiàn)了亂碼而已墓怀。此亂碼問(wèn)題汽纠,應(yīng)該是文件亂碼導(dǎo)致的。通過(guò)Visual Studio Code查看文件發(fā)現(xiàn)是UTF-8編碼.

image.png

那為什么還會(huì)打印出亂碼呢傀履?

我點(diǎn)擊右下角的編碼,彈出菜單虱朵,選擇“Save with Encoding”, 文件重新保存為“UTF-8”。

image.png

文件編碼調(diào)整為“UTF-8”后钓账,重新打印為pdf文件碴犬,一切正常了,接下來(lái)還需要研究書(shū)簽和目錄梆暮。

image.png

先簡(jiǎn)單寫(xiě)到這里吧服协,這一周為這個(gè)事費(fèi)了不少精力。

參考資料

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末偿荷,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子卖陵,更是在濱河造成了極大的恐慌遭顶,老刑警劉巖张峰,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件泪蔫,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡喘批,警方通過(guò)查閱死者的電腦和手機(jī)撩荣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)饶深,“玉大人餐曹,你說(shuō)我怎么就攤上這事〉欣澹” “怎么了台猴?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)俱两。 經(jīng)常有香客問(wèn)我饱狂,道長(zhǎng),這世上最難降的妖魔是什么宪彩? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任休讳,我火速辦了婚禮,結(jié)果婚禮上尿孔,老公的妹妹穿的比我還像新娘俊柔。我一直安慰自己筹麸,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布雏婶。 她就那樣靜靜地躺著物赶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪尚骄。 梳的紋絲不亂的頭發(fā)上块差,一...
    開(kāi)封第一講書(shū)人閱讀 49,036評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音倔丈,去河邊找鬼憨闰。 笑死,一個(gè)胖子當(dāng)著我的面吹牛需五,可吹牛的內(nèi)容都是我干的鹉动。 我是一名探鬼主播,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼宏邮,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼泽示!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起蜜氨,我...
    開(kāi)封第一講書(shū)人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤械筛,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后飒炎,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體埋哟,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年郎汪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了赤赊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡煞赢,死狀恐怖抛计,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情照筑,我是刑警寧澤吹截,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站凝危,受9級(jí)特大地震影響波俄,放射性物質(zhì)發(fā)生泄漏污秆。R本人自食惡果不足惜夕凝,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一对嚼、第九天 我趴在偏房一處隱蔽的房頂上張望碗短。 院中可真熱鬧博个,春花似錦茅郎、人聲如沸氢架。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)刘急。三九已至棚菊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間叔汁,已是汗流浹背统求。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留据块,地道東北人码邻。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像另假,于是被迫代替她去往敵國(guó)和親像屋。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容