itext 中文亂碼問題

最近項(xiàng)目中用到itext來將html轉(zhuǎn)換為pdf纤泵，itext功能確實(shí)強(qiáng)大能方便的讓您操作pdf文件骆姐。同樣其對中文也支持的挺好。

? 在默認(rèn)配置情況下捏题，中文是不能顯示的或者顯示為亂碼玻褪。為解決此問題，搜遍網(wǎng)絡(luò)公荧，得出結(jié)論是在創(chuàng)建paragrahp時(shí)將中文字體傳遞給pdfdocument带射。但問題是在項(xiàng)目中需要將html轉(zhuǎn)換為pdf文件，這樣創(chuàng)建paragrahp是由html解析器進(jìn)行處理的循狰，總不能修改itext源代碼吧窟社？miciu網(wǎng)站的大大就是用此方案，將itext中3個(gè)源代碼修改從而保證中文可以顯示绪钥。

? 不過miciu網(wǎng)站大大思路啟發(fā)了我去研究itext的源代碼灿里。使用itext來轉(zhuǎn)換html到pdf時(shí)，在新版本中5.4.2中用xmlworker組件是比較明智的選擇程腹。通過研究發(fā)現(xiàn)itext xmlworker實(shí)際提供了某種擴(kuò)展方式來顯示中文匣吊，特別是中文默認(rèn)字體問題。對于沒有顯示聲明css樣式的字體跪楞，默認(rèn)使用undefine字體樣式缀去，這對于英文是可行的，對于中文來說甸祭，這是不可接受的缕碎，因此擴(kuò)展其字體提供方式，讓轉(zhuǎn)換器在轉(zhuǎn)換過程中碰到默認(rèn)字體用宋體來顯示池户，這樣就解決了中文不能顯示或者亂碼的問題咏雌。

? 具體代碼參考如下：

```

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import com.itextpdf.text.Document;

import com.itextpdf.text.DocumentException;

import com.itextpdf.text.Font;

import com.itextpdf.text.pdf.PdfWriter;

import com.itextpdf.tool.xml.Pipeline;

import com.itextpdf.tool.xml.XMLWorker;

import com.itextpdf.tool.xml.XMLWorkerFontProvider;

import com.itextpdf.tool.xml.XMLWorkerHelper;

import com.itextpdf.tool.xml.exceptions.C***esolverException;

import com.itextpdf.tool.xml.html.CssAppliers;

import com.itextpdf.tool.xml.html.CssAppliersImpl;

import com.itextpdf.tool.xml.html.Tags;

import com.itextpdf.tool.xml.parser.XMLParser;

import com.itextpdf.tool.xml.pipeline.css.C×××esolver;

import com.itextpdf.tool.xml.pipeline.css.C***esolverPipeline;

import com.itextpdf.tool.xml.pipeline.end.PdfWriterPipeline;

import com.itextpdf.tool.xml.pipeline.html.HtmlPipeline;

import com.itextpdf.tool.xml.pipeline.html.HtmlPipelineContext;

public class XMLWorkerDemo {

? ? public static class MyFontsProvider extends XMLWorkerFontProvider{

? ? ? ? public MyFontsProvider(){

? ? ? ? ? ? super(null,null);

? ? ? ? }

? ? ? ? @Override

? ? ? ? public Font getFont(final String fontname, String encoding, float size, final int style) {

? ? ? ? ? ? String fntname = fontname;

? ? ? ? ? ? if(fntname==null){

? ? ? ? ? ? ? ? fntname="宋體";

? ? ? ? ? ? }

? ? ? ? ? ? return super.getFont(fntname, encoding, size, style);

? ? ? ? }

? ? }

? ? private static String dirpath = "";

? ? public static void main(String[] args) throws FileNotFoundException, IOException, DocumentException, C***esolverException {

? ? ? ? convert2("d:/test0.html","d:/test.pdf");

? ? }

? ? public static void convert2(String infile, String outfile)

? ? ? ? ? ? throws FileNotFoundException, IOException, DocumentException,

? ? ? ? ? ? C***esolverException {

? ? ? ? Document document = new Document();

? ? ? ? PdfWriter writer = PdfWriter.getInstance(document,

? ? ? ? ? ? ? ? new FileOutputStream(outfile));

? ? ? ? document.open();

? ? ? ? XMLWorkerDemo.MyFontsProvider fontProvider = new XMLWorkerDemo.MyFontsProvider();

? ? ? ? fontProvider.addFontSubstitute("lowagie", "garamond");

? ? ? ? fontProvider.setUseUnicode(true);

? ? ? ? //使用我們的字體提供器，并將其設(shè)置為unicode字體樣式

? ? ? ? CssAppliers cssAppliers = new CssAppliersImpl(fontProvider);

? ? ? ? HtmlPipelineContext htmlContext = new HtmlPipelineContext(cssAppliers);

? ? ? ? htmlContext.setTagFactory(Tags.getHtmlTagProcessorFactory());

? ? ? ? C×××esolver c***esolver = XMLWorkerHelper.getInstance()

? ? ? ? ? ? ? ? .getDefaultC***esolver(true);

? ? ? ? Pipeline<?> pipeline = new C***esolverPipeline(c***esolver,

? ? ? ? ? ? ? ? new HtmlPipeline(htmlContext, new PdfWriterPipeline(document,

? ? ? ? ? ? ? ? ? ? ? ? writer)));

? ? ? ? XMLWorker worker = new XMLWorker(pipeline, true);

? ? ? ? XMLParser p = new XMLParser(worker);

? ? ? ? File input = new File(infile);

? ? ? ? p.parse(new InputStreamReader(new FileInputStream(input), "UTF-8"));

? ? ? ? document.close();

? ? }

}

```

以上代碼能解決大部分中文網(wǎng)頁轉(zhuǎn)換為pdf文件的中文不顯示或亂碼問題校焦，需要注意的是xmlworker只支持xhtml文件即嚴(yán)格意義的html赊抖，若是普通html文件，很容易發(fā)生異常 no expect tag input等寨典，常見的不封閉的標(biāo)簽有:input氛雪、link、metadata耸成、script报亩、p_w_picpath浴鸿、br等，如何解決html到xhtml或直接使用itext的htmlpareser解決此問題將是后續(xù)研究的問題弦追，若有結(jié)論岳链，將分享給給位。

還有個(gè)問題需要解決的是對于某些字體itext還是不能很好的處理劲件，我們這邊碰到的是楷體掸哑，對于楷體轉(zhuǎn)換的pdf文件中還是不能顯示對應(yīng)的中文文字，后面若有解決方案再與諸位分享零远，若各位有相關(guān)的解決方案也請不吝賜教

最后編輯于：2020.02.01 17:23:21

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末苗分，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子遍烦，更是在濱河造成了極大的恐慌俭嘁，老刑警劉巖，帶你破解...
沈念sama閱讀 219,366評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件服猪，死亡現(xiàn)場離奇詭異供填，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)罢猪，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,521評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門近她，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人膳帕，你說我怎么就攤上這事粘捎。” “怎么了危彩？”我有些...
開封第一講書人閱讀 165,689評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵攒磨，是天一觀的道長。經(jīng)常有香客問我汤徽，道長娩缰，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,925評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任谒府，我火速辦了婚禮拼坎，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘完疫。我一直安慰自己泰鸡，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,942評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布壳鹤。她就那樣靜靜地躺著盛龄，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上余舶，一...
開封第一講書人閱讀 51,727評論 1贊 305
城市分裂傳說
那天蹦锋，我揣著相機(jī)與錄音，去河邊找鬼欧芽。笑死，一個(gè)胖子當(dāng)著我的面吹牛葛圃，可吹牛的內(nèi)容都是我干的千扔。我是一名探鬼主播，決...
沈念sama閱讀 40,447評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼库正，長吁一口氣：“原來是場噩夢啊……” “哼曲楚！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起褥符，我...
開封第一講書人閱讀 39,349評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤龙誊，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后喷楣，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體趟大，經(jīng)...
沈念sama閱讀 45,820評論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,990評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年铣焊，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了逊朽。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,127評論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡曲伊，死狀恐怖叽讳，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情坟募，我是刑警寧澤岛蚤，帶...
沈念sama閱讀 35,812評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站懈糯，受9級特大地震影響涤妒，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜昂利，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,471評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一届腐、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧蜂奸，春花似錦犁苏、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,017評論 0贊 22
一樁弒父案围详，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春助赞，著一層夾襖步出監(jiān)牢的瞬間买羞，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,142評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工雹食，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留畜普，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,388評論 3贊 373
代替公主和親
正文我出身青樓群叶，卻偏偏與公主長得像吃挑，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子街立，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,066評論 2贊 355

itext 中文亂碼問題

推薦閱讀更多精彩內(nèi)容