itext 中文亂碼問題

最近項(xiàng)目中用到itext來將html轉(zhuǎn)換為pdf纤泵,itext功能確實(shí)強(qiáng)大能方便的讓您操作pdf文件骆姐。同樣其對中文也支持的挺好。

? 在默認(rèn)配置情況下捏题,中文是不能顯示的或者顯示為亂碼玻褪。為解決此問題,搜遍網(wǎng)絡(luò)公荧,得出結(jié)論是在創(chuàng)建paragrahp時(shí)將中文字體傳遞給pdfdocument带射。但問題是在項(xiàng)目中需要將html轉(zhuǎn)換為pdf文件,這樣創(chuàng)建paragrahp是由html解析器進(jìn)行處理的循狰,總不能修改itext源代碼吧窟社?miciu網(wǎng)站的大大就是用此方案,將itext中3個(gè)源代碼修改從而保證中文可以顯示绪钥。

? 不過miciu網(wǎng)站大大思路啟發(fā)了我去研究itext的源代碼灿里。使用itext來轉(zhuǎn)換html到pdf時(shí),在新版本中5.4.2中用xmlworker組件是比較明智的選擇程腹。通過研究發(fā)現(xiàn)itext xmlworker實(shí)際提供了某種擴(kuò)展方式來顯示中文匣吊,特別是中文默認(rèn)字體問題。對于沒有顯示聲明css樣式的字體跪楞,默認(rèn)使用undefine字體樣式缀去,這對于英文是可行的,對于中文來說甸祭,這是不可接受的缕碎,因此擴(kuò)展其字體提供方式,讓轉(zhuǎn)換器在轉(zhuǎn)換過程中碰到默認(rèn)字體用宋體來顯示池户,這樣就解決了中文不能顯示或者亂碼的問題咏雌。

? 具體代碼參考如下:

```

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import com.itextpdf.text.Document;

import com.itextpdf.text.DocumentException;

import com.itextpdf.text.Font;

import com.itextpdf.text.pdf.PdfWriter;

import com.itextpdf.tool.xml.Pipeline;

import com.itextpdf.tool.xml.XMLWorker;

import com.itextpdf.tool.xml.XMLWorkerFontProvider;

import com.itextpdf.tool.xml.XMLWorkerHelper;

import com.itextpdf.tool.xml.exceptions.C***esolverException;

import com.itextpdf.tool.xml.html.CssAppliers;

import com.itextpdf.tool.xml.html.CssAppliersImpl;

import com.itextpdf.tool.xml.html.Tags;

import com.itextpdf.tool.xml.parser.XMLParser;

import com.itextpdf.tool.xml.pipeline.css.C×××esolver;

import com.itextpdf.tool.xml.pipeline.css.C***esolverPipeline;

import com.itextpdf.tool.xml.pipeline.end.PdfWriterPipeline;

import com.itextpdf.tool.xml.pipeline.html.HtmlPipeline;

import com.itextpdf.tool.xml.pipeline.html.HtmlPipelineContext;

public class XMLWorkerDemo {

? ? public static class MyFontsProvider extends XMLWorkerFontProvider{

? ? ? ? public MyFontsProvider(){

? ? ? ? ? ? super(null,null);

? ? ? ? }

? ? ? ? @Override

? ? ? ? public Font getFont(final String fontname, String encoding, float size, final int style) {


? ? ? ? ? ? String fntname = fontname;

? ? ? ? ? ? if(fntname==null){

? ? ? ? ? ? ? ? fntname="宋體";

? ? ? ? ? ? }

? ? ? ? ? ? return super.getFont(fntname, encoding, size, style);

? ? ? ? }

? ? }

? ? private static String dirpath = "";

? ? public static void main(String[] args) throws FileNotFoundException, IOException, DocumentException, C***esolverException {

? ? ? ? convert2("d:/test0.html","d:/test.pdf");

? ? }


? ? public static void convert2(String infile, String outfile)

? ? ? ? ? ? throws FileNotFoundException, IOException, DocumentException,

? ? ? ? ? ? C***esolverException {

? ? ? ? Document document = new Document();

? ? ? ? PdfWriter writer = PdfWriter.getInstance(document,

? ? ? ? ? ? ? ? new FileOutputStream(outfile));

? ? ? ? document.open();

? ? ? ? XMLWorkerDemo.MyFontsProvider fontProvider = new XMLWorkerDemo.MyFontsProvider();

? ? ? ? fontProvider.addFontSubstitute("lowagie", "garamond");

? ? ? ? fontProvider.setUseUnicode(true);

? ? ? ? //使用我們的字體提供器,并將其設(shè)置為unicode字體樣式

? ? ? ? CssAppliers cssAppliers = new CssAppliersImpl(fontProvider);

? ? ? ? HtmlPipelineContext htmlContext = new HtmlPipelineContext(cssAppliers);

? ? ? ? htmlContext.setTagFactory(Tags.getHtmlTagProcessorFactory());

? ? ? ? C×××esolver c***esolver = XMLWorkerHelper.getInstance()

? ? ? ? ? ? ? ? .getDefaultC***esolver(true);

? ? ? ? Pipeline<?> pipeline = new C***esolverPipeline(c***esolver,

? ? ? ? ? ? ? ? new HtmlPipeline(htmlContext, new PdfWriterPipeline(document,

? ? ? ? ? ? ? ? ? ? ? ? writer)));

? ? ? ? XMLWorker worker = new XMLWorker(pipeline, true);

? ? ? ? XMLParser p = new XMLParser(worker);

? ? ? ? File input = new File(infile);

? ? ? ? p.parse(new InputStreamReader(new FileInputStream(input), "UTF-8"));

? ? ? ? document.close();

? ? }

}

```

以上代碼能解決大部分中文網(wǎng)頁轉(zhuǎn)換為pdf文件的中文不顯示或亂碼問題校焦,需要注意的是xmlworker只支持xhtml文件即嚴(yán)格意義的html赊抖,若是普通html文件,很容易發(fā)生異常 no expect tag input等寨典,常見的不封閉的標(biāo)簽有:input氛雪、link、metadata耸成、script报亩、p_w_picpath浴鸿、br等,如何解決html到xhtml或直接使用itext的htmlpareser解決此問題將是后續(xù)研究的問題弦追,若有結(jié)論岳链,將分享給給位。

還有個(gè)問題需要解決的是對于某些字體itext還是不能很好的處理劲件,我們這邊碰到的是楷體掸哑,對于楷體轉(zhuǎn)換的pdf文件中還是不能顯示對應(yīng)的中文文字,后面若有解決方案再與諸位分享零远,若各位有相關(guān)的解決方案也請不吝賜教

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末苗分,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子遍烦,更是在濱河造成了極大的恐慌俭嘁,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,366評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件服猪,死亡現(xiàn)場離奇詭異供填,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)罢猪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評論 3 395
  • 文/潘曉璐 我一進(jìn)店門近她,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人膳帕,你說我怎么就攤上這事粘捎。” “怎么了危彩?”我有些...
    開封第一講書人閱讀 165,689評論 0 356
  • 文/不壞的土叔 我叫張陵攒磨,是天一觀的道長。 經(jīng)常有香客問我汤徽,道長娩缰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,925評論 1 295
  • 正文 為了忘掉前任谒府,我火速辦了婚禮拼坎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘完疫。我一直安慰自己泰鸡,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評論 6 392
  • 文/花漫 我一把揭開白布壳鹤。 她就那樣靜靜地躺著盛龄,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上余舶,一...
    開封第一講書人閱讀 51,727評論 1 305
  • 那天蹦锋,我揣著相機(jī)與錄音,去河邊找鬼欧芽。 笑死,一個(gè)胖子當(dāng)著我的面吹牛葛圃,可吹牛的內(nèi)容都是我干的千扔。 我是一名探鬼主播,決...
    沈念sama閱讀 40,447評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼库正,長吁一口氣:“原來是場噩夢啊……” “哼曲楚!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起褥符,我...
    開封第一講書人閱讀 39,349評論 0 276
  • 序言:老撾萬榮一對情侶失蹤龙誊,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后喷楣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體趟大,經(jīng)...
    沈念sama閱讀 45,820評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評論 3 337
  • 正文 我和宋清朗相戀三年铣焊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了逊朽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,127評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡曲伊,死狀恐怖叽讳,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情坟募,我是刑警寧澤岛蚤,帶...
    沈念sama閱讀 35,812評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站懈糯,受9級特大地震影響涤妒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜昂利,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評論 3 331
  • 文/蒙蒙 一届腐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蜂奸,春花似錦犁苏、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春助赞,著一層夾襖步出監(jiān)牢的瞬間买羞,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評論 1 272
  • 我被黑心中介騙來泰國打工雹食, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留畜普,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,388評論 3 373
  • 正文 我出身青樓群叶,卻偏偏與公主長得像吃挑,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子街立,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評論 2 355

推薦閱讀更多精彩內(nèi)容

  • # Awesome Python [![Awesome](https://cdn.rawgit.com/sindr...
    emily_007閱讀 2,210評論 0 3
  • 一. Java基礎(chǔ)部分.................................................
    wy_sure閱讀 3,811評論 0 11
  • 青蛙寫詩舶衬,午寫青蛙寫詩的生字?jǐn)?shù)學(xué)20以內(nèi)的加減法數(shù)學(xué)課本的66.67.68.頁美術(shù)導(dǎo)學(xué)練40.41頁1課1練44....
    席智偉爺爺閱讀 153評論 0 0
  • SSL(Secure Sockets Layer 安全套接層),及其繼任者傳輸層安全(Transport Laye...
    BL覺醒閱讀 344評論 0 0
  • 早上,我是被凍醒的赎离。 我一個(gè)人住在1Dk的公寓里逛犹。今天早上醒來的時(shí)候我發(fā)現(xiàn)空調(diào)設(shè)的是最低溫度,冰箱的門是開著的梁剔,我...
    洌靈閱讀 318評論 0 1