轉(zhuǎn)個word很難嗎彪笼?
對于任何一個在線富文本寫作產(chǎn)品钻注,導出功能是必不可少的,其中導出word是其中最常見的選項配猫,但是很多產(chǎn)品導出的word幅恋,比如說Jira,格式就有不同程度的失真.
仔細分析下來泵肄,解決這個思路的主要有兩種:
- 硬轉(zhuǎn):使用OpenXml的SDK捆交,逐一匹配html標簽和樣式css,相當于用OpenXml實現(xiàn)了一個html+css的渲染層腐巢。
- 偷懶:想辦法把html+css的內(nèi)容當成word的一部分品追,相當于用web視圖打開。
當時冯丙,我花了一定的時間肉瓦,在兩個方向上分別做了調(diào)研。
硬轉(zhuǎn)的思路,直覺上工作量就極大泞莉,而且很容易出Bug哪雕,畢竟那么多組合情況需要考慮。值得參考的項目是html2openxml鲫趁,1W多行只能實現(xiàn)html的轉(zhuǎn)換斯嚎,還不包括css。
不是沒想過饮寞,限制輸出html的排版孝扛,比如用固定的id代表固定的部分,css樣式也只支持特定的幾種幽崩,但后來討論下來苦始,覺得這種方法,需要前后端確定好規(guī)則慌申,而在當時快速迭代的時期陌选,這無疑會增加開發(fā)成本。
而偷懶這條路蹄溉,能夠搜索到項目咨油,都是借用了word中altchunks的特性,比如:html-docx-js柒爵、html2docx役电。
問題也很明顯,
- 不支持float之類的樣式棉胀,對圖片的支持也需要自己寫代碼轉(zhuǎn)base64法瑟,然后嵌進標簽里。這些雖然麻煩些唁奢,但是還是可以tweak霎挟。
- 最麻煩的是,這種格式的word麻掸,兼容性很差酥夭,在微信中、mac上打不開脊奋。
于是熬北,我一度卡在這里很久,直到我發(fā)現(xiàn)……
原來诚隙,word才是轉(zhuǎn)word的最佳工具
轉(zhuǎn)機來的也很突然讶隐,就是我發(fā)現(xiàn)用word打開一個帶html+css的文件后,再另存成word最楷,不僅格式得到了保留整份,圖片也在,而且兼容性也還不錯籽孙!真是
踏破鐵鞋無覓處烈评,得來全不費工夫。
問題來了犯建,怎么把這一步程序化呢讲冠?
這下終于可以用上過去.net的開發(fā)經(jīng)驗了,C#是可以通過com組件的方式操作word适瓦,但前提是運行程序的機器上必須裝word才行竿开。
核心代碼,也是非常的簡單:
首先引用Microsoft.Office.Interop.Word玻熙,調(diào)用的代碼如下:
var word = new Application {Visible = false};
var doc = word.Documents.Open(htmlFilePath, Format: WdOpenFormat.wdOpenFormatWebPages, ReadOnly: false);
doc.SaveAs2000(wordFilePath, WdSaveFormat.wdFormatDocumentDefault, ReadOnlyRecommended: false);
doc.Close();
word.quit()
是不是很簡單呢否彩?
而這里唯一還需要處理的就是圖片,如果不做處理嗦随,圖片還是以鏈接的方式存儲的列荔。
一方面,每次打開的時候需要重復下載枚尼,好處是word文件比較小贴浙,但缺點是受限于網(wǎng)速,可能會出現(xiàn)圖片加載不出來的情況;
另一方面時署恍,如果圖片沒有指定寬度和高度崎溃,當圖片的尺寸大于文檔的尺寸時,顯示的效果就很差盯质。
估化的思路很簡單袁串,即強行把圖片的尺寸拉伸到一頁可以顯示下,同時將圖片鏈接轉(zhuǎn)成內(nèi)嵌的圖片唤殴。
foreach (InlineShape s in doc.InlineShapes)
{
var inlineShape = s;
if (inlineShape.Type != WdInlineShapeType.wdInlineShapePicture &&
inlineShape.Type != WdInlineShapeType.wdInlineShapeLinkedPicture)
{
continue;
}
if (inlineShape.Type == WdInlineShapeType.wdInlineShapeLinkedPicture)
{
inlineShape.LinkFormat.SavePictureWithDocument = true;
inlineShape.LinkFormat.BreakLink();
}
if (inlineShape.Width > this._documentWidth)
{
inlineShape.LockAspectRatio = MsoTriState.msoTrue;
inlineShape.Width = this._documentWidth;
}
if (inlineShape.Height > this._documentHeight)
{
inlineShape.LockAspectRatio = MsoTriState.msoTrue;
inlineShape.Height = this._documentHeight;
}
}
到此般婆,核心的轉(zhuǎn)換代碼就已經(jīng)完成。(需要提醒各位看官的是朵逝,這種方法是不支持float和flex的css樣式的蔚袍。)
剩下的工作
請注意:上述代碼是基于.net framework寫的,運行的機器上還必須有word配名。
如果要對外提供服務的話啤咽,考慮到跨語言跨平臺,最好的方式即提供http接口渠脉。
而這對一個不熟悉.net的人宇整,那要學習的東西還是不少的。
樓主我就好人做到底芋膘,在上述的核心代碼上用WCF的webHttpBinding實現(xiàn)了一個的http服務鳞青,同時使用log4net實現(xiàn)了日志功能霸饲。
最終的程序的workflow是
- 用戶發(fā)送html+css內(nèi)容到http服務
- 先把html+css存成文件
- 讀取html文件,然后另存為word文件
- 返回下載鏈接
- 使用nginx映射目錄中的文件臂拓,實現(xiàn)下載功能
所有代碼開源在HtmlToWord厚脉,如果它對你有用,歡迎點個star.