用 Apache POI 讀取 Word 芥映,折騰啊??

因為工作電腦只能用 Windows 洲尊,要讀 Word ,想到用 Ruby 帶的標準庫 win32ole 奈偏。但要 Office 沒裝完整坞嘀,這庫就不好使。你知道惊来,中國的辦公電腦沒幾臺是正版的…… 所以去查了下有沒有什么別的解決方案丽涩。

還真發(fā)現(xiàn)了兩個:Apache POIdocx4j ,都是基于 Java 的唁盏。就隨便找了 POI 來試試内狸。你妹,坑袄謇蕖@サ!刽严!

說好有 Ruby 接口才用它的昂灵,結果失效了?? 這種 Apache 的項目也會失效!N杼选眨补!??

好吧,那就 Java 吧倒脓,雖然已經忘得一干二凈了??


  1. 先把包下來
  2. 目前的最新版本是 3.17 撑螺,最起碼需要 Java 6 ;下一個版本 4.0.0 至少需要 Java 8 崎弃。所以順道把 Java 9 下了吧甘晤。
  3. 配置環(huán)境含潘,主要是把什么 JAVA_HOME CLASSPATH PATH 配置好。如果用 TextMate 线婚,打開 Preferences -> Variables 遏弱,把這幾個變量加進去[1]
  4. 然后就是上代碼嘍塞弊。這里必漱逸!須!再說一遍:坑爹的文檔????

先上讀 docx 格式文檔的代碼:

import java.io.FileInputStream;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class DocxExtractor
{
   public static void main(String[] args)throws Exception 
   {
       XWPFDocument docx = new XWPFDocument(new FileInputStream("sample.docx"));
       //using XWPFWordExtractor Class
       XWPFWordExtractor we = new XWPFWordExtractor(docx);
       System.out.println(we.getText());
   }
}

然后是讀 doc 格式文檔的代碼:

import java.io.File;
import java.io.FileInputStream;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;

public class DocExtractor
{
   public static void main(String[] args)throws Exception 
   {
       FileInputStream fis = new FileInputStream(new File("sample.doc"));
       HWPFDocument doc = new HWPFDocument(fis);
       WordExtractor ex = new WordExtractor(doc);
       System.out.println(ex.getText());
   }
}

對了游沿,期間去配置 Windows 下的 Sublime Text 的 Java 環(huán)境[2]饰抒,還順便把「批處理」學了呢。那又是一個心酸的故事?? 不過這確實是個學習「批處理」的好項目奏候。

本來還想試試 docx4j 的循集,比較下性能…… 已經累趴了?? 沒有對比就沒有傷害!不出去混蔗草,怎么知道 Ruby 的好咒彤。早知道這么麻煩,我就直接重裝 Office 了??


  1. 大概樣子是這樣(大家記得把 /PATH/TO/ 換成自己家的路徑咒精!其中镶柱,poi-scratchpad-3.17.jar這個包里頭有讀 doc 的類;poi-ooxml-3.17.jar這個包里頭有讀 docx 的類模叙。對了歇拆,最后一個 jar 包得自己下,讀 doc 文檔的時候用得著):

    JAVA_HOME="/Library/Java/JavaVirtualMachines/jdk-9.0.1.jdk/Contents/Home"
    PATH=".:$PATH:$JAVA_HOME/bin"
    CLASSPATH=".:$JAVA_HOME/lib:
    /PATH/TO/poi-3.17/poi-3.17.jar:
    /PATH/TO/poi-3.17/poi-ooxml-3.17.jar:
    /PATH/TO/poi-3.17/poi-ooxml-schemas-3.17.jar:
    /PATH/TO/poi-3.17/ooxml-lib/xmlbeans-2.6.0.jar:
    /PATH/TO/poi-3.17/ooxml-lib/curvesapi-1.04.jar:
    /PATH/TO/poi-3.17/poi-scratchpad-3.17.jar:
    /PATH/TO/poi-3.17/poi-excelant-3.17.jar:
    /PATH/TO/poi-3.17/commons-collections4-4.1.jar"
    
    ?
  2. 參考的這篇「搭建 Java 環(huán)境——使用 Sublime Text 3( Windows 環(huán)境)」范咨。 ?

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末故觅,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子渠啊,更是在濱河造成了極大的恐慌输吏,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件替蛉,死亡現(xiàn)場離奇詭異贯溅,居然都是意外死亡,警方通過查閱死者的電腦和手機躲查,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門它浅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人镣煮,你說我怎么就攤上這事姐霍。” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵镊折,是天一觀的道長黔衡。 經常有香客問我,道長腌乡,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任夜牡,我火速辦了婚禮与纽,結果婚禮上,老公的妹妹穿的比我還像新娘塘装。我一直安慰自己急迂,他們只是感情好,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布蹦肴。 她就那樣靜靜地躺著僚碎,像睡著了一般。 火紅的嫁衣襯著肌膚如雪阴幌。 梳的紋絲不亂的頭發(fā)上勺阐,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天,我揣著相機與錄音矛双,去河邊找鬼渊抽。 笑死,一個胖子當著我的面吹牛议忽,可吹牛的內容都是我干的懒闷。 我是一名探鬼主播,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼栈幸,長吁一口氣:“原來是場噩夢啊……” “哼愤估!你這毒婦竟也來了?” 一聲冷哼從身側響起速址,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤玩焰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后壳繁,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體震捣,經...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年闹炉,在試婚紗的時候發(fā)現(xiàn)自己被綠了蒿赢。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡渣触,死狀恐怖羡棵,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情嗅钻,我是刑警寧澤皂冰,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布店展,位于F島的核電站,受9級特大地震影響秃流,放射性物質發(fā)生泄漏赂蕴。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一舶胀、第九天 我趴在偏房一處隱蔽的房頂上張望概说。 院中可真熱鬧,春花似錦嚣伐、人聲如沸糖赔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽放典。三九已至,卻和暖如春基茵,著一層夾襖步出監(jiān)牢的瞬間奋构,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工拱层, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留声怔,地道東北人。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓舱呻,卻偏偏與公主長得像醋火,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子箱吕,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內容

  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理芥驳,服務發(fā)現(xiàn),斷路器茬高,智...
    卡卡羅2017閱讀 134,659評論 18 139
  • Spring Boot 參考指南 介紹 轉載自:https://www.gitbook.com/book/qbgb...
    毛宇鵬閱讀 46,822評論 6 342
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,167評論 25 707
  • 本文參考了:http://blog.didispace.com/springcloud7/http://blog....
    WeiminSun閱讀 7,210評論 0 23
  • 認識他的時候兆旬,我不過是一名高二的普通學生。 我從高一開始寫小說怎栽,胡亂的寫丽猬。 在高二的時候找了一個合法的網(wǎng)站,加入了...
    陳樹閱讀 117評論 0 1