背景
之前接手到一個(gè)處理word的項(xiàng)目,需要讀取word內(nèi)容憔辫,并對(duì)字符進(jìn)行一系列處理忿偷。一開始筆者使用java處理,需要引入第三方模塊——poi臊泌。說實(shí)話鲤桥,這個(gè)第三方模塊對(duì)于word的處理不夠完善,第一沒有很好的寫入方式渠概,第二沒有很好的樣式處理機(jī)制茶凳,第三沒有封裝java的io流,仍然需要筆者手動(dòng)創(chuàng)建和關(guān)閉io資源播揪。
在之后的資料中查詢到可以使用python的docx模塊很快速處理word文件贮喧,使用快捷方便,幾行代碼就可以實(shí)現(xiàn)讀寫猪狈,并且很好的支持word的樣式箱沦。但是docx模塊只支持docx類型。
搭建環(huán)境
搭建平臺(tái)是macOS10.12.6雇庙,一般mac上是自帶python的谓形,但是版本普遍較低,目錄位置為/Library/Python疆前,以后安裝的其他版本也在相同的目錄下寒跳。
終端$python --version 查看python的版本
這邊可以使用pyenv來管理python的各個(gè)版本,筆者這邊是使用IDE(python編譯環(huán)境)管理的竹椒。如果選擇pyenv童太,請(qǐng)參考http://www.reibang.com/p/1927349cb6a2(即使不使用pyenv,筆者還是推薦下載brew——mac的統(tǒng)一依賴包管理器)胸完,如果選擇IDE管理书释,請(qǐng)到官網(wǎng)下載PyCharm,https://www.jetbrains.com/pycharm/download/#section=mac(python編譯器舶吗,但是不像第一種管理方式征冷,其不支持下載),請(qǐng)到官網(wǎng)下載其他python版本:https://www.python.org/
IDE方式
這里筆者也選擇了第二種方式
在欄目PyCharm下選擇Pereferences誓琼,如圖選擇可以切換編譯器的python版本
不同的版本切換對(duì)代碼的編譯可能會(huì)造成影響检激。
引入docx模塊
python處理word也需要引入第三方模塊肴捉,一般使用pip去下載python的第三方模塊。
mac里面python自帶easy_install
$sudo easy_install pip 輸入密碼下載pip叔收,筆者強(qiáng)烈建議不要在系統(tǒng)自帶的python下折騰齿穗,因?yàn)閙ac系統(tǒng)下很多軟件都依賴python模塊,如果系統(tǒng)出錯(cuò)饺律,概不負(fù)責(zé)窃页。
先去官網(wǎng)下載其他版本的,然后設(shè)置環(huán)境變量复濒,sudo vim /etc/profile脖卖,編輯添加export PATH=xxxx:$PATH,其中xxxx為下載后python的路徑巧颈,參考搭建環(huán)境畦木。
$python --version 查看版本是否更改,之后執(zhí)行$sudo easy_install pip砸泛,然后再執(zhí)行$pip install docx模塊十籍。
然后讀者就可以再當(dāng)前python版本的目錄下看到pip模塊和docx模塊了。如圖:
之后再python代碼中引入docx模塊即可使用唇礁。參考官方手冊(cè):https://python-docx.readthedocs.io/en/latest/