用python-docx模塊讀寫word文檔

本文講述的核心庫：python-docx

工作中會遇到需要讀取一個有幾百頁的word文檔并從中整理出一些信息的需求，比如產(chǎn)品的API文檔一般是word格式的崖堤。幾百頁的文檔垮媒，如果手工一個個去處理阁最，幾乎是不可能的事情拱层。這時就要找一個庫寫腳本去實現(xiàn)了，而本文要講的python-docx庫就能滿足這個需求绿渣。

python-docx庫官方文檔

安裝

pip install python-docx

寫docx文件

示例代碼：

# coding:utf-8
# 寫word文檔文件
import sys

from docx import Document
from docx.shared import Inches

def main():
    reload(sys)
    sys.setdefaultencoding('utf-8')
    
    # 創(chuàng)建文檔對象
    document = Document()
    
    # 設置文檔標題朝群，中文要用unicode字符串
    document.add_heading(u'我的一個新文檔',0)
    
    # 往文檔中添加段落
    p = document.add_paragraph('This is a paragraph having some ')
    p.add_run('bold ').bold = True
    p.add_run('and some ')
    p.add_run('italic.').italic = True
    
    # 添加一級標題
    document.add_heading(u'一級標題, level = 1',level = 1)
    document.add_paragraph('Intense quote',style = 'IntenseQuote')
    
    # 添加無序列表
    document.add_paragraph('first item in unordered list',style = 'ListBullet')
    
    # 添加有序列表
    document.add_paragraph('first item in ordered list',style = 'ListNumber')
    document.add_paragraph('second item in ordered list',style = 'ListNumber')
    document.add_paragraph('third item in ordered list',style = 'ListNumber')
    
    # 添加圖片，并指定寬度
    document.add_picture('e:/docs/pic.png',width = Inches(1.25))
    
    # 添加表格: 1行3列
    table = document.add_table(rows = 1,cols = 3)
    # 獲取第一行的單元格列表對象
    hdr_cells = table.rows[0].cells
    # 為每一個單元格賦值
    # 注：值都要為字符串類型
    hdr_cells[0].text = 'Name'
    hdr_cells[1].text = 'Age'
    hdr_cells[2].text = 'Tel'
    # 為表格添加一行
    new_cells = table.add_row().cells
    new_cells[0].text = 'Tom'
    new_cells[1].text = '19'
    new_cells[2].text = '12345678'
    
    # 添加分頁符
    document.add_page_break()
    
    # 往新的一頁中添加段落
    p = document.add_paragraph('This is a paragraph in new page.')
    
    # 保存文檔
    document.save('e:/docs/demo1.docx')
    
if __name__ == '__main__':
    main()

執(zhí)行以上代碼會在'e:/docs/'路徑下產(chǎn)生一個demo1.docx文件中符，其內(nèi)容如下：

讀docx文件

示例代碼：

# coding:utf-8
# 讀取已有的word文檔
import sys

from docx import Document

def main():
    reload(sys)
    sys.setdefaultencoding('utf-8')
    
    # 創(chuàng)建文檔對象
    document = Document('e:/docs/demo2.docx')
    
    # 讀取文檔中所有的段落列表
    ps = document.paragraphs
    # 每個段落有兩個屬性：style和text
    ps_detail = [(x.text,x.style.name) for x in ps]
    with open('out.tmp','w+') as fout:
        fout.write('')
    # 讀取段落并寫入一個文件
    with open('out.tmp','a+') as fout:
        for p in ps_detail:
            fout.write(p[0] + '\t' + p[1] + '\n\n')
    
    # 讀取文檔中的所有段落的列表
    tables = document.tables
    # 遍歷table姜胖，并將所有單元格內(nèi)容寫入文件中
    with open('out.tmp','a+') as fout:
        for table in tables:
            for row in table.rows:
                for cell in row.cells:
                    fout.write(cell.text + '\t')
                fout.write('\n')
    
if __name__ == '__main__':
    main()

假如在'e:/docs/'路徑下有一個demo2.docx文檔，其內(nèi)如如下：

執(zhí)行上面腳本后淀散，輸出的out.tmp文件的內(nèi)容如下：

注意事項

如果段落中是有超鏈接的右莱，那么段落對象是讀取不出來超鏈接的文本的，需要把超鏈接先轉換成普通文本吧凉，方法：全選word文檔的所有內(nèi)容隧出，按快捷鍵Ctrl+Shift+F9即可。

遇到的問題

用pyinstaller打包時的一個問題

用pyinstaller工具（用法詳見：python打包工具pyinstaller的用法）把使用到python-docx庫的腳本打包成exe可執(zhí)行文件后阀捅，雙擊運行生成的exe文件，報錯：

docx.opc.exceptions.PackageNotFoundError: Package not found at 'C:\Users\ADMINI~1.PC-\AppData\Local\Temp\_MEI49~1\docx\templates\default.docx'

經(jīng)過在stackoverflow上搜索针余，發(fā)現(xiàn)有人遇到過類似的問題（問題鏈接：cx_freeze and docx - problems when freezing）饲鄙，經(jīng)過嘗試，該問題的第二個回答可以解決這個問題：

I had the same problem and managed to get around it by doing the following. First, I located the default.docx file in the site-packages. Then, I copied it in the same directory as my .py file. I also start the .docx file with Document() which has a docx=... flag, to which I assigned the value: os.path.join(os.getcwd(), 'default.docx') and now it looks like doc = Document(docx=os.path.join(os.getcwd(), 'default.docx')). The final step was to include the file in the freezing process. Et voilà! So far I have no problem.

大概的解決步驟是這樣的：

找到python-docx包安裝路徑下的一個名為default.docx的文件圆雁，我是通過everything這個強大的搜索工具全局搜索找到這個文件的忍级，它在我本地所在的路徑是：E:\code\env\.env\Lib\site-packages\docx\templates
把找到的default.docx文件復制到我的py腳本文件所在的目錄下。
修改腳本中創(chuàng)建Document對象的方式：
從原來的創(chuàng)建方式：

document = Document()

修改為：

import os
document = Document(docx=os.path.join(os.getcwd(), 'default.docx'))

再次用pyinstaller工具打包腳本為exe文件
把default.docx文件復制到與生成的exe文件相同的路徑下伪朽，再次運行exe文件轴咱，順利運行通過，沒有再出現(xiàn)之前的報錯烈涮，問題得到解決朴肺。

最后編輯于：2017.12.29 01:12:58

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市坚洽，隨后出現(xiàn)的幾起案子戈稿，更是在濱河造成了極大的恐慌，老刑警劉巖讶舰，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件鞍盗，死亡現(xiàn)場離奇詭異需了，居然都是意外死亡，警方通過查閱死者的電腦和手機般甲，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門肋乍，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人敷存，你說我怎么就攤上這事墓造。” “怎么了历帚？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵滔岳，是天一觀的道長。經(jīng)常有香客問我挽牢，道長谱煤，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任禽拔，我火速辦了婚禮刘离，結果婚禮上，老公的妹妹穿的比我還像新娘睹栖。我一直安慰自己硫惕，他們只是感情好，可當我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布野来。她就那樣靜靜地躺著恼除，像睡著了一般。火紅的嫁衣襯著肌膚如雪曼氛。梳的紋絲不亂的頭發(fā)上豁辉，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天，我揣著相機與錄音舀患，去河邊找鬼徽级。笑死，一個胖子當著我的面吹牛聊浅，可吹牛的內(nèi)容都是我干的餐抢。我是一名探鬼主播，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼低匙，長吁一口氣：“原來是場噩夢啊……” “哼旷痕！你這毒婦竟也來了？” 一聲冷哼從身側響起努咐，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤苦蒿，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后渗稍，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體佩迟，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡团滥，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了报强。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片灸姊。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖秉溉，靈堂內(nèi)的尸體忽然破棺而出力惯，到底是詐尸還是另有隱情，我是刑警寧澤召嘶，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布父晶，位于F島的核電站，受9級特大地震影響弄跌，放射性物質發(fā)生泄漏甲喝。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一铛只、第九天我趴在偏房一處隱蔽的房頂上張望埠胖。院中可真熱鬧，春花似錦淳玩、人聲如沸直撤。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案蜕着，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽谋竖。三九已至，卻和暖如春承匣，著一層夾襖步出監(jiān)牢的瞬間圈盔，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工悄雅，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人铁蹈。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓宽闲，卻偏偏與公主長得像，于是被迫代替她去往敵國和親握牧。傳聞我的和親對象是個殘疾皇子容诬，可洞房花燭夜當晚...
茶點故事閱讀 44,577評論 2贊 353