初用python-docx

事情的起因是這樣的,女朋友的公司在做一個(gè)數(shù)字化管道的工作芍碧,需要在大量的word中提取想要的數(shù)據(jù)门躯,手動(dòng)輸入實(shí)在太麻煩芥被,就看到這個(gè)python-docx的庫审葬,肥腸的高效适篙,腳本發(fā)出來給大家张弛。

!/usr/bin/python

-- coding: UTF-8 --

author = 'Administrator'

讀取docx中的文本代碼示例

import docx
from docx import Document #導(dǎo)入庫
import re
import glob
import os

第一種表格

path = "E:\test\test.docx" #文件路徑

document = Document(path) #讀入文件

tables = document.tables #獲取文件中的表格集

for i in range(0,len(tables)):

table = tables[0]#獲取文件中的第一個(gè)表格

print(table.cell(2,1).text)

print(table.cell(4,1).text)

print(table.cell(4,6).text)

datestr = table.cell(8,0).text.replace(" ","")

mat = re.search(r"(\d{4}年\d{1,2}月\d{1,2}日)",datestr)

print(mat.group(0))

for i in range(0,len(table.rows)):#從表格第二行開始循環(huán)讀取表格數(shù)據(jù)

result = table.cell(i,0).text + "" +table.cell(i,1).text+table.cell(i,2).text + table.cell(i,3).text

#cell(i,0)表示第(i+1)行第1列數(shù)據(jù)鹃两,以此類推

print(result)

第二種表格

f = open("result.txt",'w',encoding='UTF-8')

path = "test02.docx" #文件路徑

document = Document(path) #讀入文件

tables = document.tables #獲取文件中的表格集

table = tables[0]#獲取文件中的第一個(gè)表格

print(len(tables))

for table in tables:

for i in range(0,len(table.rows)):#從表格第二行開始循環(huán)讀取表格數(shù)據(jù)

if table.cell(i,0).text.isdigit():

mark = table.cell(i,10).text

num = mark

split = ""

m = '0'

if mark.endswith('m'):

mat = re.search(r"([\d,\.]*m)",mark)

m =mat.group(0)

num = mark.replace(m,"")

split = num[len(num)-1]

num=num[0:len(num)-1]

result = table.cell(i,0).text + "\t" +table.cell(i,1).text+"\t"+table.cell(i,7).text +"\t"+ table.cell(i,6).text+"\t"+ table.cell(i,2).text.replace("X:","")+"\t"+ table.cell(i,3).text.replace("Y:","")+"\t"+ num+"\t"+ split+"\t"+ m.replace('m','')

print(result)

f.write(result+"\n")

f.close()

第三種表格

os.chdir("E:\test\input\815\QAB管道焊縫檢測(cè)報(bào)告\")

paths = []
paths.extend(glob.glob('*.%s' % 'docx'))
fs = open("射線.txt",'w',encoding='UTF-8')
fc = open("超聲波.txt",'w',encoding='UTF-8')
for path in paths:
#path = "1.管道焊縫檢測(cè)報(bào)告(QAB171-1~QAB189-1).docx" #文件路徑
document = Document(path) #讀入文件
tables = document.tables #獲取文件中的表格集
#table = tables[0]#獲取文件中的第一個(gè)表格
#print(len(tables))
for table in tables:
title = (table.cell(0,2).text)
if("無損檢測(cè)返修通知單" not in title and "超聲波檢測(cè)報(bào)告" not in title and "附頁" in title):
a2 = (table.cell(1,2).text)
a3 = (table.cell(2,2).text.replace(" ",""))
try:
a6 = table.cell(24,0).text.split("\n")[0].replace("評(píng)定人員:","").replace("評(píng)定人員:","").split("級(jí) 別:")[0]
a7 = table.cell(24,11).text.split("\n")[0].replace("監(jiān)理(簽字):","")
except IndexError as e:
a6 = table.cell(23,0).text.split("\n")[0].replace("評(píng)定人員:","").replace("評(píng)定人員:","").split("級(jí) 別:")[0]
a7 = table.cell(23,11).text.split("\n")[0].replace("監(jiān)理(簽字):","")

        for i in range(0,len(table.rows)):#從表格第二行開始循環(huán)讀取表格數(shù)據(jù)
            if table.cell(i,0).text.isdigit():
                result = table.cell(i,1).text+"\t"+a2+"\t"+a3+"\t"+table.cell(i,10).text+"\t"+table.cell(i,12).text+"\t"+a6+"\t"+a7
                result = result.replace('\n','')
                print(path+"==="+result)
                fs.write(result+"\n")
    elif("無損檢測(cè)返修通知單" not in title and "射線檢測(cè)報(bào)告" not in title and "附頁" in title):
        a2 = (table.cell(1,2).text)
        a3 = (table.cell(2,2).text.replace(" ",""))
        a6 = table.cell(25,0).text.split("\n")[0].replace("檢測(cè)人員:","").replace("檢測(cè)人員:","").split("級(jí)  別:")[0]
        a7 = table.cell(25,11).text.split("\n")[0].replace("監(jiān)理(簽字):","")
        for i in range(0,len(table.rows)):#從表格第二行開始循環(huán)讀取表格數(shù)據(jù)
            if table.cell(i,0).text.isdigit():
                result = table.cell(i,1).text+"\t"+a2+"\t"+a3+"\t"+table.cell(i,6).text+" "+table.cell(i,7).text+" "+table.cell(i,9).text+"\t"+table.cell(i,12).text+"\t"+a6+"\t"+a7
                result = result.replace('\n','')
                print(path+"==="+result)
                fc.write(result+"\n")

fs.close()
fc.close()

第四種表格

f = open("result.txt",'w',encoding='UTF-8')

path = "E:\test\input\815\1.docx" #文件路徑

document = Document(path) #讀入文件

tables = document.tables #獲取文件中的表格集

table = tables[0]#獲取文件中的第一個(gè)表格

print(len(tables))

for table in tables:

a = table.cell(1,4).text

ass = a.split("-")

if len(ass) < 3:

a =ass[0]

else:

print(a)

b = table.cell(8,2).text

bs = b.replace('\n\n\n',"\n").split('\n')

b1 = bs[0].replace("監(jiān)理代表:","")

b2 = bs[1].replace(" ","").replace("年","-").replace("月","-").replace("日","")

result = a.replace("\n","")+"\t"+b2.replace("\n","")+"\t"+b1.replace("\n","")

#print(result)

f.write(result+"\n")

f.close()

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末草添,一起剝皮案震驚了整個(gè)濱河市驶兜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌果元,老刑警劉巖促王,帶你破解...
    沈念sama閱讀 218,036評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異而晒,居然都是意外死亡蝇狼,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門倡怎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來迅耘,“玉大人,你說我怎么就攤上這事监署〔ǎ” “怎么了?”我有些...
    開封第一講書人閱讀 164,411評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵钠乏,是天一觀的道長(zhǎng)栖秕。 經(jīng)常有香客問我,道長(zhǎng)晓避,這世上最難降的妖魔是什么簇捍? 我笑而不...
    開封第一講書人閱讀 58,622評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮俏拱,結(jié)果婚禮上暑塑,老公的妹妹穿的比我還像新娘。我一直安慰自己锅必,他們只是感情好事格,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,661評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般驹愚。 火紅的嫁衣襯著肌膚如雪远搪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,521評(píng)論 1 304
  • 那天么鹤,我揣著相機(jī)與錄音终娃,去河邊找鬼。 笑死蒸甜,一個(gè)胖子當(dāng)著我的面吹牛棠耕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播柠新,決...
    沈念sama閱讀 40,288評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼窍荧,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了恨憎?” 一聲冷哼從身側(cè)響起蕊退,我...
    開封第一講書人閱讀 39,200評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎憔恳,沒想到半個(gè)月后瓤荔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,644評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡钥组,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,837評(píng)論 3 336
  • 正文 我和宋清朗相戀三年输硝,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片程梦。...
    茶點(diǎn)故事閱讀 39,953評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡点把,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出屿附,到底是詐尸還是另有隱情郎逃,我是刑警寧澤,帶...
    沈念sama閱讀 35,673評(píng)論 5 346
  • 正文 年R本政府宣布挺份,位于F島的核電站褒翰,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏匀泊。R本人自食惡果不足惜影暴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,281評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望探赫。 院中可真熱鬧,春花似錦撬呢、人聲如沸伦吠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽毛仪。三九已至搁嗓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間箱靴,已是汗流浹背腺逛。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留衡怀,地道東北人棍矛。 一個(gè)月前我還...
    沈念sama閱讀 48,119評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像抛杨,于是被迫代替她去往敵國和親够委。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,901評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • pyspark.sql模塊 模塊上下文 Spark SQL和DataFrames的重要類: pyspark.sql...
    mpro閱讀 9,454評(píng)論 0 13
  • 找到fullcalendar.js怖现, 找到代碼為 isRTL:false茁帽,這句話 輸入以下幾句 monthName...
    迷你小小白閱讀 1,665評(píng)論 0 1
  • 在007開班不久我就了解到007,一直想加入屈嗤,可心里又期待又恐懼潘拨,期待通過7年的輸出,我能隨手寫出一篇很牛的文章饶号。...
    優(yōu)樂維兒閱讀 212評(píng)論 0 1
  • 你在天之涯 我處地之角 知交半零落 我愿乘風(fēng)去 追隨你身影 奈何現(xiàn)實(shí)不由人 唯有遠(yuǎn)遠(yuǎn)遙望 別無他法 你的世界已遠(yuǎn)去...
    憐小竹閱讀 170評(píng)論 0 0