轉(zhuǎn)載請注明:陳熹 chenx6542@foxmail.com (簡書號:半為花間酒)
若公眾號內(nèi)轉(zhuǎn)載請聯(lián)系公眾號:早起Python這篇文章能學(xué)到的主要內(nèi)容:
openpyxl
讀取Excel獲取內(nèi)容docx
讀寫word文件能學(xué)到的小技巧:
os
獲取桌面路徑win32com
批量doc轉(zhuǎn)換為docx(僅windows用戶)(文末附原始數(shù)據(jù)文件下載鏈接)
今天早起python
公眾號的讀者提出了一個(gè)需求:
(由于涉及文件私密所以具體內(nèi)容已做修改)
每一列的數(shù)據(jù)需要按照一定規(guī)則填到一個(gè)word模板里菱魔,規(guī)則和模板大致如下:
這些是需要填寫的部分,整體的模板要復(fù)雜一些:
還有一個(gè)需求:最終輸出的word文件命名如下:
C列的數(shù)據(jù)去重然后用&鏈接 + G2 + V列數(shù)據(jù)求和 + P列的數(shù)據(jù)去重后用&連接 + 當(dāng)天日期(如:2020年04月22日) + 驗(yàn)貨報(bào)告
從需求和文件格式上看最筒,這次文件的讀寫解析任務(wù)較復(fù)雜留拾,碼代碼和思考時(shí)間會較久龄减,因此需要想清楚一個(gè)問題:
這次需要完成的任務(wù)是否工作量很多察绷,或者以后長期需要進(jìn)行,用python可以解放雙手及刻?
如果不是笨使,實(shí)際上手動就可以完成卿樱,失去了自動化辦公的意義
ok接下來我們正式碼代碼
1. 解析Excel的數(shù)據(jù)
將原始數(shù)據(jù)解壓縮后文件夾放在桌面即可
當(dāng)然如果你想放其他地方也可以,就指名絕對路徑
from openpyxl import load_workbook
import os
# 獲取桌面的路徑
def GetDesktopPath():
return os.path.join(os.path.expanduser("~"), 'Desktop')
path = GetDesktopPath() + '/資料/' # 形成文件夾的路徑便后續(xù)重復(fù)使用
workbook = load_workbook(filename=path + '數(shù)據(jù).xlsx')
sheet = workbook.active # 獲取當(dāng)前頁
# 可以用代碼獲取數(shù)據(jù)范圍阱表,如果要批處理循環(huán)迭代也方便
# 獲取有數(shù)據(jù)范圍
print(sheet.dimensions)
# A1:W10
利用openpyxl
讀取單元格有以下幾種用法:
cells = sheet['A1:A4'] # 返回A1-A4的4個(gè)單元格
cells = sheet['A'] # 獲取A列
cells = sheet['A:C'] # 獲取A-C列
cells = sheet[5] # 獲取第5行
# 注意如果是上述用cells獲取返回的是嵌套元祖
for cell in cells:
print(cell[0].value) # 遍歷cells依然需要取出元祖中元素才可以獲取值
# 獲取一個(gè)范圍的所有cell
# 也可以用iter_col返回列
for row in sheet.iter_rows(min_row=1, max_row=3,
min_col=2, max_col=4):
for cell in row:
print(cell.value)
明白了原理我們就可以解析獲取Excel中的數(shù)據(jù)了
# SQE
SQE = sheet['Q2'].value
# 供應(yīng)商&制造商
supplier = sheet['G2'].value
# 采購單號
C2_10 = sheet['C2:C10'] # 返回cell.tuple對象
# 利用列表推導(dǎo)式后面同理
vC2_10 = [str(cell[0].value) for cell in C2_10]
# 用set簡易去重后用,連接椰苟,填word表用
order_num = ','.join(set(vC2_10))
# 用set簡易去重后用&連接较屿,word文件名命名使用
order_num_title = '&'.join(set(vC2_10))
# 產(chǎn)品型號
T2_10 = sheet['T2:T10']
vT2_10 = [str(cell[0].value) for cell in T2_10]
ptype = ','.join(set(vT2_10))
# 產(chǎn)品描述
P2_10 = sheet['P2:P10']
vP2_10 = [str(cell[0].value) for cell in P2_10]
info = ','.join(set(vP2_10))
info_title = '&'.join(set(vP2_10))
# 日期
# 用datetime庫獲取今日時(shí)間以及相應(yīng)格式化
import datetime
today = datetime.datetime.today()
time = today.strftime('%Y年%m月%d日')
# 驗(yàn)貨數(shù)量
V2_10 = sheet['V2:V10']
vV2_10 = [int(cell[0].value) for cell in V2_10]
total_num = sum(vV2_10) # 計(jì)算總數(shù)量
# 驗(yàn)貨箱數(shù)
W2_10 = sheet['W2:W10']
vW2_10 = [int(cell[0].value) for cell in W2_10]
box_num = sum(vW2_10)
# 生成最終需要的word文件名
title = f'{order_num_title}-{supplier}-{total_num}-{info_title}-{time}-驗(yàn)貨報(bào)告'
print(title)
Excel的部分就結(jié)束了翩概,接下來進(jìn)行word的填表啦
這里我們默認(rèn)讀取的word是.docx
格式的汪疮,實(shí)際上讀者的需求是.doc
格式文件
這里如果是windows用戶可以用如下代碼批量轉(zhuǎn)化doc,前提是安裝好win32com
# pip install pypiwin32
from win32com import client
docx_path = path + '模板.docx'
# doc轉(zhuǎn)docx的函數(shù)
def doc2docx(doc_path,docx_path):
word = client.Dispatch("Word.Application")
doc = word.Documents.Open(doc_path)
doc.SaveAs(docx_path, 16)
doc.Close()
word.Quit()
print('\n doc文件已轉(zhuǎn)換為docx \n')
if not os.path.exists(docx_path):
doc2docx(docx_path[:-1], docx_path)
Mac暫時(shí)沒有好的解決策略爱致,如果有思路歡迎交流
有docx
格式文件后我們繼續(xù)操作
docx_path = path + '模板.docx'
from docx import Document
# 實(shí)例化
document = Document(docx_path)
# 讀取word中的所有表格
tables = document.tables
# print(len(tables))
# 15
確定好每個(gè)表格數(shù)后即可進(jìn)行相應(yīng)的填報(bào)操作
table的用法和openpyxl
中非常類似烤送,注意索引和原生python一樣都是從0開始
tables[0].cell(1, 1).text = SQE
tables[1].cell(1, 1).text = supplier
tables[1].cell(2, 1).text = supplier
tables[1].cell(3, 1).text = ptype
tables[1].cell(4, 1).text = info
tables[1].cell(5, 1).text = order_num
tables[1].cell(7, 1).text = time
for i in range(2, 11):
tables[6].cell(i, 0).text = str(sheet[f'T{i}'].value)
tables[6].cell(i, 1).text = str(sheet[f'P{i}'].value)
tables[6].cell(i, 2).text = str(sheet[f'C{i}'].value)
tables[6].cell(i, 4).text = str(sheet[f'V{i}'].value)
tables[6].cell(i, 5).text = str(sheet[f'V{i}'].value)
tables[6].cell(i, 6).text = '0'
tables[6].cell(i, 7).text = str(sheet[f'W{i}'].value)
tables[6].cell(i, 8).text = '0'
tables[6].cell(12, 4).text = str(total_num)
tables[6].cell(12, 5).text = str(total_num)
tables[6].cell(12, 7).text = str(box_num)
這里有兩個(gè)細(xì)節(jié):
- word寫入的數(shù)據(jù)需是字符串,所以從Excel獲取的數(shù)據(jù)需要用str格式化
- 這個(gè)也是最耗費(fèi)精力和時(shí)間的糠悯,表格可能存在合并等其他情況帮坚,因此你看到的行數(shù)和列數(shù)可能不是真實(shí)的,需要用代碼不斷測試互艾。上述代碼中跳過了第4列试和,試一試為什么
for i in range(2, 11):
tables[13].cell(i - 1, 0).text = str(sheet[f'T{i}'].value)
tables[13].cell(i - 1, 1).text = str(sheet[f'U{i}'].value)
tables[13].cell(i - 1, 2).text = str(sheet[f'U{i}'].value)
tables[13].cell(i - 1, 3).text = str(sheet[f'U{i}'].value)
需求大致就完成了,記得保存
document.save(path + f'{title}.docx')
print('\n文件已生成')
最后附上完整代碼
from openpyxl import load_workbook
from docx import Document
import datetime
# pip install pypiwin32
# from win32com import client
import os
# 獲取桌面的路徑
def GetDesktopPath():
return os.path.join(os.path.expanduser("~"), 'Desktop')
path = GetDesktopPath() + '/資料/' # 形成文件夾的路徑便后續(xù)重復(fù)使用
workbook = load_workbook(filename=path + '數(shù)據(jù).xlsx')
sheet = workbook.active # 獲取當(dāng)前頁
# 獲取有數(shù)據(jù)范圍
# print(sheet.dimensions)
# A1:W10
# SQE
SQE = sheet['Q2'].value
# 供應(yīng)商&制造商
supplier = sheet['G2'].value
# 采購單號
C2_10 = sheet['C2:C10'] # 返回cell.tuple對象
vC2_10 = [str(cell[0].value) for cell in C2_10]
order_num = ','.join(set(vC2_10))
order_num_title = '&'.join(set(vC2_10))
# 產(chǎn)品型號
T2_10 = sheet['T2:T10']
vT2_10 = [str(cell[0].value) for cell in T2_10]
ptype = ','.join(set(vT2_10))
# 產(chǎn)品描述
P2_10 = sheet['P2:P10']
vP2_10 = [str(cell[0].value) for cell in P2_10]
info = ','.join(set(vP2_10))
info_title = '&'.join(set(vP2_10))
# 日期
today = datetime.datetime.today()
time = today.strftime('%Y年%m月%d日')
# 驗(yàn)貨數(shù)量
V2_10 = sheet['V2:V10']
vV2_10 = [int(cell[0].value) for cell in V2_10]
total_num = sum(vV2_10) # 計(jì)算總數(shù)量
# 驗(yàn)貨箱數(shù)
W2_10 = sheet['W2:W10']
vW2_10 = [int(cell[0].value) for cell in W2_10]
box_num = sum(vW2_10)
title = f'{order_num_title}-{supplier}-{total_num}-{info_title}-{time}-驗(yàn)貨報(bào)告'
print(title)
doc_path = path + '模板.docx'
docx_path = doc_path + 'x'
# doc轉(zhuǎn)docx的函數(shù)
# def doc2docx(doc_path,docx_path):
# word = client.Dispatch("Word.Application")
# doc = word.Documents.Open(doc_path)
# doc.SaveAs(docx_path, 16)
# doc.Close()
# word.Quit()
# print('\n doc文件已轉(zhuǎn)換為docx \n')
# if not os.path.exists(docx_path):
# doc2docx(doc_path, docx_path)
document = Document(docx_path)
# 讀取word中的所有表格
tables = document.tables
# print(len(tables))
# 15
# 開始填表
tables[0].cell(1, 1).text = SQE
tables[1].cell(1, 1).text = supplier
tables[1].cell(2, 1).text = supplier
tables[1].cell(3, 1).text = ptype
tables[1].cell(4, 1).text = info
tables[1].cell(5, 1).text = order_num
tables[1].cell(7, 1).text = time
for i in range(2, 11):
tables[6].cell(i, 0).text = str(sheet[f'T{i}'].value)
tables[6].cell(i, 1).text = str(sheet[f'P{i}'].value)
tables[6].cell(i, 2).text = str(sheet[f'C{i}'].value)
tables[6].cell(i, 4).text = str(sheet[f'V{i}'].value)
tables[6].cell(i, 5).text = str(sheet[f'V{i}'].value)
tables[6].cell(i, 6).text = '0'
tables[6].cell(i, 7).text = str(sheet[f'W{i}'].value)
tables[6].cell(i, 8).text = '0'
tables[6].cell(12, 4).text = str(total_num)
tables[6].cell(12, 5).text = str(total_num)
tables[6].cell(12, 7).text = str(box_num)
for i in range(2, 11):
tables[13].cell(i - 1, 0).text = str(sheet[f'T{i}'].value)
tables[13].cell(i - 1, 1).text = str(sheet[f'U{i}'].value)
tables[13].cell(i - 1, 2).text = str(sheet[f'U{i}'].value)
tables[13].cell(i - 1, 3).text = str(sheet[f'U{i}'].value)
document.save(path + f'{title}.docx')
print('文件已生成')
寫在最后
如果有感興趣的自動化辦公方向纫普,或者手上有具體的案例想利用python解決
歡迎與我交流阅悍,或者直接在公眾號早起python
留言
我們會選取有意思的例子無償解決并發(fā)布教程分享經(jīng)驗(yàn)讓更多人獲益
如果要提供案例需要說清楚需求,以及提供處理過的原始數(shù)據(jù)
我們發(fā)布教程前會對數(shù)據(jù)進(jìn)行無害化處理的哈哈哈哈保護(hù)隱私
原數(shù)據(jù)下載:
https://pan.baidu.com/s/1YFZPT7KViB5O-oQe4y_6HQ
提取碼:ym7p