用python處理信息時(shí)經(jīng)常需要面對(duì)doc/docx文檔,這兩者機(jī)制還不一樣路鹰,偏偏拿到的文件既有doc格式又有docx的玄窝,很頭疼牵寺。
python的第三方庫(kù)python-docx適用于寫入,但對(duì)于讀取信息并不友好(python-docx會(huì)把每一行解析成一個(gè)Document對(duì)象恩脂,涉及到多行信息提取就無能為力)
最后想了想帽氓,把word文檔統(tǒng)一轉(zhuǎn)化成python可以直接處理的txt會(huì)方便很多。翻墻找了很久俩块,終于找到一個(gè)免費(fèi)干凈的word文檔轉(zhuǎn)txt程序黎休,如下:
軟件界面
幾千個(gè)文檔幾分鐘便轉(zhuǎn)化好了
下載地址:
http://www.multidoc-converter.com/en/download/index.html