手上有一批pdf的文件大約6萬份需要轉(zhuǎn)成txt惕澎,嘗試了很多方法。列出來供參考:
1. 利用付費(fèi)軟件轉(zhuǎn)換
使用了迅捷PDF轉(zhuǎn)換器,買了永久會(huì)員,該轉(zhuǎn)換方法的好處是操作簡(jiǎn)單婚被,缺點(diǎn)在于免費(fèi)一次只能轉(zhuǎn)5頁(yè),買了會(huì)員之后也一次只能轉(zhuǎn)換200個(gè)文件,小批量文件比較適合。
2. 利用python進(jìn)行轉(zhuǎn)換
python轉(zhuǎn)換主要利用了王樹義老師提供的方法PDF批量轉(zhuǎn)換碴犬,該方法基于python3中的pdfminer.six包進(jìn)行提取,可以做到批量轉(zhuǎn)換梆暮。但是由于我的PDF文件可能有點(diǎn)問題總是報(bào)錯(cuò)說文件格式不是PDF服协。也查了一些其他的轉(zhuǎn)換包,好像對(duì)中文支持都不好啦粹,沒有進(jìn)一步嘗試偿荷。
anaconda在裝上pdfminer.six包之后按照王樹義老師給出的代碼導(dǎo)入包時(shí)出現(xiàn)ModuleNotFoundError,檢查后發(fā)現(xiàn)以前裝了pdfminer3k的包唠椭,其實(shí)兩個(gè)包代碼功能都差不多跳纳,但是個(gè)別模塊名字有差異。如果一直出現(xiàn)ModuleNotFoundError泪蔫,可以嘗試卸載兩個(gè)包后再重新按照棒旗。
3. 在linux系統(tǒng)中轉(zhuǎn)換
實(shí)在走投無路之后,偶然在知乎上看到一個(gè)方法撩荣,并利用這種方法成功轉(zhuǎn)換铣揉。
由于我使用的是windows10系統(tǒng),因此首先安裝了vmware以及ubuntu的虛擬機(jī)餐曹,之后在終端執(zhí)行以下命令即可:
```
for f in `ls *.pdf`
do pdftotext "$f"
done?
```
以上為嘗試的三種比較方便的轉(zhuǎn)換方法逛拱,當(dāng)然如果只是轉(zhuǎn)單個(gè)文件直接右擊PDF文件利用word2016以上版本打開,即可轉(zhuǎn)換台猴。