pdfdocx：Python中doc、pdf文檔讀取庫

最近運行課件代碼呢蔫，發(fā)現(xiàn)pdf文件讀取部分的函數(shù)失效切心。這里找到讀取pdf文件的可運行代碼，為了方便后續(xù)學(xué)習(xí)使用片吊，我已將pdf和docx讀取方法封裝成pdfdocx包绽昏。

pdfdocx

只有簡單的兩個讀取函數(shù)

read_pdf(file)
read_docx(file)

file為文件路徑，函數(shù)運行后返回file文件內(nèi)的文本數(shù)據(jù)俏脊。

安裝

pip install pdfdocx

使用

讀取pdf文件

from pdfdocx import read_pdf
p_text = read_pdf('test/data.pdf')
print(p_text)

Run

這是來?pdf?件內(nèi)的內(nèi)容

from pdfdocx import read_docx
d_text = read_pdf('test/data.docx')
print(d_text)

Run

這是來?docx?件內(nèi)的內(nèi)容

拆開pdfdocx

希望大家能安裝好全谤，如果安裝或者使用失敗，可以使用下面的代碼作為備選方法爷贫。雖然繁瑣认然，能用就好。

讀取pdf

from io import StringIO
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
import re


def read_pdf(file):
    """
    讀取pdf文件漫萄，并返回其中的文本內(nèi)容
    :param file: pdf文件路徑
    :return: docx中的文本內(nèi)容
    """
    output_string = StringIO()
    with open(file, 'rb') as in_file:
        parser = PDFParser(in_file)
        doc = PDFDocument(parser)
        rsrcmgr = PDFResourceManager()
        device = TextConverter(rsrcmgr, output_string, laparams=LAParams())
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        for page in PDFPage.create_pages(doc):
            interpreter.process_page(page)
    text = output_string.getvalue()
    return re.sub('[\n\t\s]', '', text)

讀取docx

import docx
  
def read_docx(file):
    """
    讀取docx文件季眷，并返回其中的文本內(nèi)容
    :param file: docx文件路徑
    :return: docx中的文本內(nèi)容
    """
    text = ''
    doc = docx.Document(file)
    for para in doc.paragraphs:
        text += para.text
    return text

如果

如果您是經(jīng)管人文社科專業(yè)背景，編程小白卷胯，面臨海量文本數(shù)據(jù)采集和處理分析艱巨任務(wù)子刮，個人建議學(xué)習(xí)《python網(wǎng)絡(luò)爬蟲與文本數(shù)據(jù)分析》視頻課。作為文科生，一樣也是從兩眼一抹黑開始挺峡，這門課程是用五年時間凝縮出來的葵孤。自認為講的很通俗易懂o(￣︶￣)o，

python入門
網(wǎng)絡(luò)爬蟲
數(shù)據(jù)讀取
文本分析入門
機器學(xué)習(xí)與文本分析
文本分析在經(jīng)管研究中的應(yīng)用

感興趣的童鞋不妨戳一下《python網(wǎng)絡(luò)爬蟲與文本數(shù)據(jù)分析》進來看看~

B站:大鄧和他的python
公眾號：大鄧和他的python
知乎專欄：數(shù)據(jù)科學(xué)家

?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末橱赠，一起剝皮案震驚了整個濱河市尤仍，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌狭姨，老刑警劉巖宰啦，帶你破解...
沈念sama閱讀 217,185評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異饼拍，居然都是意外死亡赡模，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門师抄，熙熙樓的掌柜王于貴愁眉苦臉地迎上來漓柑，“玉大人，你說我怎么就攤上這事叨吮×静迹” “怎么了？”我有些...
開封第一講書人閱讀 163,524評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵茶鉴，是天一觀的道長锋玲。經(jīng)常有香客問我，道長涵叮，這世上最難降的妖魔是什么嫩絮？我笑而不...
開封第一講書人閱讀 58,339評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮围肥，結(jié)果婚禮上剿干，老公的妹妹穿的比我還像新娘。我一直安慰自己穆刻，他們只是感情好置尔，可當我...
茶點故事閱讀 67,387評論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著氢伟，像睡著了一般榜轿。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上朵锣，一...
開封第一講書人閱讀 51,287評論 1贊 301
城市分裂傳說
那天谬盐，我揣著相機與錄音，去河邊找鬼诚些。笑死飞傀，一個胖子當著我的面吹牛皇型，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播砸烦，決...
沈念sama閱讀 40,130評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼弃鸦，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了幢痘？” 一聲冷哼從身側(cè)響起唬格，我...
開封第一講書人閱讀 38,985評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎颜说，沒想到半個月后购岗，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,420評論 1贊 313
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡门粪，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,617評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年喊积，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片庄拇。...
茶點故事閱讀 39,779評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡注服，死狀恐怖韭邓，靈堂內(nèi)的尸體忽然破棺而出措近，到底是詐尸還是另有隱情，我是刑警寧澤女淑，帶...
沈念sama閱讀 35,477評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布瞭郑，位于F島的核電站，受9級特大地震影響鸭你，放射性物質(zhì)發(fā)生泄漏屈张。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,088評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一袱巨、第九天我趴在偏房一處隱蔽的房頂上張望阁谆。院中可真熱鬧，春花似錦愉老、人聲如沸场绿。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,716評論 0贊 22
一樁弒父案嫉入，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽焰盗。三九已至，卻和暖如春咒林，著一層夾襖步出監(jiān)牢的瞬間熬拒，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,857評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工垫竞，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留澎粟，地道東北人。一個月前我還...
沈念sama閱讀 47,876評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像捌议，于是被迫代替她去往敵國和親哼拔。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,700評論 2贊 354

pdfdocx：Python中doc履恩、pdf文檔讀取庫

pdfdocx：Python中doc、pdf文檔讀取庫

pdfdocx

安裝

使用

拆開pdfdocx

如果

更多

推薦閱讀更多精彩內(nèi)容