pdfdocx:Python中doc、pdf文檔讀取庫

最近運行課件代碼呢蔫,發(fā)現(xiàn)pdf文件讀取部分的函數(shù)失效切心。這里找到讀取pdf文件的可運行代碼,為了方便后續(xù)學(xué)習(xí)使用片吊,我已將pdf和docx讀取方法封裝成pdfdocx包绽昏。

pdfdocx

只有簡單的兩個讀取函數(shù)

  • read_pdf(file)
  • read_docx(file)

file為文件路徑,函數(shù)運行后返回file文件內(nèi)的文本數(shù)據(jù)俏脊。

安裝

pip install pdfdocx

使用

讀取pdf文件

from pdfdocx import read_pdf
p_text = read_pdf('test/data.pdf')
print(p_text)

Run

這是來?pdf?件內(nèi)的內(nèi)容
from pdfdocx import read_docx
d_text = read_pdf('test/data.docx')
print(d_text)

Run

這是來?docx?件內(nèi)的內(nèi)容

拆開pdfdocx

希望大家能安裝好全谤,如果安裝或者使用失敗,可以使用下面的代碼作為備選方法爷贫。雖然繁瑣认然,能用就好。

讀取pdf

from io import StringIO
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
import re


def read_pdf(file):
    """
    讀取pdf文件漫萄,并返回其中的文本內(nèi)容
    :param file: pdf文件路徑
    :return: docx中的文本內(nèi)容
    """
    output_string = StringIO()
    with open(file, 'rb') as in_file:
        parser = PDFParser(in_file)
        doc = PDFDocument(parser)
        rsrcmgr = PDFResourceManager()
        device = TextConverter(rsrcmgr, output_string, laparams=LAParams())
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        for page in PDFPage.create_pages(doc):
            interpreter.process_page(page)
    text = output_string.getvalue()
    return re.sub('[\n\t\s]', '', text)
  

讀取docx

import docx
  
def read_docx(file):
    """
    讀取docx文件季眷,并返回其中的文本內(nèi)容
    :param file: docx文件路徑
    :return: docx中的文本內(nèi)容
    """
    text = ''
    doc = docx.Document(file)
    for para in doc.paragraphs:
        text += para.text
    return text

如果

如果您是經(jīng)管人文社科專業(yè)背景,編程小白卷胯,面臨海量文本數(shù)據(jù)采集和處理分析艱巨任務(wù)子刮,個人建議學(xué)習(xí)《python網(wǎng)絡(luò)爬蟲與文本數(shù)據(jù)分析》視頻課。作為文科生,一樣也是從兩眼一抹黑開始挺峡,這門課程是用五年時間凝縮出來的葵孤。自認為講的很通俗易懂o( ̄︶ ̄)o,

  • python入門
  • 網(wǎng)絡(luò)爬蟲
  • 數(shù)據(jù)讀取
  • 文本分析入門
  • 機器學(xué)習(xí)與文本分析
  • 文本分析在經(jīng)管研究中的應(yīng)用

感興趣的童鞋不妨 戳一下《python網(wǎng)絡(luò)爬蟲與文本數(shù)據(jù)分析》進來看看~

更多

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末橱赠,一起剝皮案震驚了整個濱河市尤仍,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌狭姨,老刑警劉巖宰啦,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異饼拍,居然都是意外死亡赡模,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進店門师抄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來漓柑,“玉大人,你說我怎么就攤上這事叨吮×静迹” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵茶鉴,是天一觀的道長锋玲。 經(jīng)常有香客問我,道長涵叮,這世上最難降的妖魔是什么嫩絮? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮围肥,結(jié)果婚禮上剿干,老公的妹妹穿的比我還像新娘。我一直安慰自己穆刻,他們只是感情好置尔,可當我...
    茶點故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著氢伟,像睡著了一般榜轿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上朵锣,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天谬盐,我揣著相機與錄音,去河邊找鬼诚些。 笑死飞傀,一個胖子當著我的面吹牛皇型,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播砸烦,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼弃鸦,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了幢痘?” 一聲冷哼從身側(cè)響起唬格,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎颜说,沒想到半個月后购岗,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡门粪,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年喊积,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片庄拇。...
    茶點故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡注服,死狀恐怖韭邓,靈堂內(nèi)的尸體忽然破棺而出措近,到底是詐尸還是另有隱情,我是刑警寧澤女淑,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布瞭郑,位于F島的核電站,受9級特大地震影響鸭你,放射性物質(zhì)發(fā)生泄漏屈张。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一袱巨、第九天 我趴在偏房一處隱蔽的房頂上張望阁谆。 院中可真熱鬧,春花似錦愉老、人聲如沸场绿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽焰盗。三九已至,卻和暖如春咒林,著一層夾襖步出監(jiān)牢的瞬間熬拒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工垫竞, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留澎粟,地道東北人。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像捌议,于是被迫代替她去往敵國和親哼拔。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 第一部分 創(chuàng)建爬蟲 重點介紹網(wǎng)絡(luò)數(shù)據(jù)采集的基本原理 : 如何用 Python 從網(wǎng)絡(luò)服務(wù)器 請求信息瓣颅,如何對服務(wù)器...
    萬事皆成閱讀 2,057評論 0 5
  • 引言 眾所周知,python最強大的地方在于倦逐,python社區(qū)匯總擁有豐富的第三方庫,開源的特性宫补,使得有越來越多的...
    北房有佳人閱讀 1,645評論 2 2
  • 鍍金的同時卻忘了銀針渡人檬姥,術(shù)法渡鬼。 鍍金是一種完美的理想主義粉怕,渡鬼是一種現(xiàn)實的骨干主義健民,蒼涼浮華。 鍍金渡水渡人...
    媚珠春華閱讀 1,086評論 0 0
  • 青林翠竹催寒意贫贝,秀桿直立聳入云秉犹。 葉葉交織逐風(fēng)浪,微風(fēng)搖枝入小冬稚晚。 棵棵相擁爭高望崇堵,層巒疊嶂鋪滿天。 臨松相伴獨缺...
    默契_0fcb閱讀 202評論 0 1
  • 今天下午媽媽送我去上學(xué)客燕,到了學(xué)校媽媽把我送到班上鸳劳,我走進教室找到自己的位置坐下,我又在班里等了一會也搓,楊柯就來了赏廓。楊...
    豪達兄弟閱讀 163評論 0 0