如何用python從pdf中提取圖片

依賴安裝

pip install pymupdf

代碼

import fitz
import time
import re
import os

def pdf2pic(path, pic_path):
    '''
    # 從pdf中提取圖片
    :param path: pdf的路徑
    :param pic_path: 圖片保存的路徑
    :return:
    '''
    t0 = time.clock()
    # 使用正則表達(dá)式來查找圖片
    checkXO = r"/Type(?= */XObject)"
    checkIM = r"/Subtype(?= */Image)"
    # 打開pdf
    doc = fitz.open(path)
    # 圖片計(jì)數(shù)
    imgcount = 0
    lenXREF = doc._getXrefLength()

    # 打印PDF的信息
    print("文件名:{}, 頁數(shù): {}, 對象: {}".format(path, len(doc), lenXREF - 1))

    # 遍歷每一個(gè)對象
    for i in range(1, lenXREF):
        # 定義對象字符串
        text = doc._getXrefString(i)
        isXObject = re.search(checkXO, text)
        # 使用正則表達(dá)式查看是否是圖片
        isImage = re.search(checkIM, text)
        # 如果不是對象也不是圖片誉券,則continue
        if not isXObject or not isImage:
            continue
        imgcount += 1
        # 根據(jù)索引生成圖像
        pix = fitz.Pixmap(doc, i)
        # 根據(jù)pdf的路徑生成圖片的名稱
        new_name = path.replace('\\', '_') + "_img{}.png".format(imgcount)
        new_name = new_name.replace(':', '')

        # 如果pix.n<5,可以直接存為PNG
        if pix.n < 5:
            pix.writePNG(os.path.join(pic_path, new_name))
        # 否則先轉(zhuǎn)換CMYK
        else:
            pix0 = fitz.Pixmap(fitz.csRGB, pix)
            pix0.writePNG(os.path.join(pic_path, new_name))
            pix0 = None
        # 釋放資源
        pix = None
        t1 = time.clock()
        #        print("運(yùn)行時(shí)間:{}s".format(t1 - t0))
        print("提取了{(lán)}張圖片".format(imgcount))


if __name__=='__main__':
    # pdf路徑
    path = r'I:\paper'#pdf文件路徑
    pic_path = r'I:\picture'#提取圖片保存路徑
    for index,x in enumerate(os.listdir(path)):
        if os.path.join(path, x).endswith('.pdf'):
            try:
                m = pdf2pic(os.path.join(path, x), pic_path)
            except:
                print("提取失敗")

注意

代碼中import中的fitz并不需要安裝洒缀,它本身包含在pymupdf中,單獨(dú)安裝fit都會顯示安裝失敗窗宦。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末勤庐,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子奥溺,更是在濱河造成了極大的恐慌辞色,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件浮定,死亡現(xiàn)場離奇詭異相满,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)桦卒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進(jìn)店門立美,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人方灾,你說我怎么就攤上這事建蹄÷蹈” “怎么了?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵洞慎,是天一觀的道長痛单。 經(jīng)常有香客問我,道長劲腿,這世上最難降的妖魔是什么旭绒? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮谆棱,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘圆仔。我一直安慰自己垃瞧,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布坪郭。 她就那樣靜靜地躺著个从,像睡著了一般。 火紅的嫁衣襯著肌膚如雪歪沃。 梳的紋絲不亂的頭發(fā)上嗦锐,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天,我揣著相機(jī)與錄音沪曙,去河邊找鬼奕污。 笑死,一個(gè)胖子當(dāng)著我的面吹牛液走,可吹牛的內(nèi)容都是我干的碳默。 我是一名探鬼主播,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼缘眶,長吁一口氣:“原來是場噩夢啊……” “哼嘱根!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起巷懈,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤该抒,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后顶燕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凑保,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年涌攻,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了愉适。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,015評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡癣漆,死狀恐怖维咸,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤癌蓖,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布瞬哼,位于F島的核電站,受9級特大地震影響租副,放射性物質(zhì)發(fā)生泄漏坐慰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一用僧、第九天 我趴在偏房一處隱蔽的房頂上張望结胀。 院中可真熱鬧,春花似錦责循、人聲如沸糟港。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽秸抚。三九已至,卻和暖如春歹垫,著一層夾襖步出監(jiān)牢的瞬間剥汤,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工排惨, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吭敢,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓暮芭,卻偏偏與公主長得像省有,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子谴麦,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 一蠢沿、Python簡介和環(huán)境搭建以及pip的安裝 4課時(shí)實(shí)驗(yàn)課主要內(nèi)容 【Python簡介】: Python 是一個(gè)...
    _小老虎_閱讀 5,746評論 0 10
  • 引言 在這里我假設(shè)你已經(jīng)看完了一篇Python教程,基本熟悉了Python的結(jié)構(gòu)和語法匾效,在命令行下的Python互...
    Programmer客棧閱讀 65,133評論 0 17
  • linux和windows下安裝python拓展包-pycharm舷蟀、numpy、scipy面哼、matplotlib野宜、...
    hzyido閱讀 81,258評論 2 10
  • Python 二三事 面向初學(xué)者介紹Python相關(guān)的一些工具,以及可能遇到的常見問題魔策。 最后更新 2013.5....
    hzyido閱讀 67,756評論 2 42
  • 相親是不可避免了匈子,因?yàn)樾愿駜?nèi)向?因?yàn)檫€沒對象闯袒?我也說不清姑媽給我介紹對象的原因虎敦,其實(shí)不過是尋常聊家常游岳,姑媽家里電...
    也青青閱讀 133評論 0 0