layout: "post"
title: "PDF內(nèi)容獲取"
date: "2017-03-08 21:00"
其實(shí) PDF 轉(zhuǎn) word 已經(jīng)不算是什么新興技術(shù)了症见,大約 10 年左右的時(shí)候,我在網(wǎng)上通過一些本地轉(zhuǎn)換工具/在線轉(zhuǎn)換工具欢瞪,以及漢王OCR等軟件感挥,就已經(jīng)可以把 PDF 導(dǎo)成 word 或者獲取 PDF 文件中的絕大多數(shù)內(nèi)容了。而隨著軟件技術(shù)的不斷發(fā)展,最近的一些新興軟件在轉(zhuǎn)換效率等上面也做的越來越出色鬼譬,目前大多數(shù)的 PDF 文檔幾乎都可以完美轉(zhuǎn)換成 word 格式。
在正文之前逊脯,首先安利一個(gè) PDF 軟件优质,國(guó)內(nèi)出名的算是福昕閱讀器了,該軟件的特點(diǎn)就是速度快军洼,占用資源少巩螃,功能多(雖然他也有很多缺點(diǎn),但和同類 PDF 軟件比已經(jīng)可以甩開別人好幾條街了)匕争。這邊就 PDF 中的內(nèi)容獲取避乏,我們可以分為三類,以下針對(duì)他們也會(huì)一一詳細(xì)介紹甘桑。
復(fù)制粘貼
并不是每個(gè)人都需要獲取 PDF 文件中全部?jī)?nèi)容的拍皮,很多時(shí)候我們?cè)陂喿x一個(gè) PDF 文檔時(shí),也許只是需要摘錄他的一句話跑杭,或者獲取一小段文字铆帽。這個(gè)時(shí)候往往可以在 PDF 中直接選中這段文字,右擊或使用快捷鍵復(fù)制德谅。但往往有些人會(huì)特意為難我們爹橱,他們會(huì)在自己的 PDF 文件上面進(jìn)行加密,讓你只能閱讀文件窄做,卻沒法對(duì)文件內(nèi)容進(jìn)行任何復(fù)制愧驱,標(biāo)注等操作。如果遇到這種問題浸策,可以使用我這邊提供的一個(gè)小工具冯键,pdfunlocker,如果無法解密庸汗,可以去找新版的軟件惫确。。
這邊介紹兩個(gè)比較好用的 PDF 小工具:FreePic2Pdf+PdgCntEditor。解鎖后的文件很多會(huì)丟失目錄改化,可以通過軟件 PdgCntEditor 獲取文檔目錄編輯掩蛤。同時(shí) FreePic2Pdf 軟件(批量將圖片導(dǎo)出成 PDF 文檔)可以和 PdgCntEditor 一起使用,
文字轉(zhuǎn)成 word
雖然計(jì)算機(jī)發(fā)展了很多年陈肛,但仍然有不少人會(huì)使用 word 來進(jìn)行排版和編輯揍鸟。他們也希望所有獲得的文檔都是 word 類格式(包括 .doc .docx等等)的,這樣他們就可以對(duì)文檔中的內(nèi)容進(jìn)行任意的增刪改查了句旱,雖然說 PDF 出現(xiàn)就是為了規(guī)范格式阳藻,讓一般人無法輕易的對(duì)其中的內(nèi)容做修改,但仍然有很多人樂此不疲的想這么做谈撒。PDF 轉(zhuǎn) word 的軟件可以說是相當(dāng)繁多且良莠不齊腥泥,這邊我們只推薦一款: PDF-to-Word 該軟件網(wǎng)上很容易找到,這邊就不給出鏈接了啃匿,當(dāng)然其他還有很多可以將 PDF 轉(zhuǎn)成 word 的工具蛔外,如在線網(wǎng)站 smallpdf, nitropdf等等溯乒。
圖片轉(zhuǎn) word
并不是所有的 PDF 都可以輕易轉(zhuǎn)成 word夹厌,以上那類 PDF 轉(zhuǎn) word 的軟件,很多都只適用于文字的轉(zhuǎn)換裆悄,換言之矛纹,就是本來文字內(nèi)容你就是可以選擇的,軟件要做的只是講文字內(nèi)容自動(dòng)復(fù)制出來灯帮,進(jìn)行重新排版崖技,然后生成 word 文件給你看。但現(xiàn)在很多 PDF 文件的內(nèi)容都不是文字格式的钟哥,很多內(nèi)容是掃描件迎献,或者是手工拍的照片,更有勝者將文字轉(zhuǎn)成了圖片在導(dǎo)入到 PDF 中腻贰。這些無疑都增加了你導(dǎo)出內(nèi)容的難度吁恍,然而,這些問題也只能難道過去你的播演,對(duì) OCR 技術(shù)如此成熟的今天冀瓦,只要不是手寫內(nèi)容,基本上都可以 100% 的識(shí)別出來写烤。下面我們介紹下幾款這種軟件:
- 漢王 OCR:好像是 05 的一款軟件翼闽,國(guó)內(nèi)比較早涉及這款領(lǐng)域的一個(gè)軟件,識(shí)別率不是很高洲炊,但也基本可以識(shí)別感局,優(yōu)點(diǎn)是不要聯(lián)網(wǎng)尼啡,可以離線直接使用。
- Google drive:你可以把 Google 郵箱中的內(nèi)容直接通過 Google drive 打開询微,右擊 PDF 用 word 打開崖瞭,然后你會(huì)驚奇的發(fā)現(xiàn),PDF 中圖片的內(nèi)容已經(jīng)變成了可以編輯的文字了撑毛。目前而言书聚,Google drive 中的 PDF 插件是用戶體驗(yàn)最好的一種方式,幾乎可以滿足所有的 PDF 轉(zhuǎn) word 編輯藻雌,然而使用該服務(wù)需要聯(lián)網(wǎng)雌续,因此你需要科學(xué)上網(wǎng)。
- oneNote:Microsoft office 全家桶中的一員大將蹦疑,oneNote 中自帶 OCR 功能西雀,你可以在插入中找到找到它,這個(gè)軟件 windows 7 中好像是沒有的歉摧,其他最新系統(tǒng)到底面不免費(fèi)就不得而知了。
- WPS:該軟件大家應(yīng)該也比較熟悉腔呜,算是國(guó)內(nèi) office 軟件的霸主了叁温。用 WPS 打開你的 PDF 文檔,最上方就會(huì)出現(xiàn) word 轉(zhuǎn) pdf 的選項(xiàng)核畴,以及圖片轉(zhuǎn)文字功能膝但,對(duì)于辨識(shí)度較高的圖片常規(guī)讀取里面的內(nèi)容是沒問題,但該功能算是 WPS 的一個(gè)增值服務(wù)谤草,如果需要轉(zhuǎn)成 word 或者識(shí)別度好跟束,則是需要會(huì)員服務(wù)的。
小結(jié)
以上這些軟件都是一看就會(huì)用的軟件丑孩,這邊不再具體給出軟件的教程冀宴,如有疑問可以自己多嘗試,或者直接網(wǎng)絡(luò)搜索温学。
寫作時(shí)間:21:00-22:08