安裝Python,出現(xiàn)的最大錯(cuò)誤(用pip安裝pdftotext總是報(bào)錯(cuò))
安裝Python有小伙伴傀蚌,出現(xiàn)的最大錯(cuò)誤(用pip安裝pdftotext總是報(bào)錯(cuò)) 怎么辦基显?
小伙伴們,文章有點(diǎn)不詳細(xì)善炫。有問題找小編或加小編的Q君羊 哦A糜摹!
提示系統(tǒng)里面箩艺,沒有 pdftotext 窜醉。
用 pip 安裝 pdftotext 這個(gè)軟件包,總是報(bào)錯(cuò)舅桩。
無計(jì)可施
你的目的酱虎,不應(yīng)該是跟報(bào)錯(cuò)信息較勁,而應(yīng)該弄明白擂涛,到底出了什么問題。
出問題的包聊记,是 pdftotext 對(duì)吧撒妈?
那你試試句惯,在 github 上搜索一下克婶,它對(duì)應(yīng)的 repo 頁面董习。
你很容易就找到這個(gè)網(wǎng)址滔蝉。
下面請(qǐng)你下拉頁面捧挺,看跟安裝相關(guān)的部分缕粹。如下圖所示:
注意岛抄,在安裝(Install)一部分璃诀,操作非常簡單,只需要一條 pip 命令就好谷暮。
pip install pdftotext
</pre>
跟你剛剛的操作蒿往,一模一樣,對(duì)吧湿弦?
那怎么會(huì)出錯(cuò)呢瓤漏?
請(qǐng)你往上看。
這里有個(gè)“系統(tǒng)依賴”(OS Dependencies)部分颊埃。它用了比安裝命令多出數(shù)倍的篇幅蔬充,告訴你在不同的操作系統(tǒng)上,需要安裝的依賴包班利。
如果你之前嘗試過我的那篇《貸還是不貸:如何用Python和機(jī)器學(xué)習(xí)幫你決策饥漫?》教程,應(yīng)該記得罗标,你遇到過類似問題庸队。
[圖片上傳失敗...(image-902468-1539052087951)]
對(duì),就是最后步驟馒稍,嘗試?yán)L制這幅決策樹可視化圖的時(shí)候皿哨,也遭遇到報(bào)錯(cuò)。
就是因?yàn)椴簧?Python 包纽谒,實(shí)際上是包裹了其他軟件证膨、甚至是系統(tǒng)級(jí)別的功能,方便你使用鼓黔。要正常安裝使用這種 Python 包央勒,你首先需要確保系統(tǒng)擁有這些功能,或者已經(jīng)安裝了相應(yīng)的軟件澳化。這就叫做依賴(Dependencies)崔步。
好了,問題找到了缎谷。因?yàn)檫@位讀者井濒,沒有安裝對(duì)應(yīng)的依賴。
所以列林,他雖然下了很大功夫瑞你,搜索問題病癥和解決方案,但是都是從具體的報(bào)錯(cuò)信息出發(fā)的希痴。因此一直跟 gcc 者甲、頭文件這些編譯相關(guān)的內(nèi)容較勁兒。找到的解決方案砌创,其實(shí)跟遇到的問題虏缸,并不匹配鲫懒。他其實(shí)本不需要見識(shí)各種各樣的報(bào)錯(cuò)信息,而只需要把相應(yīng)的依賴軟件安裝就好了刽辙。
那么窥岩,他需要執(zhí)行:
brew install pkg-config poppler
</pre>
寫到這里,似乎應(yīng)該是個(gè)大團(tuán)圓的結(jié)局了扫倡。對(duì)吧谦秧?
未必。
因?yàn)樗浅撵溃?赡芫卫穑⒓磿?huì)遇到新的報(bào)錯(cuò)。
新問題
怎么又報(bào)錯(cuò)了缘挑?集歇!
因?yàn)?brew 命令,屬于 Homebrew 套件语淘,它不是 macOS 系統(tǒng)里自帶的工具诲宇。
好吧,他可以去搜索引擎查找 brew 是怎么回事兒惶翻,繼而到 Homebrew 的官網(wǎng)成功下載姑蓝,然后學(xué)習(xí)如何安裝……
更多人用的操作系統(tǒng),是 Windows 對(duì)不對(duì)吕粗?
回過頭來看看纺荧,剛才的系統(tǒng)依賴清單里面,有 Windows 嗎颅筋?
沒有宙暇。
是不是因?yàn)樽髡咄藢懀?/p>
又或者,是不是因?yàn)?Windows 本身已經(jīng)有了相關(guān)軟件集成议泵,無須安裝占贫?
都不是。
現(xiàn)實(shí)是殘酷的先口。
打開 pdftotext 官方 github 頁面的答疑記錄來看型奥, Windows 干脆就無法像 Linux 或者 macOS 一樣,一行命令安裝好依賴碉京。
軟件作者給你指出的方向桩引,居然是安裝 Visual Studio 這樣的編譯器,然后自己編譯出來收夸。
對(duì)于文科生來說,這不厚道把浮卧惜!
……
曲徑
遇到問題厘灼,不要第一時(shí)間只想到“放棄”這種方法。
雖然學(xué)會(huì)止損很重要咽瓷。但是如果因?yàn)橛欣щy设凹,就放棄解決問題,那就背離初衷了茅姜。
倘若人類的祖先都這樣處理問題闪朱,今天我們或許都在樹上呆著,跟大自然“和諧相處”呢钻洒。
但那恐怕只是我們的美好幻想——更大的可能性奋姿,是我們這個(gè)物種早就滅絕了。
面對(duì)新的問題素标,請(qǐng)你再度拿出“第一性原理”的思考方式称诗。
注意我們的問題已經(jīng)從“如何應(yīng)對(duì)報(bào)錯(cuò)信息”,轉(zhuǎn)換到了“如何正確安裝 pdftotext ”軟件包头遭。
但是如果你在 Windows 平臺(tái)寓免,似乎這個(gè)軟件包跟你緣分不是很密切。
怎么辦计维?
我們?cè)偎伎家徊酵嘞悖娴谋仨氁惭b pdftotext 這款軟件包嗎?
這樣一問鲫惶,答案呼之欲出:不一定膀谑住!
許多功能剑按,都有不同的軟件包可以做到疾就。
之前的教程里,你已經(jīng)看到了許多的例子艺蝴。
例如繪圖猬腰,你既可以用 matplotlib ,也可以用 plotnine 猜敢;
中文分詞姑荷,你既可以用 boson NLP,也可以用結(jié)巴分詞缩擂;
深度學(xué)習(xí)鼠冕,你既可以用 tflearn ,也可以用 Keras胯盯,還可以用 TuriCreate懈费。
思考一下,使用 pdftotext 這個(gè)軟件包博脑,用來做什么憎乙?
對(duì)票罐,是用來把 pdf 文件,變成文本泞边。
有了文本该押,喂給 wordcloud 工具,它就能做成詞云阵谚。
我們需要的蚕礼,根本就不是正確安裝 pdftotext ,而是找到一個(gè)工具梢什,把 pdf 給我們轉(zhuǎn)換成為文本奠蹬。
好了,“把 pdf 轉(zhuǎn)換成為文本”讓你想到了什么绳矩?
這里是它的 github 頁面罩润。
下拉頁面,可以看到專門有一個(gè)部分翼馆,給你介紹如何使用 pdfminer.six 命令行完成文本提取功能割以。
好了,我們的猜想被證實(shí)了应媚。它完全可用严沥。
另外請(qǐng)注意, pdfminer.six 的安裝說明里中姜,根本就沒有提到操作系統(tǒng)依賴消玄。
這就意味著,不管你用的是 Windows丢胚、Linux翩瓜,還是 macOS ,都可以在不必安裝依賴軟件的情況下携龟,直接用 pip 工具安裝 pdfminer.six 兔跌。
步驟
下面我們來看看,如何用下面的簡單步驟峡蟋,實(shí)現(xiàn)我們的目的——直接用命令行而非編程方式坟桅,從 pdf 文件,分析并繪制詞云蕊蝗。
先確保你的系統(tǒng)里面 python 3 已經(jīng)安裝仅乓。如需全新安裝,請(qǐng)參考這個(gè)視頻教程蓬戚。
然后夸楣,用 pip 命令安裝 wordcloud 軟件包:
pip install wordcloud
</pre>
注意如果你在安裝過程中遇到問題,請(qǐng)參考我的另一份視頻教程。
之后裕偿,執(zhí)行下述語句洞慎,安裝 pdfminer.six 。
pip install pdfminer.six
</pre>
你可以自己新建一個(gè)測(cè)試目錄嘿棘,拷貝進(jìn)入一個(gè) pdf 文件。
或者旭绒,你也可以直接下載這個(gè)壓縮文件鸟妙,解壓后有一個(gè)現(xiàn)成的 pdf 文件。后文還有對(duì)應(yīng)生成詞云結(jié)果挥吵,供你測(cè)試和對(duì)比重父。
我們打開這個(gè)樣例 pdf 文件(名稱為 test.pdf ),看看內(nèi)容:
沒毛病忽匈,對(duì)吧房午?
文章來自網(wǎng)絡(luò),如有侵權(quán)聯(lián)系小編丹允!