安裝Python灌砖,出現(xiàn)的最大錯(cuò)誤(用pip安裝pdftotext總是報(bào)錯(cuò))

安裝Python,出現(xiàn)的最大錯(cuò)誤(用pip安裝pdftotext總是報(bào)錯(cuò))

安裝Python有小伙伴傀蚌,出現(xiàn)的最大錯(cuò)誤(用pip安裝pdftotext總是報(bào)錯(cuò)) 怎么辦基显?

小伙伴們,文章有點(diǎn)不詳細(xì)善炫。有問題找小編或加小編的Q君羊 哦A糜摹!

提示系統(tǒng)里面箩艺,沒有 pdftotext 窜醉。

用 pip 安裝 pdftotext 這個(gè)軟件包,總是報(bào)錯(cuò)舅桩。

image

無計(jì)可施

你的目的酱虎,不應(yīng)該是跟報(bào)錯(cuò)信息較勁,而應(yīng)該弄明白擂涛,到底出了什么問題。

出問題的包聊记,是 pdftotext 對(duì)吧撒妈?

那你試試句惯,在 github 上搜索一下克婶,它對(duì)應(yīng)的 repo 頁面董习。

你很容易就找到這個(gè)網(wǎng)址滔蝉。

image

下面請(qǐng)你下拉頁面捧挺,看跟安裝相關(guān)的部分缕粹。如下圖所示:

image

注意岛抄,在安裝(Install)一部分璃诀,操作非常簡單,只需要一條 pip 命令就好谷暮。

pip install pdftotext

</pre>

跟你剛剛的操作蒿往,一模一樣,對(duì)吧湿弦?

那怎么會(huì)出錯(cuò)呢瓤漏?

請(qǐng)你往上看。

這里有個(gè)“系統(tǒng)依賴”(OS Dependencies)部分颊埃。它用了比安裝命令多出數(shù)倍的篇幅蔬充,告訴你在不同的操作系統(tǒng)上,需要安裝的依賴包班利。

如果你之前嘗試過我的那篇《貸還是不貸:如何用Python和機(jī)器學(xué)習(xí)幫你決策饥漫?》教程,應(yīng)該記得罗标,你遇到過類似問題庸队。

[圖片上傳失敗...(image-902468-1539052087951)]

對(duì),就是最后步驟馒稍,嘗試?yán)L制這幅決策樹可視化圖的時(shí)候皿哨,也遭遇到報(bào)錯(cuò)。

就是因?yàn)椴簧?Python 包纽谒,實(shí)際上是包裹了其他軟件证膨、甚至是系統(tǒng)級(jí)別的功能,方便你使用鼓黔。要正常安裝使用這種 Python 包央勒,你首先需要確保系統(tǒng)擁有這些功能,或者已經(jīng)安裝了相應(yīng)的軟件澳化。這就叫做依賴(Dependencies)崔步。

好了,問題找到了缎谷。因?yàn)檫@位讀者井濒,沒有安裝對(duì)應(yīng)的依賴。

所以列林,他雖然下了很大功夫瑞你,搜索問題病癥和解決方案,但是都是從具體的報(bào)錯(cuò)信息出發(fā)的希痴。因此一直跟 gcc 者甲、頭文件這些編譯相關(guān)的內(nèi)容較勁兒。找到的解決方案砌创,其實(shí)跟遇到的問題虏缸,并不匹配鲫懒。他其實(shí)本不需要見識(shí)各種各樣的報(bào)錯(cuò)信息,而只需要把相應(yīng)的依賴軟件安裝就好了刽辙。

image

那么窥岩,他需要執(zhí)行:

brew install pkg-config poppler

</pre>

寫到這里,似乎應(yīng)該是個(gè)大團(tuán)圓的結(jié)局了扫倡。對(duì)吧谦秧?

未必。

因?yàn)樗浅撵溃?赡芫卫穑⒓磿?huì)遇到新的報(bào)錯(cuò)。

新問題

怎么又報(bào)錯(cuò)了缘挑?集歇!

因?yàn)?brew 命令,屬于 Homebrew 套件语淘,它不是 macOS 系統(tǒng)里自帶的工具诲宇。

好吧,他可以去搜索引擎查找 brew 是怎么回事兒惶翻,繼而到 Homebrew 的官網(wǎng)成功下載姑蓝,然后學(xué)習(xí)如何安裝……

更多人用的操作系統(tǒng),是 Windows 對(duì)不對(duì)吕粗?

回過頭來看看纺荧,剛才的系統(tǒng)依賴清單里面,有 Windows 嗎颅筋?

image

沒有宙暇。

是不是因?yàn)樽髡咄藢懀?/p>

又或者,是不是因?yàn)?Windows 本身已經(jīng)有了相關(guān)軟件集成议泵,無須安裝占贫?

都不是。

現(xiàn)實(shí)是殘酷的先口。

打開 pdftotext 官方 github 頁面的答疑記錄來看型奥, Windows 干脆就無法像 Linux 或者 macOS 一樣,一行命令安裝好依賴碉京。

image

軟件作者給你指出的方向桩引,居然是安裝 Visual Studio 這樣的編譯器,然后自己編譯出來收夸。

對(duì)于文科生來說,這不厚道把浮卧惜!

……

image

曲徑

遇到問題厘灼,不要第一時(shí)間只想到“放棄”這種方法。

雖然學(xué)會(huì)止損很重要咽瓷。但是如果因?yàn)橛欣щy设凹,就放棄解決問題,那就背離初衷了茅姜。

倘若人類的祖先都這樣處理問題闪朱,今天我們或許都在樹上呆著,跟大自然“和諧相處”呢钻洒。

但那恐怕只是我們的美好幻想——更大的可能性奋姿,是我們這個(gè)物種早就滅絕了。

面對(duì)新的問題素标,請(qǐng)你再度拿出“第一性原理”的思考方式称诗。

注意我們的問題已經(jīng)從“如何應(yīng)對(duì)報(bào)錯(cuò)信息”,轉(zhuǎn)換到了“如何正確安裝 pdftotext ”軟件包头遭。

但是如果你在 Windows 平臺(tái)寓免,似乎這個(gè)軟件包跟你緣分不是很密切。

怎么辦计维?

我們?cè)偎伎家徊酵嘞悖娴谋仨氁惭b pdftotext 這款軟件包嗎?

這樣一問鲫惶,答案呼之欲出:不一定膀谑住!

許多功能剑按,都有不同的軟件包可以做到疾就。

之前的教程里,你已經(jīng)看到了許多的例子艺蝴。

例如繪圖猬腰,你既可以用 matplotlib ,也可以用 plotnine 猜敢;

中文分詞姑荷,你既可以用 boson NLP,也可以用結(jié)巴分詞缩擂;

深度學(xué)習(xí)鼠冕,你既可以用 tflearn ,也可以用 Keras胯盯,還可以用 TuriCreate懈费。

思考一下,使用 pdftotext 這個(gè)軟件包博脑,用來做什么憎乙?

對(duì)票罐,是用來把 pdf 文件,變成文本泞边。

有了文本该押,喂給 wordcloud 工具,它就能做成詞云阵谚。

我們需要的蚕礼,根本就不是正確安裝 pdftotext ,而是找到一個(gè)工具梢什,把 pdf 給我們轉(zhuǎn)換成為文本奠蹬。

好了,“把 pdf 轉(zhuǎn)換成為文本”讓你想到了什么绳矩?

這里是它的 github 頁面罩润。

image

下拉頁面,可以看到專門有一個(gè)部分翼馆,給你介紹如何使用 pdfminer.six 命令行完成文本提取功能割以。

image

好了,我們的猜想被證實(shí)了应媚。它完全可用严沥。

另外請(qǐng)注意, pdfminer.six 的安裝說明里中姜,根本就沒有提到操作系統(tǒng)依賴消玄。

image

這就意味著,不管你用的是 Windows丢胚、Linux翩瓜,還是 macOS ,都可以在不必安裝依賴軟件的情況下携龟,直接用 pip 工具安裝 pdfminer.six 兔跌。

步驟

下面我們來看看,如何用下面的簡單步驟峡蟋,實(shí)現(xiàn)我們的目的——直接用命令行而非編程方式坟桅,從 pdf 文件,分析并繪制詞云蕊蝗。

先確保你的系統(tǒng)里面 python 3 已經(jīng)安裝仅乓。如需全新安裝,請(qǐng)參考這個(gè)視頻教程蓬戚。

然后夸楣,用 pip 命令安裝 wordcloud 軟件包:

pip install wordcloud

</pre>

注意如果你在安裝過程中遇到問題,請(qǐng)參考我的另一份視頻教程。

之后裕偿,執(zhí)行下述語句洞慎,安裝 pdfminer.six 。

pip install pdfminer.six

</pre>

你可以自己新建一個(gè)測(cè)試目錄嘿棘,拷貝進(jìn)入一個(gè) pdf 文件。

或者旭绒,你也可以直接下載這個(gè)壓縮文件鸟妙,解壓后有一個(gè)現(xiàn)成的 pdf 文件。后文還有對(duì)應(yīng)生成詞云結(jié)果挥吵,供你測(cè)試和對(duì)比重父。

我們打開這個(gè)樣例 pdf 文件(名稱為 test.pdf ),看看內(nèi)容:

image

沒毛病忽匈,對(duì)吧房午?

文章來自網(wǎng)絡(luò),如有侵權(quán)聯(lián)系小編丹允!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末郭厌,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子雕蔽,更是在濱河造成了極大的恐慌折柠,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件批狐,死亡現(xiàn)場(chǎng)離奇詭異扇售,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)嚣艇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門承冰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人食零,你說我怎么就攤上這事困乒。” “怎么了慌洪?”我有些...
    開封第一講書人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵顶燕,是天一觀的道長。 經(jīng)常有香客問我冈爹,道長涌攻,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任频伤,我火速辦了婚禮恳谎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己因痛,他們只是感情好婚苹,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鸵膏,像睡著了一般膊升。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上谭企,一...
    開封第一講書人閱讀 51,573評(píng)論 1 305
  • 那天廓译,我揣著相機(jī)與錄音,去河邊找鬼债查。 笑死非区,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的盹廷。 我是一名探鬼主播征绸,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼俄占!你這毒婦竟也來了管怠?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤颠放,失蹤者是張志新(化名)和其女友劉穎排惨,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體碰凶,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡暮芭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了欲低。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辕宏。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖砾莱,靈堂內(nèi)的尸體忽然破棺而出瑞筐,到底是詐尸還是另有隱情,我是刑警寧澤腊瑟,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布聚假,位于F島的核電站,受9級(jí)特大地震影響闰非,放射性物質(zhì)發(fā)生泄漏膘格。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一财松、第九天 我趴在偏房一處隱蔽的房頂上張望瘪贱。 院中可真熱鬧纱控,春花似錦、人聲如沸菜秦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽球昨。三九已至尔店,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間褪尝,已是汗流浹背闹获。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留河哑,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓龟虎,卻偏偏與公主長得像璃谨,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鲤妥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 本文通過一個(gè)命令行轉(zhuǎn)換 pdf 為詞云的例子,給你講講 Python 軟件包安裝遇挫折時(shí)贡耽,怎么處理才更高效衷模? 遭遇...
    王樹義閱讀 3,391評(píng)論 3 11
  • 一、Python簡介和環(huán)境搭建以及pip的安裝 4課時(shí)實(shí)驗(yàn)課主要內(nèi)容 【Python簡介】: Python 是一個(gè)...
    _小老虎_閱讀 5,746評(píng)論 0 10
  • 常用庫: fuzzywuzzy,字符串模糊匹配蒲赂。 esmre,正則表達(dá)式的加速器阱冶。 Chardet字符編碼探測(cè)器,...
    AlastairYuan閱讀 2,288評(píng)論 0 43
  • 文/沐菁兒 目錄:賭來的愛情 上一章賭來的愛情(3) 洛羽一晚上都沒有睡好滥嘴,做了一夜的夢(mèng)木蹬,一會(huì)是從前跟韓陽在一起時(shí)...
    韓安北閱讀 551評(píng)論 3 6
  • 原創(chuàng)不易,盜版必究若皱!作者镊叁,卜兒十二。 [天蝎座 歸零者第二艦隊(duì) ZCD 4137] “最高指揮官走触!”017...
    卜兒十二閱讀 2,439評(píng)論 22 70