非常實(shí)用的 Python 庫(kù),推一次火一次涣脚!

推薦:Python全棧教程粹排!花了29980買的從入門到精通課程,分享給大家

Python 是一個(gè)很棒的語(yǔ)言涩澡。它是世界上發(fā)展最快的編程語(yǔ)言之一顽耳。它一次又一次地證明了在開(kāi)發(fā)人員職位中和跨行業(yè)的數(shù)據(jù)科學(xué)職位中的實(shí)用性。整個(gè) Python 及其庫(kù)的生態(tài)系統(tǒng)使它成為全世界用戶(初學(xué)者和高級(jí)用戶)的合適選擇妙同。它的成功和流行的原因之一是它強(qiáng)大的第三方庫(kù)的集合射富,這些庫(kù)使它可以保持活力和高效。

在本文中粥帚,我們會(huì)研究一些用于數(shù)據(jù)科學(xué)任務(wù)的 Python 庫(kù)胰耗,而不是常見(jiàn)的比如 panda、scikit-learn 和 matplotlib 等的庫(kù)芒涡。盡管像 panda 和 scikit-learn 這樣的庫(kù)柴灯,是在機(jī)器學(xué)習(xí)任務(wù)中經(jīng)常出現(xiàn)的卖漫,但是了解這個(gè)領(lǐng)域中的其它 Python 產(chǎn)品總是很有好處的。

一赠群、Wget

從網(wǎng)絡(luò)上提取數(shù)據(jù)是數(shù)據(jù)科學(xué)家的重要任務(wù)之一羊始。Wget 是一個(gè)免費(fèi)的實(shí)用程序,可以用于從網(wǎng)絡(luò)上下載非交互式的文件查描。它支持 HTTP突委、HTTPS 和 FTP 協(xié)議,以及通過(guò) HTTP 的代理進(jìn)行文件檢索冬三。由于它是非交互式的匀油,即使用戶沒(méi)有登錄,它也可以在后臺(tái)工作勾笆。所以下次當(dāng)你想要下載一個(gè)網(wǎng)站或者一個(gè)頁(yè)面上的所有圖片時(shí)敌蚜,wget 可以幫助你。

安裝:

$ pip install wget

例子:

import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)
100% [................................................] 3841532 / 3841532

filename
'razorback.mp3'

### Pendulum

二窝爪、Pendulum

對(duì)于那些在 python 中處理日期時(shí)間時(shí)會(huì)感到沮喪的人來(lái)說(shuō)弛车,Pendulum 很適合你。它是一個(gè)簡(jiǎn)化日期時(shí)間操作的 Python 包酸舍。它是 Python 原生類的簡(jiǎn)易替代帅韧。請(qǐng)參閱文檔深入學(xué)習(xí)。

安裝:

$ pip install pendulum

例子:

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3 

三啃勉、imbalanced-learn

可以看出忽舟,當(dāng)每個(gè)類的樣本數(shù)量基本相同時(shí),大多數(shù)分類算法的效果是最好的淮阐,即需要保持?jǐn)?shù)據(jù)平衡叮阅。但現(xiàn)實(shí)案例中大多是不平衡的數(shù)據(jù)集,這些數(shù)據(jù)集對(duì)機(jī)器學(xué)習(xí)算法的學(xué)習(xí)階段和后續(xù)預(yù)測(cè)都有很大影響泣特。幸運(yùn)的是浩姥,這個(gè)庫(kù)就是用來(lái)解決此問(wèn)題的。它與 scikit-learn 兼容状您,是 scikit-lear-contrib 項(xiàng)目的一部分勒叠。下次當(dāng)你遇到不平衡的數(shù)據(jù)集時(shí),請(qǐng)嘗試使用它膏孟。

安裝:

pip install -U imbalanced-learn

# 或者

conda install -c conda-forge imbalanced-learn

例子:

使用方法和例子請(qǐng)參考文檔眯分。

四、FlashText

在 NLP 任務(wù)中柒桑,清理文本數(shù)據(jù)往往需要替換句子中的關(guān)鍵字或從句子中提取關(guān)鍵字弊决。通常,這種操作可以使用正則表達(dá)式來(lái)完成魁淳,但是如果要搜索的術(shù)語(yǔ)數(shù)量達(dá)到數(shù)千個(gè)飘诗,這就會(huì)變得很麻煩与倡。Python 的 FlashText 模塊是基于 FlashText 算法為這種情況提供了一個(gè)合適的替代方案。FlashText 最棒的一點(diǎn)是昆稿,不管搜索詞的數(shù)量如何纺座,運(yùn)行時(shí)間都是相同的。你可以在這里了解更多內(nèi)容貌嫡。

安裝:

$ pip install flashtext

例子:

提取關(guān)鍵字

from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()

# keyword_processor.add_keyword(<unclean name>, <standardised name>)

keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

keywords_found
['New York', 'Bay Area']

替換關(guān)鍵字

keyword_processor.add_keyword('New Delhi', 'NCR region')

new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')

new_sentence
'I love New York and NCR region.'
Fuzzywuzzy

五比驻、fuzzywuzzy

這個(gè)庫(kù)的名字聽(tīng)起來(lái)很奇怪该溯,但是在字符串匹配方面岛抄,fuzzywuzzy 是一個(gè)非常有用的庫(kù)”奋裕可以很方便地實(shí)現(xiàn)計(jì)算字符串匹配度夫椭、令牌匹配度等操作,也可以很方便地匹配保存在不同數(shù)據(jù)庫(kù)中的記錄氯庆。

安裝:

$ pip install fuzzywuzzy

例子:

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# 簡(jiǎn)單匹配度

fuzz.ratio("this is a test", "this is a test!")
97

# 模糊匹配度
fuzz.partial_ratio("this is a test", "this is a test!")
 100

更多有趣例子可以在 GitHub 倉(cāng)庫(kù)找到蹭秋。

六、PyFlux

時(shí)間序列分析是機(jī)器學(xué)習(xí)領(lǐng)域中最常見(jiàn)的問(wèn)題之一堤撵。PyFlux 是 Python 中的一個(gè)開(kāi)源庫(kù)仁讨,它是為處理時(shí)間序列問(wèn)題而構(gòu)建的。該庫(kù)擁有一系列優(yōu)秀的現(xiàn)代時(shí)間序列模型实昨,包括但不限于 ARIMA洞豁、GARCH 和 VAR 模型。簡(jiǎn)而言之荒给,PyFlux 為時(shí)間序列建模提供了一種概率方法丈挟。值得嘗試一下。

安裝

pip install pyflux

例子

詳細(xì)用法和例子請(qǐng)參考官方文檔志电。

七曙咽、Ipyvolume

結(jié)果展示也是數(shù)據(jù)科學(xué)中的一個(gè)重要方面。能夠?qū)⒔Y(jié)果進(jìn)行可視化將具有很大優(yōu)勢(shì)挑辆。IPyvolume 是一個(gè)可以在 Jupyter notebook 中可視化三維體和圖形(例如三維散點(diǎn)圖等)的 Python 庫(kù)例朱,并且只需要少量配置。但它目前還是 1.0 之前的版本階段鱼蝉。用一個(gè)比較恰當(dāng)?shù)谋扔鱽?lái)解釋就是:IPyvolume 的 volshow 對(duì)于三維數(shù)組就像 matplotlib 的 imshow 對(duì)于二維數(shù)組一樣好用洒嗤。可以在這里獲取更多蚀乔。

使用 pip

$ pip install ipyvolume

使用 Conda/Anaconda

$ conda install -c conda-forge ipyvolume

例子

  • 動(dòng)畫
  • 體繪制

八烁竭、Dash

Dash 是一個(gè)高效的用于構(gòu)建 web 應(yīng)用程序的 Python 框架。它是在 Flask吉挣、Plotly.js 和 React.js 基礎(chǔ)上設(shè)計(jì)而成的派撕,綁定了很多比如下拉框婉弹、滑動(dòng)條和圖表的現(xiàn)代 UI 元素,你可以直接使用 Python 代碼來(lái)寫相關(guān)分析终吼,而無(wú)需再使用 javascript镀赌。Dash 非常適合構(gòu)建數(shù)據(jù)可視化應(yīng)用程序。然后际跪,這些應(yīng)用程序可以在 web 瀏覽器中呈現(xiàn)商佛。用戶指南可以在這里獲取。

安裝

pip install dash==0.29.0  # 核心 dash 后端
pip install dash-html-components==0.13.2  # HTML 組件
pip install dash-core-components==0.36.0  # 增強(qiáng)組件
pip install dash-table==3.1.3  # 交互式 DataTable 組件(最新D反颉)

例子下面的例子展示了一個(gè)具有下拉功能的高度交互式圖表良姆。當(dāng)用戶在下拉菜單中選擇一個(gè)值時(shí),應(yīng)用程序代碼將動(dòng)態(tài)地將數(shù)據(jù)從 Google Finance 導(dǎo)出到 panda DataFrame幔戏。

九玛追、Gym

OpenAI 的 Gym 是一款用于增強(qiáng)學(xué)習(xí)算法的開(kāi)發(fā)和比較工具包。它兼容任何數(shù)值計(jì)算庫(kù)闲延,如 TensorFlow 或 Theano痊剖。Gym 庫(kù)是測(cè)試問(wèn)題集合的必備工具,這個(gè)集合也稱為環(huán)境 —— 你可以用它來(lái)開(kāi)發(fā)你的強(qiáng)化學(xué)習(xí)算法垒玲。這些環(huán)境有一個(gè)共享接口陆馁,允許你進(jìn)行通用算法的編寫。

安裝

pip install gym

例子這個(gè)例子會(huì)運(yùn)行CartPole-v0環(huán)境中的一個(gè)實(shí)例合愈,它的時(shí)間步數(shù)為 1000叮贩,每一步都會(huì)渲染整個(gè)場(chǎng)景。

總結(jié)

以上這些有用的數(shù)據(jù)科學(xué) Python 庫(kù)都是我精心挑選出來(lái)的想暗,不是常見(jiàn)的如 numpy 和 pandas 等庫(kù)妇汗。如果你知道其它庫(kù),可以添加到列表中來(lái)说莫,請(qǐng)?jiān)谙旅娴脑u(píng)論中提一下杨箭。另外別忘了先嘗試運(yùn)行一下它們。

-End-

最近有一些小伙伴储狭,讓我?guī)兔φ乙恍?面試題 資料互婿,于是我翻遍了收藏的 5T 資料后,匯總整理出來(lái)辽狈,可以說(shuō)是程序員面試必備慈参!所有資料都整理到網(wǎng)盤了,歡迎下載刮萌!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末驮配,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌壮锻,老刑警劉巖琐旁,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異猜绣,居然都是意外死亡灰殴,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門掰邢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)牺陶,“玉大人,你說(shuō)我怎么就攤上這事辣之£欤” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵召烂,是天一觀的道長(zhǎng)碱工。 經(jīng)常有香客問(wèn)我娃承,道長(zhǎng)奏夫,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任历筝,我火速辦了婚禮酗昼,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘梳猪。我一直安慰自己麻削,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布春弥。 她就那樣靜靜地躺著呛哟,像睡著了一般。 火紅的嫁衣襯著肌膚如雪匿沛。 梳的紋絲不亂的頭發(fā)上扫责,一...
    開(kāi)封第一講書人閱讀 51,541評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音逃呼,去河邊找鬼鳖孤。 笑死,一個(gè)胖子當(dāng)著我的面吹牛抡笼,可吹牛的內(nèi)容都是我干的苏揣。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼推姻,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼平匈!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤增炭,失蹤者是張志新(化名)和其女友劉穎街望,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體弟跑,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡灾前,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了孟辑。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片哎甲。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖饲嗽,靈堂內(nèi)的尸體忽然破棺而出炭玫,到底是詐尸還是另有隱情,我是刑警寧澤貌虾,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布吞加,位于F島的核電站,受9級(jí)特大地震影響尽狠,放射性物質(zhì)發(fā)生泄漏衔憨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一袄膏、第九天 我趴在偏房一處隱蔽的房頂上張望践图。 院中可真熱鬧,春花似錦沉馆、人聲如沸码党。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)揖盘。三九已至,卻和暖如春锌奴,著一層夾襖步出監(jiān)牢的瞬間兽狭,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工缨叫, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留椭符,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓耻姥,卻偏偏與公主長(zhǎng)得像销钝,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子琐簇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容