前言
當(dāng)大家談到數(shù)據(jù)分析時(shí)蛋哭,提及最多的語(yǔ)言就是Python和SQL易猫。Python之所以適合數(shù)據(jù)分析,是因?yàn)樗泻芏嗟谌綇?qiáng)大的庫(kù)來協(xié)助具壮,pandas就是其中之一准颓。pandas的文檔中是這樣描述的:
“快速,靈活棺妓,富有表現(xiàn)力的數(shù)據(jù)結(jié)構(gòu)攘已,旨在使”關(guān)系“或”標(biāo)記“數(shù)據(jù)的使用既簡(jiǎn)單又直觀×埽”
我們知道pandas的兩個(gè)主要數(shù)據(jù)結(jié)構(gòu):dataframe和series样勃,我們對(duì)數(shù)據(jù)的一些操作都是基于這兩個(gè)數(shù)據(jù)結(jié)構(gòu)的。但在實(shí)際的使用中性芬,我們可能很多時(shí)候會(huì)感覺運(yùn)行一些數(shù)據(jù)結(jié)構(gòu)的操作會(huì)異常的慢峡眶。一個(gè)操作慢幾秒可能看不出來什么,但是一整個(gè)項(xiàng)目中很多個(gè)操作加起來會(huì)讓整個(gè)開發(fā)工作效率變得很低植锉。有的朋友抱怨pandas簡(jiǎn)直太慢了辫樱,其實(shí)對(duì)于pandas的一些操作也是有一定技巧的。
pandas是基于numpy庫(kù)的數(shù)組結(jié)構(gòu)上構(gòu)建的俊庇,并且它的很多操作都是(通過numpy或者pandas自身由Cpython實(shí)現(xiàn)并編譯成C的擴(kuò)展模塊)在C語(yǔ)言中實(shí)現(xiàn)的狮暑。因此,如果正確使用pandas的話辉饱,它的運(yùn)行速度應(yīng)該是非嘲崮校快的。
本篇將要介紹幾種pandas中常用到的方法彭沼,對(duì)于這些方法使用存在哪些需要注意的問題缔逛,以及如何對(duì)它們進(jìn)行速度提升。
- 將datetime數(shù)據(jù)與時(shí)間序列一起使用的優(yōu)點(diǎn)
- 進(jìn)行批量計(jì)算的最有效途徑
- 通過HDFStore存儲(chǔ)數(shù)據(jù)節(jié)省時(shí)間
使用Datetime數(shù)據(jù)節(jié)省時(shí)間
我們來看一個(gè)例子。
從運(yùn)行上面代碼得到的結(jié)果來看按脚,好像沒有什么問題。但實(shí)際上pandas和numpy都有一個(gè)dtypes 的概念歉糜。如果沒有特殊聲明,那么date_time將會(huì)使用一個(gè) object 的dtype類型望众,如下面代碼所示:
object 類型像一個(gè)大的容器,不僅僅可以承載 str烂翰,也可以包含那些不能很好地融進(jìn)一個(gè)數(shù)據(jù)類型的任何特征列夯缺。而如果我們將日期作為 str 類型就會(huì)極大的影響效率。
因此甘耿,對(duì)于時(shí)間序列的數(shù)據(jù)而言踊兜,我們需要讓上面的date_time列格式化為datetime對(duì)象數(shù)組(pandas稱之為時(shí)間戳)。pandas在這里操作非常簡(jiǎn)單佳恬,操作如下:
我們來運(yùn)行一下這個(gè)df看看轉(zhuǎn)化后的效果是什么樣的。
date_time的格式已經(jīng)自動(dòng)轉(zhuǎn)化了垫言,但這還沒完,在這個(gè)基礎(chǔ)上倾剿,我們還是可以繼續(xù)提高運(yùn)行速度的筷频。如何提速呢?為了更好的對(duì)比前痘,我們首先通過** timeit** 裝飾器來測(cè)試一下上面代碼的轉(zhuǎn)化時(shí)間凛捏。
1.61s芹缔,看上去挺快坯癣,但其實(shí)可以更快,我們來看一下下面的方法最欠。
結(jié)果只有0.032s,快了將近50倍窒所。原因是:我們設(shè)置了轉(zhuǎn)化的格式format鹉勒。由于在CSV中的datetimes并不是 ISO 8601 格式的,如果不進(jìn)行設(shè)置的話吵取,那么pandas將使用 dateutil 包把每個(gè)字符串str轉(zhuǎn)化成date日期禽额。
相反,如果原始數(shù)據(jù)datetime已經(jīng)是 ISO 8601 格式了,那么pandas就可以立即使用最快速的方法來解析日期脯倒。這也就是為什么提前設(shè)置好格式format可以提升這么多实辑。
pandas數(shù)據(jù)的循環(huán)操作
仍然基于上面的數(shù)據(jù),我們想添加一個(gè)新的特征藻丢,但這個(gè)新的特征是基于一些時(shí)間條件的剪撬,根據(jù)時(shí)長(zhǎng)(小時(shí))而變化,如下:
因此残黑,按照我們正常的做法就是使用apply方法寫一個(gè)函數(shù),函數(shù)里面寫好時(shí)間條件的邏輯代碼斋否。
然后使用for循環(huán)來遍歷df,根據(jù)apply函數(shù)邏輯添加新的特征茵臭,如下:
對(duì)于那些寫Pythonic風(fēng)格的人來說,這個(gè)設(shè)計(jì)看起來很自然旦委。然而奇徒,這個(gè)循環(huán)將會(huì)嚴(yán)重影響效率,也是不贊同這么做缨硝。原因有幾個(gè):
- 首先逼龟,它需要初始化一個(gè)將記錄輸出的列表。
- 其次追葡,它使用不透明對(duì)象范圍(0腺律,len(df))循環(huán),然后在應(yīng)用apply_tariff()之后宜肉,它必須將結(jié)果附加到用于創(chuàng)建新DataFrame列的列表中匀钧。它還使用df.iloc [i] ['date_time']執(zhí)行所謂的鏈?zhǔn)剿饕@通常會(huì)導(dǎo)致意外的結(jié)果谬返。
- 但這種方法的最大問題是計(jì)算的時(shí)間成本之斯。對(duì)于8760行數(shù)據(jù),此循環(huán)花費(fèi)了3秒鐘遣铝。接下來佑刷,你將看到一些改進(jìn)的Pandas結(jié)構(gòu)迭代解決方案。
使用itertuples() 和iterrows() 循環(huán)
那么推薦做法是什么樣的呢酿炸?
實(shí)際上可以通過pandas引入itertuples和iterrows方法可以使效率更快瘫絮。這些都是一次產(chǎn)生一行的生成器方法,類似scrapy中使用的yield用法填硕。
.itertuples為每一行產(chǎn)生一個(gè)namedtuple麦萤,并且行的索引值作為元組的第一個(gè)元素鹿鳖。nametuple是Python的collections模塊中的一種數(shù)據(jù)結(jié)構(gòu),其行為類似于Python元組壮莹,但具有可通過屬性查找訪問的字段翅帜。
.iterrows為DataFrame中的每一行產(chǎn)生(index,series)這樣的元組命满。
雖然.itertuples往往會(huì)更快一些涝滴,但是在這個(gè)例子中使用.iterrows,我們看看這使用iterrows后效果如何胶台。
語(yǔ)法方面:這樣的語(yǔ)法更明確,并且行值引用中的混亂更少概作,因此它更具可讀性腋妙。
在時(shí)間收益方面:快了近5倍默怨! 但是讯榕,還有更多的改進(jìn)空間。我們?nèi)匀辉谑褂媚撤N形式的Python for循環(huán)匙睹,這意味著每個(gè)函數(shù)調(diào)用都是在Python中完成的愚屁,理想情況是它可以用Pandas內(nèi)部架構(gòu)中內(nèi)置的更快的語(yǔ)言完成。
Pandas的 .apply()方法
我們可以使用.apply方法而不是.iterrows進(jìn)一步改進(jìn)此操作痕檬。Pandas的.apply方法接受函數(shù)(callables)并沿DataFrame的軸(所有行或所有列)應(yīng)用它們霎槐。在此示例中,lambda函數(shù)將幫助你將兩列數(shù)據(jù)傳遞給apply_tariff():
.apply的語(yǔ)法優(yōu)點(diǎn)很明顯丘跌,行數(shù)少,代碼可讀性高唁桩。在這種情況下闭树,所花費(fèi)的時(shí)間大約是.iterrows方法的一半。
但是荒澡,這還不是“非潮ㄈ瑁快”。一個(gè)原因是.apply()將在內(nèi)部嘗試循環(huán)遍歷Cython迭代器单山。但是在這種情況下碍现,傳遞的lambda不是可以在Cython中處理的東西,因此它在Python中調(diào)用米奸,因此并不是那么快昼接。
如果你使用.apply()獲取10年的小時(shí)數(shù)據(jù),那么你將需要大約15分鐘的處理時(shí)間悴晰。如果這個(gè)計(jì)算只是大型模型的一小部分辩棒,那么你真的應(yīng)該加快速度。這也就是矢量化操作派上用場(chǎng)的地方。
矢量化操作:使用.isin()選擇數(shù)據(jù)
什么是矢量化操作一睁?如果你不基于一些條件钻弄,而是可以在一行代碼中將所有電力消耗數(shù)據(jù)應(yīng)用于該價(jià)格(df ['energy_kwh'] * 28),類似這種者吁。這個(gè)特定的操作就是矢量化操作的一個(gè)例子窘俺,它是在Pandas中執(zhí)行的最快方法。
但是如何將條件計(jì)算應(yīng)用為Pandas中的矢量化運(yùn)算复凳?一個(gè)技巧是根據(jù)你的條件選擇和分組DataFrame瘤泪,然后對(duì)每個(gè)選定的組應(yīng)用矢量化操作。 在下一個(gè)示例中育八,你將看到如何使用Pandas的.isin()方法選擇行对途,然后在向量化操作中實(shí)現(xiàn)上面新特征的添加。在執(zhí)行此操作之前髓棋,如果將date_time列設(shè)置為DataFrame的索引实檀,則會(huì)使事情更方便:
我們來看一下結(jié)果如何按声。
為了了解剛才代碼中發(fā)生的情況,我們需要知道.isin()方法返回的是一個(gè)布爾值數(shù)組签则,如下所示:
[False, False, False, ..., True, True, True]
這些值標(biāo)識(shí)哪些DataFrame索引(datetimes)落在指定的小時(shí)范圍內(nèi)须床。然后,當(dāng)你將這些布爾數(shù)組傳遞給DataFrame的.loc索引器時(shí)渐裂,你將獲得一個(gè)僅包含與這些小時(shí)匹配的行的DataFrame切片豺旬。在那之后,僅僅是將切片乘以適當(dāng)?shù)馁M(fèi)率柒凉,這是一種快速的矢量化操作族阅。
這與我們上面的循環(huán)操作相比如何?首先扛拨,你可能會(huì)注意到不再需要apply_tariff()耘分,因?yàn)樗袟l件邏輯都應(yīng)用于行的選擇。因此绑警,你必須編寫的代碼行和調(diào)用的Python代碼會(huì)大大減少求泰。
處理時(shí)間怎么樣?比不是Pythonic的循環(huán)快315倍计盒,比.iterrows快71倍渴频,比.apply快27倍。
還可以做的更好嗎北启?
在apply_tariff_isin中卜朗,我們?nèi)匀豢梢酝ㄟ^調(diào)用df.loc和df.index.hour.isin三次來進(jìn)行一些“手動(dòng)工作”拔第。如果我們有更精細(xì)的時(shí)隙范圍,你可能會(huì)爭(zhēng)辯說這個(gè)解決方案是不可擴(kuò)展的场钉。幸運(yùn)的是蚊俺,在這種情況下,你可以使用Pandas的pd.cut() 函數(shù)以編程方式執(zhí)行更多操作:
讓我們看看這里發(fā)生了什么泳猬。pd.cut() 根據(jù)每小時(shí)所屬的bin應(yīng)用一組標(biāo)簽(costs)。
注意include_lowest參數(shù)表示第一個(gè)間隔是否應(yīng)該是包含左邊的(您希望在組中包含時(shí)間= 0)宇植。
這是一種完全矢量化的方式來獲得我們的預(yù)期結(jié)果得封,它在時(shí)間方面是最快的:
到目前為止指郁,時(shí)間上基本快達(dá)到極限了忙上,只需要花費(fèi)不到一秒的時(shí)間來處理完整的10年的小時(shí)數(shù)據(jù)集。但是疫粥,最后一個(gè)選項(xiàng)是使用 NumPy 函數(shù)來操作每個(gè)DataFrame的底層NumPy數(shù)組,然后將結(jié)果集成回Pandas數(shù)據(jù)結(jié)構(gòu)中手形。
使用Numpy繼續(xù)加速
使用Pandas時(shí)不應(yīng)忘記的一點(diǎn)是Pandas Series和DataFrames是在NumPy庫(kù)之上設(shè)計(jì)的悯恍。這為你提供了更多的計(jì)算靈活性,因?yàn)镻andas可以與NumPy陣列和操作無縫銜接涮毫。
下面,我們將使用NumPy的 digitize() 函數(shù)罢防。它類似于Pandas的cut()唉侄,因?yàn)閿?shù)據(jù)將被分箱咒吐,但這次它將由一個(gè)索引數(shù)組表示,這些索引表示每小時(shí)所屬的bin属划。然后將這些索引應(yīng)用于價(jià)格數(shù)組:
與cut函數(shù)一樣,這種語(yǔ)法非常簡(jiǎn)潔易讀同眯。但它在速度方面有何比較绽昼?讓我們來看看:
在這一點(diǎn)上须蜗,仍然有性能提升硅确,但它本質(zhì)上變得更加邊緣化目溉。使用Pandas,它可以幫助維持“層次結(jié)構(gòu)”菱农,如果你愿意缭付,可以像在此處一樣進(jìn)行批量計(jì)算,這些通常排名從最快到最慢(最靈活到最不靈活):
1. 使用向量化操作:沒有for循環(huán)的Pandas方法和函數(shù)循未。
2. 將.apply方法:與可調(diào)用方法一起使用蛉腌。
3. 使用.itertuples:從Python的集合模塊迭代DataFrame行作為namedTuples。
4. 使用.iterrows:迭代DataFrame行作為(index只厘,Series)對(duì)烙丛。雖然Pandas系列是一種靈活的數(shù)據(jù)結(jié)構(gòu),但將每一行構(gòu)建到一個(gè)系列中然后訪問它可能會(huì)很昂貴羔味。
5. 使用“element-by-element”循環(huán):使用df.loc或df.iloc一次更新一個(gè)單元格或行河咽。
使用HDFStore防止重新處理
現(xiàn)在你已經(jīng)了解了Pandas中的加速數(shù)據(jù)流程赋元,接著讓我們探討如何避免與最近集成到Pandas中的HDFStore一起重新處理時(shí)間忘蟹。
通常,在構(gòu)建復(fù)雜數(shù)據(jù)模型時(shí)搁凸,可以方便地對(duì)數(shù)據(jù)進(jìn)行一些預(yù)處理媚值。例如,如果您有10年的分鐘頻率耗電量數(shù)據(jù)护糖,即使你指定格式參數(shù)褥芒,只需將日期和時(shí)間轉(zhuǎn)換為日期時(shí)間可能需要20分鐘嫡良。你真的只想做一次,而不是每次運(yùn)行你的模型坷牛,進(jìn)行測(cè)試或分析京闰。
你可以在此處執(zhí)行的一項(xiàng)非常有用的操作是預(yù)處理蹂楣,然后將數(shù)據(jù)存儲(chǔ)在已處理的表單中捐迫,以便在需要時(shí)使用施戴。但是,如何以正確的格式存儲(chǔ)數(shù)據(jù)而無需再次重新處理雷则?如果你要另存為CSV月劈,則只會(huì)丟失datetimes對(duì)象猜揪,并且在再次訪問時(shí)必須重新處理它坛梁。
Pandas有一個(gè)內(nèi)置的解決方案划咐,它使用 HDF5褐缠,這是一種專門用于存儲(chǔ)表格數(shù)據(jù)陣列的高性能存儲(chǔ)格式队魏。 Pandas的 HDFStore 類允許你將DataFrame存儲(chǔ)在HDF5文件中器躏,以便可以有效地訪問它蟹略,同時(shí)仍保留列類型和其他元數(shù)據(jù)挖炬。它是一個(gè)類似字典的類意敛,因此您可以像讀取Python dict對(duì)象一樣進(jìn)行讀寫草姻。
以下是將預(yù)處理電力消耗DataFrame df存儲(chǔ)在HDF5文件中的方法:
現(xiàn)在,你可以關(guān)閉計(jì)算機(jī)并休息一下局齿。等你回來的時(shí)候抓歼,你處理的數(shù)據(jù)將在你需要時(shí)為你所用拢锹,而無需再次加工卒稳。以下是如何從HDF5文件訪問數(shù)據(jù)展哭,并保留數(shù)據(jù)類型:
數(shù)據(jù)存儲(chǔ)可以容納多個(gè)表役衡,每個(gè)表的名稱作為鍵手蝎。
關(guān)于在Pandas中使用HDFStore的注意事項(xiàng):您需要安裝PyTables> = 3.0.0棵介,因此在安裝Pandas之后,請(qǐng)確保更新PyTables唠雕,如下所示:
pip install --upgrade tables
結(jié)論
如果你覺得你的Pandas項(xiàng)目不夠快速岩睁,靈活捕儒,簡(jiǎn)單和直觀刘莹,請(qǐng)考慮重新考慮你使用該庫(kù)的方式。
這里探討的示例相當(dāng)簡(jiǎn)單净薛,但說明了Pandas功能的正確應(yīng)用如何能夠大大改進(jìn)運(yùn)行時(shí)和速度的代碼可讀性肃拜。以下是一些經(jīng)驗(yàn)燃领,可以在下次使用Pandas中的大型數(shù)據(jù)集時(shí)應(yīng)用這些經(jīng)驗(yàn)法則:
- 嘗試盡可能使用矢量化操作寿弱,而不是在df 中解決for x的問題捎谨。如果你的代碼是許多for循環(huán)略板,那么它可能更適合使用本機(jī)Python數(shù)據(jù)結(jié)構(gòu)叮称,因?yàn)镻andas會(huì)帶來很多開銷。
- 如果你有更復(fù)雜的操作赂韵,其中矢量化根本不可能或太難以有效地解決祭示,請(qǐng)使用.apply方法绍移。
- 如果必須循環(huán)遍歷數(shù)組(確實(shí)發(fā)生了這種情況),請(qǐng)使用.iterrows()或.itertuples()來提高速度和語(yǔ)法恩敌。
- Pandas有很多可選性纠炮,幾乎總有幾種方法可以從A到B。請(qǐng)注意這一點(diǎn)孝宗,比較不同方法的執(zhí)行方式因妇,并選擇在項(xiàng)目環(huán)境中效果最佳的路線猿诸。
- 一旦建立了數(shù)據(jù)清理腳本梳虽,就可以通過使用HDFStore存儲(chǔ)中間結(jié)果來避免重新處理窜觉。
- 將NumPy集成到Pandas操作中通迟鞔欤可以提高速度并簡(jiǎn)化語(yǔ)法特咆。