首先說一下這篇文章不是NumPy的教程扛门,而是對(duì)學(xué)習(xí)的記錄熬荆,旨在在以后需要用的時(shí)候能夠知道What is NumPy担平。鎮(zhèn)上官方NumPy參考手冊(cè)李剖,這才是系統(tǒng)學(xué)習(xí)NumPy的真正去處芒率。
約定:
import numpy as np
簡(jiǎn)介:
NumPy(Numerical Python)是高性能科學(xué)計(jì)算和數(shù)據(jù)分析的基礎(chǔ)包囤耳。NumPy的主要對(duì)象是同構(gòu)數(shù)據(jù)多維容器(homogeneous multidimensional array)——ndarray篙顺,也就是說每一個(gè)ndarray都是一個(gè)相同類型元素組成的表格(二維)。在NumPy中維度(dimensions)叫做軸(axes)充择,軸的個(gè)數(shù)叫做秩(rank)德玫。軸這個(gè)概念必須牢記,否則放棄吧椎麦。首先軸是從0開始計(jì)的宰僧,0代表最高維,次高維是1观挎,以此類推琴儿。
還有兩個(gè)概念需要認(rèn)識(shí):
- 面向數(shù)組——NumPy本身并沒有提供多么高級(jí)的數(shù)據(jù)分析功能,理解NumPy數(shù)組以及面向數(shù)組的計(jì)算將有助于你更加高效地使用諸如pandas之類的工具嘁捷。
- 矢量化(vectorization)——用數(shù)組表達(dá)式代替循環(huán)的做法造成。一般來說,矢量化數(shù)組運(yùn)算要比等價(jià)的純Python方式快上一兩個(gè)數(shù)量級(jí)(甚至更多)雄嚣,尤其是各種數(shù)值計(jì)算晒屎。
ndarray屬性
- ndarray.ndim——ndarray的秩喘蟆。
- ndarray.shape——書面意思ndarray的形狀。官方解釋是各維度的大小所組成的tuple元組鼓鲁。
- ndarray.size——數(shù)組元素的總個(gè)數(shù)蕴轨,等于shape屬性中元組元素的乘積。
- ndarray.dtype——是一個(gè)特殊的對(duì)象骇吭,它含有ndarray將一塊內(nèi)存解釋為特定數(shù)據(jù)類型所需的信息橙弱。ndarray內(nèi)部由一個(gè)指向數(shù)組的指針,一個(gè)數(shù)據(jù)類型燥狰,一個(gè)表示形狀的元組和一個(gè)跨度元組(跨越某一維度所需字節(jié)數(shù))膘螟。由于NumPy關(guān)注的是數(shù)值計(jì)算,所以沒有特別指定碾局,dtype基本都是float64(浮點(diǎn)數(shù))荆残,果然是基本,
np.arange(10)
產(chǎn)生的數(shù)組類型是int32净当,嗯内斯,推斷的還算合理吧。 - ndarray.itemsize——書面意思項(xiàng)大小像啼,就是數(shù)組中每一個(gè)元素所占字節(jié)大小俘闯。
- ndarray.data——官方說不需要使用,so 沒細(xì)研究忽冻。
創(chuàng)建ndarray
函數(shù) | 說明 |
---|---|
np.array(data,dtype=None, order=None) | 將數(shù)據(jù)data(列表真朗、元組、數(shù)組或其他序列類型)轉(zhuǎn)換為ndarray僧诚。要么推斷出dtype遮婶,要么顯示指定dtype。默認(rèn)直接復(fù)制數(shù)據(jù)湖笨。order默認(rèn)是A(可能是C可能是F還可能是其它) |
np.asarray(data, dtype=None, order=None) | 將輸入數(shù)據(jù)轉(zhuǎn)換為ndarray旗扑,data同上還可以是ndarray,如果是ndarray就不進(jìn)行復(fù)制慈省。dtype同上臀防,order是重塑中行優(yōu)先C還是列優(yōu)先F,默認(rèn)C語言風(fēng)格边败。 |
np.arange(10,30,5,dtype=None) | 開始袱衷,結(jié)束,步長(zhǎng)和內(nèi)置的range相同 |
np.ones( (2,3,4), dtype=None) 笑窜、np.ones_like(a) | 根據(jù)指定的形狀和dtype創(chuàng)建一個(gè)全1的數(shù)組致燥。ones_like以另一個(gè)數(shù)組為參數(shù),創(chuàng)建形狀和dtype相同的全1數(shù)組怖侦。 |
np.zeros() 篡悟、np.zeros_like() | 全0數(shù)組谜叹,類似ones和ones_like。 |
np.empty() 搬葬、np.empty_like() | 創(chuàng)建數(shù)組荷腊,只分配內(nèi)存空間但不填充任何值,所以返回的是垃圾值急凰。類似ones和ones_like女仰。 |
np.eye(N, M=None, k=0, dtype=<type 'float'>) 、np.identity(n, dtype=None) | eye創(chuàng)建的是N*M的數(shù)組抡锈,默認(rèn)M=N疾忍,k取整數(shù),正數(shù)對(duì)角線向上移k床三,負(fù)數(shù)對(duì)角線向下移k一罩。identity創(chuàng)建一個(gè)N*N單位矩陣(\對(duì)角線為1,其余全0)的數(shù)組 |
操作
算術(shù)運(yùn)算
大小相等的數(shù)組之間的任何算術(shù)運(yùn)算都會(huì)將運(yùn)算應(yīng)用到元素級(jí)撇簿。
數(shù)組與標(biāo)量的算術(shù)運(yùn)算也將會(huì)將那個(gè)標(biāo)量值傳播到各個(gè)元素聂渊。
當(dāng)dtype不一致時(shí),采用上溯造型(upcasting)
邏輯運(yùn)算
<四瘫、>汉嗽、<=、>=找蜜、==饼暑、!=和&(和)、|(或)洗做、-(非)弓叛,這些運(yùn)算符和算術(shù)運(yùn)算符的使用一致,只不過將產(chǎn)生一個(gè)新的布爾型數(shù)組竭望。
集合運(yùn)算
NumPy提供了一些針對(duì)一維ndarray的基本集合運(yùn)算邪码。
函數(shù) | 說明 |
---|---|
np.unique(x, return_counts=False) | 計(jì)算x中的唯一元素,并返回有序數(shù)組咬清, return_counts=True時(shí)一并返回對(duì)應(yīng)元素的數(shù)量數(shù)組。 |
np.intersect1d(x,y) | (交)計(jì)算x奴潘,y中的公共元素旧烧,并返回有序數(shù)組 |
np.union1d(x,y) | (并)計(jì)算x,y的并集画髓,并返回有序數(shù)組 |
np.in1d(x,y) | (包含)得到一個(gè)表示x的元素是否包含于y的布爾型數(shù)組 |
np.setdiff1d(x,y) | (差)集合的差掘剪,即元素在x中且不在y中 |
np.setxor1d(x,y) | (異或)集合的對(duì)稱差,即存在于一個(gè)數(shù)組中但不同時(shí)存在于兩個(gè)數(shù)組中的元素奈虾。 |
索引
索引這一節(jié)一句半句說不清夺谁,另起一篇來寫廉赔。
形狀操縱
reshape(x,y,...)返回修改的新數(shù)組,resize((x,y,...))返回修改后的自身匾鸥。
轉(zhuǎn)置:
轉(zhuǎn)置(transpose)是重塑的一種特殊形式它返回的是源數(shù)據(jù)的視圖蜡塌。數(shù)組不僅有transpose方法,還有一個(gè)特殊的T屬性勿负。簡(jiǎn)單的轉(zhuǎn)置可以使用.T
馏艾,他其實(shí)就是進(jìn)行軸對(duì)換而已。ndarray還有一個(gè)swapaxes方法奴愉,他需要接受一對(duì)軸編號(hào)eg:swapaxes(0,1)琅摩。對(duì)于高維數(shù)組transpose需要一個(gè)軸編號(hào)組成的元組才能對(duì)這些軸進(jìn)行轉(zhuǎn)置。
這里對(duì)transpose解釋一下
In [4]: arr = np.arange(16).reshape((2,2,4))
In [5]: arr
Out[5]:
array([[[ 0, 1, 2, 3],
[ 4, 5, 6, 7]],
[[ 8, 9, 10, 11],
[12, 13, 14, 15]]])
In [6]: arr.transpose((1,0,2))
Out[6]:
array([[[ 0, 1, 2, 3],
[ 8, 9, 10, 11]],
[[ 4, 5, 6, 7],
[12, 13, 14, 15]]])
簡(jiǎn)而言之就是將原來的0锭硼,1房资,2軸變成現(xiàn)在的1,0檀头,2志膀,轉(zhuǎn)換后的0軸是原來的1軸,轉(zhuǎn)換后的1軸是原來的0軸鳖擒,2軸未變溉浙。
換種解釋:比如說8元素的索引是[1,0,0],0蒋荚,1軸變換后是[0,1,0]戳稽。
組合不同的數(shù)組(堆stack):
hstack
, vstack
, column_stack
, concatenate
, c_
, r_
其他
用于數(shù)組的文件輸入輸出
NumPy能夠讀寫磁盤上的文本數(shù)據(jù)或二進(jìn)制數(shù)據(jù)。
np.save和np.load是讀寫磁盤數(shù)組數(shù)據(jù)的兩個(gè)主要函數(shù)期升。默認(rèn)情況下惊奇,數(shù)據(jù)是以未壓縮的原始二進(jìn)制格式保存在擴(kuò)展名為.npy的文件中的。如果文件路徑末尾沒有擴(kuò)展名.npy播赁,則該擴(kuò)展名會(huì)被自動(dòng)加上颂郎。通過np.savez可以將多個(gè)數(shù)組保存到一個(gè)壓縮文件中,將數(shù)組以關(guān)鍵字參數(shù)的形式傳入即可np.savez('array_archive.npz',a=arr1, b=arr2)
容为,加載.npz文件時(shí)乓序,你會(huì)得到一個(gè)類似字典的對(duì)象,該對(duì)象會(huì)對(duì)各個(gè)數(shù)組進(jìn)行延遲加載坎背。
NumPy提供了從文件中加載文本的函數(shù)np.loadtxt()替劈,還有更為專門化的np.genfromtxt()將數(shù)據(jù)加載到普通的NumPy數(shù)組中,只不過他面向的是結(jié)構(gòu)化數(shù)組和缺失數(shù)據(jù)處理得滤。這些函數(shù)都許多選項(xiàng)可供使用:指定各種分隔符陨献、針對(duì)特定列的轉(zhuǎn)換器函數(shù)、需要跳過的行數(shù)等懂更。完整版的np.loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0)
眨业,注解默認(rèn)‘#’急膀,分隔符默認(rèn)whitespace空白,converters = dict{columu : function}龄捡。np.savetxt()執(zhí)行的是相反的操作卓嫂。
復(fù)制和視圖
簡(jiǎn)單的賦值不拷貝數(shù)組對(duì)象或者他們的數(shù)據(jù);視圖就是同一數(shù)據(jù)的引用墅茉,改視圖命黔,就是改數(shù)據(jù);切片返回的是視圖就斤。顯示復(fù)制用copy()函數(shù)悍募。其實(shí)考慮一下NumPy工具出現(xiàn)的目的也能明白,能夠高效洋机、快速處理大量數(shù)據(jù)坠宴,老是復(fù)制多費(fèi)勁,還占內(nèi)存绷旗。
如有理解不正確之處或者解釋不通的地方喜鼓,歡迎指正,共同進(jìn)步衔肢,有時(shí)候個(gè)人的理解并不能解釋忽略的庄岖、更高層面情況。