介紹
NumPy是Python數(shù)值計(jì)算最重要的基礎(chǔ)包请琳,大多數(shù)提供科學(xué)計(jì)算的包都是用NumPy的數(shù)組作為構(gòu)建基礎(chǔ)梧兼。NumPy本身并沒(méi)有提供多么高級(jí)的數(shù)據(jù)分析功能邓梅,理解NumPy數(shù)組以及面向數(shù)組的計(jì)算丧蘸,將有助于你更加高效地使用諸如Pandas之類(lèi)的工具。
雖然NumPy提供了通用的數(shù)值數(shù)據(jù)處理的計(jì)算基礎(chǔ)斗搞,但大多數(shù)讀者可能還是想將Pandas作為統(tǒng)計(jì)和分析工作的基礎(chǔ),尤其是處理表格數(shù)據(jù)時(shí)慷妙。
NumPy的部分功能如下:
- ndarray僻焚,一個(gè)具有矢量算術(shù)運(yùn)算和復(fù)雜廣播能力的快速且節(jié)省空間的多維數(shù)組。
- 用于對(duì)整組數(shù)據(jù)進(jìn)行快速運(yùn)算的標(biāo)準(zhǔn)數(shù)學(xué)函數(shù)(無(wú)需編寫(xiě)循環(huán))膝擂。
- 用于讀寫(xiě)磁盤(pán)數(shù)據(jù)的工具以及用于操作內(nèi)存映射文件的工具虑啤。
- 線性代數(shù)、隨機(jī)數(shù)生成以及傅里葉變換功能架馋。
- 用于集成由C狞山、C++、Fortran等語(yǔ)言編寫(xiě)的代碼的A C API叉寂。
NumPy之于數(shù)值計(jì)算特別重要是因?yàn)樗梢愿咝幚泶髷?shù)組的數(shù)據(jù)萍启。這是因?yàn)椋?/p>
- 比起Python的內(nèi)置序列,NumPy數(shù)組使用的內(nèi)存更少屏鳍。
- NumPy可以在整個(gè)數(shù)組上執(zhí)行復(fù)雜的計(jì)算勘纯,而不需要Python的for循環(huán)。
使用下面格式約定钓瞭,引入NumPy包:
import numpy as np
NumPy的ndarray:N維數(shù)組對(duì)象
NumPy最重要的是其N(xiāo)維數(shù)組對(duì)象(即ndarray)驳遵,其中的所有元素必須是相同類(lèi)型的。該對(duì)象是一個(gè)快速而靈活的大數(shù)據(jù)集容器山涡,可以利用這種數(shù)組對(duì)整塊數(shù)據(jù)執(zhí)行數(shù)學(xué)運(yùn)算堤结,其語(yǔ)法跟標(biāo)量元素之間的運(yùn)算一樣。
創(chuàng)建ndarray
- 使用np.array(list/tuple, dtype=np.float32)函數(shù)佳鳖,產(chǎn)生一個(gè)新的含有傳入數(shù)據(jù)的ndarray對(duì)象霍殴。
第一個(gè)參數(shù)為元組、列表(相同數(shù)據(jù)類(lèi)型)系吩,第二個(gè)參數(shù)為ndarray數(shù)組中的數(shù)據(jù)類(lèi)型来庭。當(dāng)?shù)诙€(gè)參數(shù)為空時(shí),NumPy將根據(jù)數(shù)據(jù)情況指定一個(gè)類(lèi)型穿挨。
返回值為[ ]形式月弛,元素間由空格分割。
In [20]: arr1 = np.array([6, 7.5, 8, 0, 1]) #從列表創(chuàng)建
?In [21]: pring(arr1)
Out[21]: [ 6. , 7.5, 8. , 0. , 1. ] #NumPy根據(jù)數(shù)據(jù)情況科盛,指定了float類(lèi)型
?In [23]: arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8],(1.2 , 2.3)])
?In [24]: pring(arr2)
Out[24]: [[1, 2, 3, 4] [5, 6, 7, 8] (1.2 , 2.3)]
- 使用NumPy中的內(nèi)置函數(shù)
np.arange(begin,end,step,dtype=np.float32):begin為元素起始值(包含)帽衙,end為元素結(jié)束值(不包含),step為步長(zhǎng)(默認(rèn)值為1)贞绵,dtype為元素類(lèi)型厉萝。如果只有一個(gè)參數(shù)n,則為從0到n-1;如有有兩個(gè)參數(shù)n和m谴垫,則為從n到m-1章母;
np.linspace(begin,end,number):創(chuàng)建包含number個(gè)元素的數(shù)組,并在指定的開(kāi)始值(包含)和結(jié)束值(包含)之間平均間隔翩剪;
np.ones(shape):根據(jù)shape生成一個(gè)全1數(shù)組乳怎,shape是元組類(lèi)型,比如(2,3)前弯;
np.zeros(shape):根據(jù)shape生成一個(gè)全0數(shù)組蚪缀,shape是元組類(lèi)型,比如(2,3,4)恕出;
np.full(shape,val):根據(jù)shape生成一個(gè)數(shù)組询枚,每個(gè)元素值都是val;
np.eye(n):創(chuàng)建一個(gè)正方的n*n單位矩陣浙巫,對(duì)角線為1哩盲,其余為0;
np.ones_like(a): 根據(jù)數(shù)組a的形狀生成一個(gè)全1數(shù)組狈醉;
np.zeros_like(a): 根據(jù)數(shù)組a的形狀生成一個(gè)全0數(shù)組;
np.full_like(a,val): 根據(jù)數(shù)組a的形狀生成一個(gè)每個(gè)元素值都是val的數(shù)組惠险;
np.concatenate() 將兩個(gè)或多個(gè)數(shù)組合并成一個(gè)新的數(shù)組苗傅。
In [30]: arr3 = np.zeros((3, 6))
In [31]: print(arr3)
Out[30]: [[ 0., 0., 0., 0., 0., 0.] [ 0., 0., 0., 0., 0., 0.] [ 0., 0., 0., 0., 0., 0.]]
- 從磁盤(pán)讀取數(shù)據(jù)創(chuàng)建ndarray數(shù)組,將ndarray數(shù)組保存到磁盤(pán)(大部分情況會(huì)使用pandas或其它工具加載文本或表格數(shù)據(jù))
np.load(fname)
? fname : 文件名班巩,以.npy為擴(kuò)展名渣慕,壓縮擴(kuò)展名為.npz
np.save(fname, array) 或 np.savez(fname, array)
? fname : 文件名,以.npy為擴(kuò)展名抱慌,壓縮擴(kuò)展名為.npz
? array : 數(shù)組變量
ndarray數(shù)組對(duì)象的屬性
- .ndim:秩逊桦,即軸的數(shù)量或維度的數(shù)量
- .shape:ndarray對(duì)象的尺度,對(duì)于矩陣抑进,n行m列
- .size:ndarray對(duì)象元素的個(gè)數(shù)强经,相當(dāng)于.shape中n*m的值
- .dtype:ndarray對(duì)象的元素類(lèi)型
- .itemsize:ndarray對(duì)象中每個(gè)元素的大小,以字節(jié)為單位
ndarray數(shù)組對(duì)象的類(lèi)型和維度變換
- .astype(np.float64):將ndarray數(shù)組元素從一個(gè)類(lèi)型轉(zhuǎn)換成另一個(gè)類(lèi)型寺渗,返回一個(gè)新數(shù)組匿情。如果將浮點(diǎn)數(shù)轉(zhuǎn)換成整數(shù),則小數(shù)部分將會(huì)被截取刪除信殊。(類(lèi)型變換)
- .reshape(shape):不改變?cè)瓟?shù)組元素炬称,返回一個(gè)新的shape維度的數(shù)組(維度變換)
- .resize(shape):與.reshape()功能一致,但修改原數(shù)組(維度變換)
- .swapaxes(ax1,ax2) 將數(shù)組n個(gè)維度中兩個(gè)維度進(jìn)行調(diào)換(維度變換)
- .flatten():對(duì)數(shù)組進(jìn)行降維涡拘,返回折疊后的一維數(shù)組玲躯,原數(shù)組不變(維度變換)
- .tolist():將N維數(shù)組轉(zhuǎn)換成列表(維度變換)
ndarray數(shù)組的索引和切片
具體使用參考
ndarray數(shù)組的運(yùn)算
- 數(shù)組與標(biāo)量之間的運(yùn)算,都會(huì)作用于數(shù)組的每一個(gè)元素;
- 大小相同的數(shù)組之間的任何算術(shù)運(yùn)算跷车,都會(huì)將運(yùn)算應(yīng)用到元素級(jí)棘利;
- 大小相同的數(shù)組之間的比較運(yùn)算,都會(huì)將運(yùn)算應(yīng)用到元素級(jí)并生成布爾值數(shù)組姓赤;
- np.abs(arr)\np.fabs(arr):計(jì)算數(shù)組arr各元素的絕對(duì)值
- np.sqrt(arr):計(jì)算數(shù)組arr各元素的平方根
- np.square(arr):計(jì)算數(shù)組arr各元素的平方
- np.log(arr)\np.log10(arr)\np.log2(arr):計(jì)算數(shù)組arr各元素的自然對(duì)數(shù)赡译、10底對(duì)數(shù)和2底對(duì)數(shù)
- np.ceil(arr)\np.floor(arr):計(jì)算數(shù)組arr各元素的ceiling值 或 floor值
- np.rint(arr) 計(jì)算數(shù)組arr各元素的四舍五入值
- np.modf(arr) 將數(shù)組arr各元素的小數(shù)和整數(shù)部分以兩個(gè)獨(dú)立數(shù)組形式返回
- np.cos(arr)\np.cosh(arr)\np.sin(arr)\np.sinh(arr)\np.tan(arr)\np.tanh(arr)計(jì)算數(shù)組arr各元素的普通型和雙曲型三角函數(shù)
- np.exp(arr) 計(jì)算數(shù)組arr各元素的指數(shù)值
- np.sign(arr) 計(jì)算數(shù)組arr各元素的符號(hào)值,1(+), 0, ‐1(‐)
利用ndarray進(jìn)行數(shù)據(jù)處理
排序
ndarray數(shù)組通過(guò).sort()函數(shù)排序不铆,多維數(shù)組時(shí)傳入軸編號(hào)
NumPy的隨機(jī)數(shù)函數(shù)
- np.random.rand(d0,d1,..,dn):根據(jù)d0‐dn創(chuàng)建隨機(jī)數(shù)數(shù)組蝌焚,浮點(diǎn)數(shù),[0,1)誓斥,均勻分布
- np.random.randn(d0,d1,..,dn):根據(jù)d0‐dn創(chuàng)建隨機(jī)數(shù)數(shù)組只洒,標(biāo)準(zhǔn)正態(tài)分布
- np.random.randint(low[,high,shape]):根據(jù)shape創(chuàng)建隨機(jī)整數(shù)或整數(shù)數(shù)組,范圍是[low, high)
- np.random.seed(s):隨機(jī)數(shù)種子劳坑,s是給定的種
- np.random.shuffle(a):根據(jù)數(shù)組a的第1軸進(jìn)行隨排列毕谴,改變數(shù)組x
- np.random.permutation(a):根據(jù)數(shù)組a的第1軸產(chǎn)生一個(gè)新的亂序數(shù)組,不改變數(shù)組x
- np.random.choice(a[,size,replace,p]):從一維數(shù)組a中以概率p抽取元素距芬,形成size形狀新數(shù)組 replace表示是否可以重用元素涝开,默認(rèn)為False
- np.random.uniform(low,high,size):產(chǎn)生具有均勻分布的數(shù)組,low起始值,high結(jié)束值,size形狀
- np.random.normal(loc,scale,size):產(chǎn)生具有正態(tài)分布的數(shù)組,loc均值,scale標(biāo)準(zhǔn)差,size形狀
- np.random.poisson(lam,size):產(chǎn)生具有泊松分布的數(shù)組,lam隨機(jī)事件發(fā)生率,size形狀
NumPy的統(tǒng)計(jì)類(lèi)函數(shù)
- np.sum(a, axis=None):根據(jù)給定軸axis計(jì)算數(shù)組a相關(guān)元素之和,axis整數(shù)或元組
- np.mean(a, axis=None):根據(jù)給定軸axis計(jì)算數(shù)組a相關(guān)元素的期望框仔,axis整數(shù)或元組
- np.average(a,axis=None,weights=None):根據(jù)給定軸axis計(jì)算數(shù)組a相關(guān)元素的加權(quán)平均值
- np.std(a, axis=None):根據(jù)給定軸axis計(jì)算數(shù)組a相關(guān)元素的標(biāo)準(zhǔn)差
- np.var(a, axis=None):根據(jù)給定軸axis計(jì)算數(shù)組a相關(guān)元素的方差
- np.min(a)\max(a):計(jì)算數(shù)組a中元素的最小值舀武、最大值
- np.argmin(a)\argmax(a):計(jì)算數(shù)組a中元素最小值、最大值的降一維后下標(biāo)
- np.unravel_index(index, shape):根據(jù)shape將一維下標(biāo)index轉(zhuǎn)換成多維下標(biāo)
- np.ptp(a):計(jì)算數(shù)組a中元素最大值與最小值的差
- np.median(a):計(jì)算數(shù)組a中元素的中位數(shù)(中值)
NumPy的梯度函數(shù)
梯度:連續(xù)值之間的變化率离斩,即斜率
XY坐標(biāo)軸連續(xù)三個(gè)X坐標(biāo)對(duì)應(yīng)的Y軸值:a, b, c银舱,其中,b的梯度是: (c‐a)/2
- np.gradient(f):計(jì)算數(shù)組f中元素的梯度跛梗,當(dāng)f為多維時(shí)寻馏,返回每個(gè)維度梯度