利用Python進(jìn)行數(shù)據(jù)分析之Numpy學(xué)習(xí)筆記(一)

NumPy

首先說一下這篇文章不是NumPy的教程扛门,而是對(duì)學(xué)習(xí)的記錄熬荆,旨在在以后需要用的時(shí)候能夠知道What is NumPy担平。鎮(zhèn)上官方NumPy參考手冊(cè)李剖,這才是系統(tǒng)學(xué)習(xí)NumPy的真正去處芒率。

約定:

import numpy as np

簡(jiǎn)介:

NumPy(Numerical Python)是高性能科學(xué)計(jì)算和數(shù)據(jù)分析的基礎(chǔ)包囤耳。NumPy的主要對(duì)象是同構(gòu)數(shù)據(jù)多維容器(homogeneous multidimensional array)——ndarray篙顺,也就是說每一個(gè)ndarray都是一個(gè)相同類型元素組成的表格(二維)。在NumPy中維度(dimensions)叫做軸(axes)充择,軸的個(gè)數(shù)叫做秩(rank)德玫。這個(gè)概念必須牢記,否則放棄吧椎麦。首先軸是從0開始計(jì)的宰僧,0代表最高維,次高維是1观挎,以此類推琴儿。

還有兩個(gè)概念需要認(rèn)識(shí):

  • 面向數(shù)組——NumPy本身并沒有提供多么高級(jí)的數(shù)據(jù)分析功能,理解NumPy數(shù)組以及面向數(shù)組的計(jì)算將有助于你更加高效地使用諸如pandas之類的工具嘁捷。
  • 矢量化(vectorization)——用數(shù)組表達(dá)式代替循環(huán)的做法造成。一般來說,矢量化數(shù)組運(yùn)算要比等價(jià)的純Python方式快上一兩個(gè)數(shù)量級(jí)(甚至更多)雄嚣,尤其是各種數(shù)值計(jì)算晒屎。

ndarray屬性

  1. ndarray.ndim——ndarray的秩喘蟆。
  2. ndarray.shape——書面意思ndarray的形狀。官方解釋是各維度的大小所組成的tuple元組鼓鲁。
  3. ndarray.size——數(shù)組元素的總個(gè)數(shù)蕴轨,等于shape屬性中元組元素的乘積。
  4. ndarray.dtype——是一個(gè)特殊的對(duì)象骇吭,它含有ndarray將一塊內(nèi)存解釋為特定數(shù)據(jù)類型所需的信息橙弱。ndarray內(nèi)部由一個(gè)指向數(shù)組的指針,一個(gè)數(shù)據(jù)類型燥狰,一個(gè)表示形狀的元組和一個(gè)跨度元組(跨越某一維度所需字節(jié)數(shù))膘螟。由于NumPy關(guān)注的是數(shù)值計(jì)算,所以沒有特別指定碾局,dtype基本都是float64(浮點(diǎn)數(shù))荆残,果然是基本,np.arange(10)產(chǎn)生的數(shù)組類型是int32净当,嗯内斯,推斷的還算合理吧。
  5. ndarray.itemsize——書面意思項(xiàng)大小像啼,就是數(shù)組中每一個(gè)元素所占字節(jié)大小俘闯。
  6. ndarray.data——官方說不需要使用,so 沒細(xì)研究忽冻。

創(chuàng)建ndarray

函數(shù) 說明
np.array(data,dtype=None, order=None) 將數(shù)據(jù)data(列表真朗、元組、數(shù)組或其他序列類型)轉(zhuǎn)換為ndarray僧诚。要么推斷出dtype遮婶,要么顯示指定dtype。默認(rèn)直接復(fù)制數(shù)據(jù)湖笨。order默認(rèn)是A(可能是C可能是F還可能是其它)
np.asarray(data, dtype=None, order=None) 將輸入數(shù)據(jù)轉(zhuǎn)換為ndarray旗扑,data同上還可以是ndarray,如果是ndarray就不進(jìn)行復(fù)制慈省。dtype同上臀防,order是重塑中行優(yōu)先C還是列優(yōu)先F,默認(rèn)C語言風(fēng)格边败。
np.arange(10,30,5,dtype=None) 開始袱衷,結(jié)束,步長(zhǎng)和內(nèi)置的range相同
np.ones( (2,3,4), dtype=None) 笑窜、np.ones_like(a) 根據(jù)指定的形狀和dtype創(chuàng)建一個(gè)全1的數(shù)組致燥。ones_like以另一個(gè)數(shù)組為參數(shù),創(chuàng)建形狀和dtype相同的全1數(shù)組怖侦。
np.zeros() 篡悟、np.zeros_like() 全0數(shù)組谜叹,類似ones和ones_like。
np.empty() 搬葬、np.empty_like() 創(chuàng)建數(shù)組荷腊,只分配內(nèi)存空間但不填充任何值,所以返回的是垃圾值急凰。類似ones和ones_like女仰。
np.eye(N, M=None, k=0, dtype=<type 'float'>) 、np.identity(n, dtype=None) eye創(chuàng)建的是N*M的數(shù)組抡锈,默認(rèn)M=N疾忍,k取整數(shù),正數(shù)對(duì)角線向上移k床三,負(fù)數(shù)對(duì)角線向下移k一罩。identity創(chuàng)建一個(gè)N*N單位矩陣(\對(duì)角線為1,其余全0)的數(shù)組

操作

算術(shù)運(yùn)算

大小相等的數(shù)組之間的任何算術(shù)運(yùn)算都會(huì)將運(yùn)算應(yīng)用到元素級(jí)撇簿。

數(shù)組與標(biāo)量的算術(shù)運(yùn)算也將會(huì)將那個(gè)標(biāo)量值傳播到各個(gè)元素聂渊。

當(dāng)dtype不一致時(shí),采用上溯造型(upcasting)

邏輯運(yùn)算

<四瘫、>汉嗽、<=、>=找蜜、==饼暑、!=和&(和)、|(或)洗做、-(非)弓叛,這些運(yùn)算符和算術(shù)運(yùn)算符的使用一致,只不過將產(chǎn)生一個(gè)新的布爾型數(shù)組竭望。

集合運(yùn)算

NumPy提供了一些針對(duì)一維ndarray的基本集合運(yùn)算邪码。

函數(shù) 說明
np.unique(x, return_counts=False) 計(jì)算x中的唯一元素,并返回有序數(shù)組咬清, return_counts=True時(shí)一并返回對(duì)應(yīng)元素的數(shù)量數(shù)組。
np.intersect1d(x,y) ()計(jì)算x奴潘,y中的公共元素旧烧,并返回有序數(shù)組
np.union1d(x,y) ()計(jì)算x,y的并集画髓,并返回有序數(shù)組
np.in1d(x,y) (包含)得到一個(gè)表示x的元素是否包含于y的布爾型數(shù)組
np.setdiff1d(x,y) ()集合的差掘剪,即元素在x中且不在y中
np.setxor1d(x,y) (異或)集合的對(duì)稱差,即存在于一個(gè)數(shù)組中但不同時(shí)存在于兩個(gè)數(shù)組中的元素奈虾。
索引

索引這一節(jié)一句半句說不清夺谁,另起一篇來寫廉赔。

形狀操縱

reshape(x,y,...)返回修改的新數(shù)組,resize((x,y,...))返回修改后的自身匾鸥。

轉(zhuǎn)置:

轉(zhuǎn)置(transpose)是重塑的一種特殊形式它返回的是源數(shù)據(jù)的視圖蜡塌。數(shù)組不僅有transpose方法,還有一個(gè)特殊的T屬性勿负。簡(jiǎn)單的轉(zhuǎn)置可以使用.T馏艾,他其實(shí)就是進(jìn)行軸對(duì)換而已。ndarray還有一個(gè)swapaxes方法奴愉,他需要接受一對(duì)軸編號(hào)eg:swapaxes(0,1)琅摩。對(duì)于高維數(shù)組transpose需要一個(gè)軸編號(hào)組成的元組才能對(duì)這些軸進(jìn)行轉(zhuǎn)置。

這里對(duì)transpose解釋一下

In [4]: arr = np.arange(16).reshape((2,2,4))

In [5]: arr
Out[5]:
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [6]: arr.transpose((1,0,2))
Out[6]:
array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])
簡(jiǎn)而言之就是將原來的0锭硼,1房资,2軸變成現(xiàn)在的1,0檀头,2志膀,轉(zhuǎn)換后的0軸是原來的1軸,轉(zhuǎn)換后的1軸是原來的0軸鳖擒,2軸未變溉浙。
換種解釋:比如說8元素的索引是[1,0,0],0蒋荚,1軸變換后是[0,1,0]戳稽。

組合不同的數(shù)組(堆stack):

hstack, vstack, column_stack, concatenate, c_, r_

其他

用于數(shù)組的文件輸入輸出

NumPy能夠讀寫磁盤上的文本數(shù)據(jù)或二進(jìn)制數(shù)據(jù)。

np.save和np.load是讀寫磁盤數(shù)組數(shù)據(jù)的兩個(gè)主要函數(shù)期升。默認(rèn)情況下惊奇,數(shù)據(jù)是以未壓縮的原始二進(jìn)制格式保存在擴(kuò)展名為.npy的文件中的。如果文件路徑末尾沒有擴(kuò)展名.npy播赁,則該擴(kuò)展名會(huì)被自動(dòng)加上颂郎。通過np.savez可以將多個(gè)數(shù)組保存到一個(gè)壓縮文件中,將數(shù)組以關(guān)鍵字參數(shù)的形式傳入即可np.savez('array_archive.npz',a=arr1, b=arr2)容为,加載.npz文件時(shí)乓序,你會(huì)得到一個(gè)類似字典的對(duì)象,該對(duì)象會(huì)對(duì)各個(gè)數(shù)組進(jìn)行延遲加載坎背。

NumPy提供了從文件中加載文本的函數(shù)np.loadtxt()替劈,還有更為專門化的np.genfromtxt()將數(shù)據(jù)加載到普通的NumPy數(shù)組中,只不過他面向的是結(jié)構(gòu)化數(shù)組和缺失數(shù)據(jù)處理得滤。這些函數(shù)都許多選項(xiàng)可供使用:指定各種分隔符陨献、針對(duì)特定列的轉(zhuǎn)換器函數(shù)、需要跳過的行數(shù)等懂更。完整版的np.loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0)眨业,注解默認(rèn)‘#’急膀,分隔符默認(rèn)whitespace空白,converters = dict{columu : function}龄捡。np.savetxt()執(zhí)行的是相反的操作卓嫂。

復(fù)制和視圖

簡(jiǎn)單的賦值不拷貝數(shù)組對(duì)象或者他們的數(shù)據(jù);視圖就是同一數(shù)據(jù)的引用墅茉,改視圖命黔,就是改數(shù)據(jù);切片返回的是視圖就斤。顯示復(fù)制用copy()函數(shù)悍募。其實(shí)考慮一下NumPy工具出現(xiàn)的目的也能明白,能夠高效洋机、快速處理大量數(shù)據(jù)坠宴,老是復(fù)制多費(fèi)勁,還占內(nèi)存绷旗。


如有理解不正確之處或者解釋不通的地方喜鼓,歡迎指正,共同進(jìn)步衔肢,有時(shí)候個(gè)人的理解并不能解釋忽略的庄岖、更高層面情況。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末角骤,一起剝皮案震驚了整個(gè)濱河市隅忿,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌邦尊,老刑警劉巖背桐,帶你破解...
    沈念sama閱讀 206,602評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異蝉揍,居然都是意外死亡链峭,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門又沾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來弊仪,“玉大人,你說我怎么就攤上這事捍掺『扯蹋” “怎么了?”我有些...
    開封第一講書人閱讀 152,878評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵挺勿,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我喂柒,道長(zhǎng)不瓶,這世上最難降的妖魔是什么禾嫉? 我笑而不...
    開封第一講書人閱讀 55,306評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮蚊丐,結(jié)果婚禮上熙参,老公的妹妹穿的比我還像新娘。我一直安慰自己麦备,他們只是感情好孽椰,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,330評(píng)論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著凛篙,像睡著了一般黍匾。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上呛梆,一...
    開封第一講書人閱讀 49,071評(píng)論 1 285
  • 那天锐涯,我揣著相機(jī)與錄音委粉,去河邊找鬼添寺。 笑死啼县,一個(gè)胖子當(dāng)著我的面吹牛灾搏,可吹牛的內(nèi)容都是我干的角寸。 我是一名探鬼主播阁将,決...
    沈念sama閱讀 38,382評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼意述,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼浴栽!你這毒婦竟也來了击困?” 一聲冷哼從身側(cè)響起涎劈,我...
    開封第一講書人閱讀 37,006評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎沛励,沒想到半個(gè)月后责语,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,512評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡目派,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,965評(píng)論 2 325
  • 正文 我和宋清朗相戀三年坤候,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片企蹭。...
    茶點(diǎn)故事閱讀 38,094評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡白筹,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出谅摄,到底是詐尸還是另有隱情徒河,我是刑警寧澤,帶...
    沈念sama閱讀 33,732評(píng)論 4 323
  • 正文 年R本政府宣布送漠,位于F島的核電站顽照,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜代兵,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,283評(píng)論 3 307
  • 文/蒙蒙 一尼酿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧植影,春花似錦裳擎、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至谷饿,卻和暖如春惶我,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背各墨。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工指孤, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人贬堵。 一個(gè)月前我還...
    沈念sama閱讀 45,536評(píng)論 2 354
  • 正文 我出身青樓恃轩,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親黎做。 傳聞我的和親對(duì)象是個(gè)殘疾皇子叉跛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,828評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容