附錄A 高階Numpy
A.5 結(jié)構(gòu)化和記錄數(shù)組
?????? ndarray是一個同構(gòu)數(shù)據(jù)的容器丸相。也就是說拌蜘,它表示一個內(nèi)存塊,其中每個元素占用相同數(shù)量的字節(jié)陪竿,由dtype確定禽翼。表面上屠橄,ndarray的這種特性不允許你使用它表示異構(gòu)的數(shù)據(jù)或表格型數(shù)據(jù)。結(jié)構(gòu)化數(shù)組是一個ndarray闰挡,其中每個元素可以被認(rèn)為代表C中的struct(因此是“結(jié)構(gòu)化”的名稱)锐墙,或者是SQL表中具有多個命名字段的行。
?????? 有幾種方法可以指定結(jié)構(gòu)化的dtype(請參閱NumPy官方在線文檔)长酗。一種典型的方式是使用(field_name, field_data_type)作為元組的列表∠保現(xiàn)在,數(shù)組的元素是元組對象夺脾,其元素可以像字典一樣訪問之拨。
?????? 字段名稱存儲在dtype.names屬性中。當(dāng)你訪問結(jié)構(gòu)化數(shù)組中的字段時咧叭,將返回數(shù)據(jù)的分步視圖蚀乔,因此不會復(fù)制任何內(nèi)容。
A.5.1 嵌套dtype和多維字段
1.當(dāng)指定結(jié)構(gòu)化的dtype時菲茬,你可以另外傳遞一個形狀(以int或元組的形式)(見圖A-2)
2.可以將更復(fù)雜的嵌套結(jié)構(gòu)表示為數(shù)組中的單個內(nèi)存塊吉挣,也可以嵌套dtype來創(chuàng)建更復(fù)雜的結(jié)構(gòu)(見圖A-3)
注:pandas的DataFrame并不直接支持這個特性,盡管它與分層索引很相似
A.5.2 為什么要使用結(jié)構(gòu)化數(shù)組
?????? 與pandas的DataFrame相比婉弹,NumPy結(jié)構(gòu)化數(shù)組是一個相對底層的工具听想。結(jié)構(gòu)化數(shù)組提供了一種將內(nèi)存塊解釋為具有任意復(fù)雜嵌套列的表格結(jié)構(gòu)的方法。由于數(shù)組中的每個元素都在內(nèi)存中表示為固定數(shù)量的字節(jié)马胧,因此結(jié)構(gòu)化數(shù)組提供了讀/寫磁盤(包括內(nèi)存映射)數(shù)據(jù),以及在網(wǎng)絡(luò)上傳輸數(shù)據(jù)和其他此類用途的非诚畏澹快速有效的方法佩脊。
?????? 作為結(jié)構(gòu)化數(shù)組的另一種常見用途,將數(shù)據(jù)文件編寫為固定長度的記錄字節(jié)流是將C和C ++代碼中的數(shù)據(jù)序列化的常用方法垫卤,這在業(yè)界傳統(tǒng)系統(tǒng)中很常見威彰。只要知道文件的格式(每個記錄的大小以及每個元素的順序、字節(jié)大小和數(shù)據(jù)類型)穴肘,就可以用np.fromfile將數(shù)據(jù)讀入內(nèi)存歇盼。像這樣的專門用途超出了本書的范圍,但值得知道的是這樣的實現(xiàn)是可能的评抚。