數(shù)據(jù)類型的選擇的基本原則
- 更小的通常更好伐谈。更小的數(shù)據(jù)類型通常更快,因?yàn)樗鼈冋加酶俚拇疟P(pán)钱慢、內(nèi)存和 CPU 緩存,并且處理時(shí)需要的 CPU 周期更少
- 簡(jiǎn)單就好缘眶。簡(jiǎn)單數(shù)據(jù)類型的操作通常需要更少的 CPU 周期
- 盡量避免 NULL嘱根。為 NULL 的列使得索引、索引統(tǒng)計(jì)和值比較都更為復(fù)雜巷懈,使得對(duì)于 MySQL 來(lái)說(shuō)更難優(yōu)化
數(shù)字類型
整數(shù)(whole number)類型
TINYINT该抒、SMALLINT、MEDIUMINT顶燕、INT凑保、BIGINT 分別使用8,16涌攻,24愉适,32,64位存儲(chǔ)空間癣漆。存儲(chǔ)范圍是 -2(N-1) 到 2(N-1)-1
整數(shù)類型有可選的 UNSIGNED 屬性,表示不允許負(fù)值剂买,這大致可以使整數(shù)的上限提升一倍惠爽。有符號(hào)和無(wú)符號(hào)使用相同的存儲(chǔ)空間,并具有相同的性能瞬哼。
MySQL 可以為整數(shù)類型指定寬度婚肆,例如 INT(11),對(duì)大多數(shù)應(yīng)用這是沒(méi)有意義的:它不會(huì)限制值的合法范圍坐慰。這是規(guī)定了 MySQL 的一些交互工具用來(lái)顯示字符的個(gè)數(shù)较性。對(duì)于存儲(chǔ)和計(jì)算來(lái)說(shuō),INT(1) 和INT(20) 是相同的
實(shí)數(shù)(real number)類型
實(shí)數(shù)是帶有小數(shù)部分的數(shù)字结胀。DECIMAL赞咙、FLOAT(4字節(jié))、DOUBLE(8字節(jié))糟港。其中DECIMAL支持精確計(jì)算攀操,因?yàn)樾枰~外的空間和計(jì)算開(kāi)銷,所以應(yīng)該盡量只在對(duì)小數(shù)進(jìn)行精確計(jì)算時(shí)才使用 DECIMAL 秸抚,但在數(shù)據(jù)量大的時(shí)候速和,可以考慮使用 BIGINT 代替 DECIMAL ,只需要將小數(shù)放大相應(yīng)的倍數(shù)即可剥汤。
字符串類型
????字符串長(zhǎng)度定義的不是字節(jié)數(shù)颠放,而是字符數(shù)。
VARCHAR
????因?yàn)橐粋€(gè)字符在不同字符集對(duì)應(yīng)的字節(jié)數(shù)不同吭敢,所以在不同字符集下碰凶,VARCHAR 類型能定義的長(zhǎng)度是不一樣的。
????在 latin1(單字節(jié)字符集)下
非嚴(yán)格模式的話,可以創(chuàng)建表痒留,但是會(huì)有一個(gè)警告谴麦,因?yàn)?MySQL 數(shù)據(jù)庫(kù)自動(dòng)將 VARCHAR 類型轉(zhuǎn)換成了 TEXT 類型
經(jīng)過(guò)測(cè)試發(fā)現(xiàn),VARCHAR 類型的最大長(zhǎng)度為 65532 伸头。這是因?yàn)檫€有其他別的開(kāi)銷匾效。
????在 GBK 或 UTF-8 字符集下
不同字符集下對(duì) max 的提示是不同的。因此 VARCHAR(N) 中的 N 指的是字符的長(zhǎng)度恤磷。而文檔中說(shuō)明 VARCHAR 類型最大支持 65535 面哼,單位是字節(jié),而且是表中所有 VARCHAR 列的長(zhǎng)度總和扫步,如果 VARCHAR 列的長(zhǎng)度總和超過(guò)這個(gè)長(zhǎng)度魔策,依然無(wú)法創(chuàng)建
VARCHAR 類型用于存儲(chǔ)可變長(zhǎng)字符串,比定長(zhǎng)類型更節(jié)省空間河胎,因?yàn)樗鼉H僅使用必要的空間闯袒。VARCHAR 需要使用 1 或 2 個(gè)額外字節(jié)記錄字符串的長(zhǎng)度:如果列的長(zhǎng)度大于255,則需要1個(gè)字節(jié)游岳,否則需要2個(gè)字節(jié)
對(duì)于 InnoDB 存儲(chǔ)引擎政敢,由于行是變長(zhǎng)的。在 UPDATE 一個(gè)可變長(zhǎng)字符串時(shí)胚迫,使得比原行變得更長(zhǎng)喷户,導(dǎo)致 InnoDB 存儲(chǔ)引擎進(jìn)行頁(yè)分裂來(lái)使行可以放進(jìn)頁(yè)內(nèi)
下面這些情況使用 VARCHAR 是合適的:字符串列的最大長(zhǎng)度比平均長(zhǎng)度大很多;列的更新很少访锻;使用了像 UTF-8 這樣復(fù)雜的字符集褪尝,每個(gè)字符都使用不同的字節(jié)數(shù)進(jìn)行存儲(chǔ)
CHAR
CHAR 類型是定長(zhǎng)的,MySQL 總是根據(jù)定義的字符串長(zhǎng)度分配足夠的空間期犬。當(dāng)存儲(chǔ) CHAR 值時(shí)河哑,MySQL 會(huì)刪除所有的末尾空格。CHAR 適合存儲(chǔ)很短的字符串或者所有值的接近同一個(gè)長(zhǎng)度龟虎。
BLOB 和 TEXT 類型
BLOB 和 TEXT 都是為存儲(chǔ)很大的數(shù)據(jù)而設(shè)計(jì)的字符串?dāng)?shù)據(jù)類型灾馒,分別采用二進(jìn)制和字符串方式存儲(chǔ)。實(shí)際上遣总,它們分別屬于兩組不同的數(shù)據(jù)類型家族:字符串類型是TINYTEXT睬罗,SMALLTEXT,TEXT旭斥,MEDIUMTEXT容达,LONGTEXT;對(duì)應(yīng)的二進(jìn)制類型是TINYBLOB垂券,SMALLBLOB花盐,BLOB羡滑,MEDIUMBLOB,LONGBLOB算芯。
MySQL 對(duì) BLOB 和 TEXT 列進(jìn)行排序與其他類型是不同的:它只對(duì)每個(gè)列的最前 max_sort_length 字節(jié)而不是整個(gè)字符串做排序柒昏。如果只需要排序前面一小部分字符,則可以減少 max_sort_length 的配置熙揍,或者使用 ORDER BY SUBSTRING(column职祷,length)
使用枚舉(ENUM)代替字符串類型
MySQL 在存儲(chǔ)枚舉時(shí)非常緊湊,會(huì)根據(jù)列表值的數(shù)量壓縮到一個(gè)或者兩個(gè)字節(jié)中届囚。MySQL 在內(nèi)部會(huì)將每個(gè)值在列表中位置保存為整數(shù)有梆,并且在 .frm 文件中保存 "數(shù)字 - 字符串" 映射關(guān)系的查找表。使用如果數(shù)字作為枚舉常量的話意系,這種雙重性很容易造成混亂泥耀。還有就是枚舉字段是按照內(nèi)部存儲(chǔ)的整數(shù)而不是定義的字符串進(jìn)行排序的,第一種解決方式是:按照需要的順序來(lái)定義枚舉列蛔添。第二種解決方式是:在查詢中使用 FIELD() 函數(shù)顯式地指定排序順序痰催,但這會(huì)導(dǎo)致 MySQL 無(wú)法利用索引消除排序。
日期和時(shí)間類型
DATETIME 和 TIMESTAMP 迎瞧,MySQL 能存儲(chǔ)最小時(shí)間粒度為秒陨囊。但是 MySQL 能使用微秒級(jí)的粒度進(jìn)行臨時(shí)運(yùn)算。
DATETIME
能保存從 1001 年 到 9999 年夹攒,精度為秒,與時(shí)間無(wú)關(guān)胁塞。使用 8 個(gè)字節(jié)的存儲(chǔ)空間咏尝。
TIMESTAMP
TIMESTAMP 類型保存了從 1970 年 1 月 1 日午夜(格林尼治標(biāo)準(zhǔn)時(shí)間)以來(lái)的秒數(shù)。使用 4 個(gè)字節(jié)的存儲(chǔ)空間啸罢,因此它的范圍比 DATETIME 小得多编检,只能從 1970 年到 2038 年。
MySQL 提供了函數(shù) FROM_UNIXTIME() 把 Unix 時(shí)間戳轉(zhuǎn)為日期扰才,并提供了 UNIX_TIMESTAMP() 函數(shù)把日期轉(zhuǎn)換為 Unix 時(shí)間戳允懂。
如果要存儲(chǔ)比秒更小粒度的日期和時(shí)間值,可以使用 BIGINT 類型存儲(chǔ)微秒級(jí)別的時(shí)間戳或者使用 DOUBLE 存儲(chǔ)秒之后的小數(shù)部分衩匣。
位數(shù)據(jù)類型
BIT
MySQL 把 BIT 當(dāng)作字符串類型蕾总,而不是數(shù)字類型。當(dāng)檢索 BIT(1) 值時(shí)琅捏,結(jié)果是一個(gè)包含二進(jìn)制 0 或 1 值的字符串生百,而不是ASCII 碼的 "0" 或 "1",然而柄延,在數(shù)字上下文的場(chǎng)景中檢索時(shí)蚀浆,結(jié)果是將位字符串轉(zhuǎn)化成數(shù)字。這是相對(duì)讓人費(fèi)解的,所以應(yīng)該謹(jǐn)慎使用 BIT 類型
SET
如果想要保存很多 true/false 值市俊,可以考慮合并這些列到一個(gè) SET 數(shù)據(jù)類型杨凑,它在 MySQL 內(nèi)部是以一系列打包的位的集合來(lái)表示的。這樣就有效地利用了存儲(chǔ)空間摆昧。它的主要缺點(diǎn)是改變列的定義的代價(jià)較高:需要ALTER TABLE撩满,這對(duì)大表來(lái)說(shuō)是非常昂貴的操作。(需要獲取表的排它鎖)
選擇標(biāo)識(shí)符
為標(biāo)識(shí)列選擇適合的數(shù)據(jù)類型非常重要据忘。一般更有可能用標(biāo)識(shí)列與其他值進(jìn)行比較鹦牛,或者通過(guò)標(biāo)識(shí)列尋找其他列。標(biāo)識(shí)列也可能在另外表中作為外鍵使用勇吊。所以為標(biāo)識(shí)列選擇數(shù)據(jù)類型時(shí)曼追,應(yīng)該選擇跟關(guān)聯(lián)表中對(duì)應(yīng)列一樣的類型
- 整數(shù)類型
整數(shù)通常是標(biāo)識(shí)列最好的選擇,因?yàn)樗麄兒芸觳⑶沂褂?AUTO_INCREMENT - ENUM 和 SET 類型
對(duì)于標(biāo)識(shí)列來(lái)說(shuō)汉规,ENUM 和 SET 類型通常是一個(gè)糟糕的選擇礼殊,盡管對(duì)某些只包含固定狀態(tài)或者類型的靜態(tài)"定義表"來(lái)說(shuō)可能是沒(méi)有問(wèn)題的。ENUM 和 SET 列適合存儲(chǔ)固定信息 - 字符串類型
如果可能针史,避免使用字符串類型作為標(biāo)識(shí)符晶伦,因?yàn)樗鼈兒芟目臻g,并且通常比數(shù)字類型慢
對(duì)于完全隨機(jī)的字符串也需要多加注意啄枕,例如 MD5()婚陪、SHA1() 或者 UUID() 產(chǎn)生的字符串。這些函數(shù)生成的新值會(huì)任意分布在很大的空間內(nèi)频祝,這會(huì)導(dǎo)致 INSERT 以及一些 SELECT 語(yǔ)句變得很慢泌参。
如果存儲(chǔ) UUID 值,則應(yīng)該移除 "-" 符號(hào)常空;或者更好的做法是沽一,用 UNDEX() 函數(shù)轉(zhuǎn)換 UUID 值為 16 字節(jié)的數(shù)字,并且存儲(chǔ)在一個(gè) BINARY(16) 列中漓糙,檢索時(shí)可以通過(guò) HEX() 函數(shù)來(lái)格式化為 十六進(jìn)制格式铣缠。