背景
今年給自己定下的基調(diào)就是要好好學(xué)一下數(shù)據(jù)庫相關(guān)的知識,所以今天也開始棄用各類ORM
框架箕宙,使用原生的sql
來干一些活嚎朽。這次遇到的問題就是一個去重查詢的問題。
過程
去重查詢柬帕,我第一個想到的就是group by
哟忍。這個方法是可以去重的。
SELECT count(tag_id) FROM xx.xx GROUP BY tag_id;
結(jié)果看到的數(shù)據(jù)是每一個不同的tag_id
的計數(shù)陷寝。類似下面這樣的數(shù)據(jù):
count(tag_id) |
---|
1 |
1 |
1 |
1 |
4 |
1 |
6 |
這樣的數(shù)據(jù)顯然不是我需要的锅很,我要的數(shù)據(jù)是統(tǒng)計不同類型的tag_id
有多少個,而不是每種tag_id
有多少條記錄凤跑。
經(jīng)過搜索發(fā)現(xiàn)爆安,distinct
能滿足我的要求。上面的sql
改為:
SELECT count(distinct tag_id) FROM xx.xx GROUP BY tag_id;
這樣的查詢結(jié)果就是我想要的仔引。
后續(xù)
問題雖然是解決了扔仓,但是抱著學(xué)習(xí)的心態(tài)褐奥,看了一下distinct
相關(guān)的內(nèi)容。
distinct
翻譯過來就是 不同的
類似的意思当辐。
我是把它跟聚合函數(shù)count
放在一起使用了抖僵,如果單獨(dú)使用,其實(shí)就是去重的結(jié)果缘揪。
如果不使用count
來統(tǒng)計總數(shù)耍群,直接使用distinct
,這個結(jié)果與group by
都是去重的記錄找筝。區(qū)別就是排序不一樣蹈垢。group by
會執(zhí)行排序,而distinct
不會執(zhí)行排序袖裕。
如果查詢的結(jié)果帶上limit
子句的話曹抬,distinct
與group by
都會返回對應(yīng)的limit數(shù)量,不過group by
的結(jié)果也是排序后的結(jié)果急鳄。
性能
distinct
與group by
功能類似谤民。我查了一下資料。
DISTINCT:這種方式會將全部內(nèi)容存儲在一個hash結(jié)構(gòu)里疾宏,最后通過計算hash結(jié)構(gòu)中key的個數(shù)即可得到結(jié)果张足,典型的以空間換取時間的方式。
GROUP BY:這種方式是先將字段排序(一般使用sort)坎藐,然后進(jìn)行計數(shù)为牍,典型的以時間換取空間。
根據(jù)這個說法岩馍,數(shù)據(jù)離散程度越大碉咆,用group by
的方式就更高效,反之則是distinct
更高效蛀恩。