為什么統計數,COUNT(*)
勝過其他方式?
引言
在數據庫操作的世界里,增刪改查(CRUD)構成了程序員日常工作的核心。特別是查詢(Retrieve)操作,在所有的數據庫活動中它可能是最頻繁的。而在眾多查詢操作中,行數統計無疑占據了重要的地位。對于數據庫行數的統計,我們通常依賴一個強大的SQL函數:COUNT
。
認識COUNT
COUNT
在數據庫中的定義是用來統計行數的,具體來說,它有幾種不同的使用方式:
COUNT(expr)
:返回select
語句檢索到的行中,表達式expr
具有非NULL
值的行數,返回結果為BIGINT
類型。- 而
COUNT(*)
則包括了所有的行,即使列值為NULL
。
例如,考慮以下表格和數據:
create TABLE tbl_example (id INT, id2 INT);
insert INTO tbl_example VALUES (NULL, NULL);
insert INTO tbl_example VALUES (1, NULL);
insert INTO tbl_example VALUES (NULL, 1);
insert INTO tbl_example VALUES (NULL, 1);
insert INTO tbl_example VALUES (NULL, 1);
insert INTO tbl_example VALUES (NULL, 1);
insert INTO tbl_example VALUES (NULL, 1);
insert INTO tbl_example VALUES (1,NULL);
...
如果我們分別使用COUNT(*)
、COUNT(id)
和COUNT(id2)
來查詢,將會得到不同的結果:
select COUNT(*), COUNT(id), COUNT(id2) from tbl_example;
結果會是:
8, 2, 5
COUNT(id)
和COUNT(id2)
只統計了具有非NULL
值的行,而COUNT(*)
統計了所有行。
COUNT(列名)
vs COUNT(*)
vs COUNT(常量)
那么,為什么《Java 開發手冊》等許多最佳實踐推薦避免使用COUNT(列名)
或COUNT(常量)
來替代COUNT(*)
呢?
COUNT(列名)
:統計特定列非NULL
值的行數,這在你只關注特定列時有用,但如果你的目標是統計表中的行數,這可能會導致誤導。COUNT(常量)
:盡管COUNT(1)
(常量為1)在結果上與COUNT(*)
相同,但它并不是標準,可能會引起混淆。COUNT(*)
:是標準的SQL用法,被定義用于統計行數,大多數數據庫系統對此進行了優化,從而提供了更高的效率。
優化背后的COUNT(*)
不同的數據庫引擎對COUNT(*)
有不同的優化策略。
MyISAM引擎
MyISAM存儲引擎不支持事務,使用表級鎖,因此它能夠在沒有where
條件的情況下直接返回表中的總行數,這是因為整個表被鎖定,行數是一個固定的值。
InnoDB引擎
相比之下,InnoDB支持事務,并且使用行級鎖。因此,它不能像MyISAM那樣優化COUNT(*)
操作。但是,InnoDB對COUNT(*)
做了其他類型的優化。從MySQL 8.0.13開始,針對InnoDB的select COUNT(*) from tbl_name
,如果查詢中沒有where
或GROUP BY
等條件,會嘗試使用成本較低的索引進行表掃描,這通常意味著使用非聚簇索引,因為它們的大小通常小于聚簇索引,從而可以更快地統計行數。
COUNT(*)
與COUNT(1)
的性能比較
關于COUNT(*)
和COUNT(1)
的性能,有很多爭論。然而,根據MySQL官方文檔,InnoDB對select COUNT(*)
和select COUNT(1)
操作的處理方式是相同的,不存在性能差異。
因此,建議使用COUNT(*)
,因為它是SQL92標準定義的用于統計行數的語法,這使得COUNT(*)
在各種數據庫系統中得到了優化。
結論
在數據庫查詢中,COUNT(*)
是統計表行數的推薦方式。它不僅符合SQL92標準,而且得益于數據庫系統的優化,從而提供了更高的效率。因此,除非有特定的列值統計需求,否則應該直接使用COUNT(*)
來查詢表的行數。這不僅是為了提高查詢效率,還為了避免因列值為NULL
而引起的統計不準確的問題。所以,請在編寫SQL查詢時,優先考慮COUNT(*)
。
end
該文章在 2023/12/13 18:55:49 編輯過