有一個表(user_record),可能有百萬條記錄,大致內容如下:
no uid s
================
1 a 999
2 b 899
3 c 1234
4 a 1322
5 b 933
-----------------
uid可以重複。現在要做的是按‘s’倒序(desc)排,找出前10個不重複的uid記錄,結果中要包括uid和s。
麻煩一點的做法是分兩步來做:
SELECT distinct(uid) FROM user_record ORDER BY s DESC LIMIT 10
SELECT uid,s FROM user_record WHERE uid IN(Just Results)
如下是用一條語句來處理:
SELECT uid, MAX(s) max_s
FROM user_record
GROUP BY uid
ORDER BY max_s DESC
LIMIT 10
以上兩個方法性能上差不多,一般我們會對uid做索引,所以速度還可以。但是如果這個表比較大的話,就會比較慢了。我試過,在有200萬條記錄的情況下大概需要7~8秒,300萬條記錄大概要10~11秒。還是要對整個表掃描的。
當然也有一個變通的方法,比如你確定這個s字段是相對獨立的樣本,我們可以取前100(或1000)條記錄,再從中找出不重複的uid的記錄
SELECT * FROM (SELECT uid,s FROM user_record
ORDER BY s DESC LIMIT 100) as tb
GROUP BY tb.uid
ORDER BY tb.s DESC
LIMIT 10
這個就會很快了,不過不能確保前100條中有10個不重複的uid