這種分組的依據是比較上一行字段值,發生某種變化時(如變大超過 10)產生新組。SQL 僅支持等值分組,要想實現這種有序條件分組就得經過幾次數據變換,變換成等值分組。以支持窗口函數的新版 MySQL 爲例,大概經過這麼三步:
1、得出變化標誌字段 flag。通過窗口函數 lag 得到上一行的字段值,滿足變化條件(如本行 - 上一行 >10)flag 設爲 1,否則爲 0;
2、累加 flag 字段得到 acc 字段。從第一行累加到當前行,還是得用窗口函數實現:sum(flag)…BETWEEN ROWS UNBOUNDED AND CURRENT ROW;
3、按 acc 字段進行常規等值分組即可。
早期沒有窗口函數的 MySQL,理論上也能實現,更復雜,就不細說了。
這類有序分組如果用 SPL 語言就很簡單,用 group 操作的 @i 選項,一句就搞定了:
=connect(”mysqlDB”).query(“select * from t”).group@i(f>~[-1].f+10)
完成分組動作後,得到兩層結構的序表 B。後續針對第二層分組子集,做任意計算也都容易一句搞定:
=B.max(~.len()) 得到最大組的行數;
=B.(~.new(f,avg(f2))).conj() 得到每組 f2 的平均值;
=B.(~.sort@z(f2).m(to(3))).conj() 取出每組 f2 最大的三行;
除了有序條件分組,還有有序等值分組,嵌套分組等多種 SQL 難實現的分組方式,詳情參考《分組子集》。
當數據不在數據庫裏時,SPL 執行復雜計算仍然方便:
=file(“d:/t.csv”).import(;,",").group...
SPL能很方便地嵌入到JAVA應用,可參考《Java 如何調用 SPL 腳本》。
具體使用方法可參考 《如何使用集算器》。