使用阿里雲maxcompute sql隨機從查詢數據中抽取n條樣本

原創

2020-06-20 10:42

近些年大數據發展迅速，大數據生態圈也越來越豐富。使用sql進行數據分析時有個常用的組件叫 HIVE ，而阿里雲則提供了類似HIVE功能的商業雲服務，稱爲 maxcompute 。

今天記錄一下使用maxcompute sql從數據中隨機抽取n條樣本的方法。

假設有數據如下：

id	name
1	張三
2	李四
3	王五
4	龍傲天
5	劉斬仙
6	趙日天

我們想隨機從上表中抽取3條數據，應該怎麼寫？

假設表名爲tmp_table:

select id,name from tmp_table
order by rand() limit 3

這樣就能夠從表中隨機抽取3條數據了。假設我們運行的結果如下：

1 張三
3 王五
4 龍傲天

你可以嘗試反覆運行上面的sql，然後就會發現，每次運行的結果都是相同的，隨機抽取數據都是上面給的3條。爲什麼呢？

從sql來理解，上面的語句相當於生成了一個隨機序列，每條記錄都分配了一個隨機值，然後所有記錄按照隨機值排序，從排序結果中取前3條，以此達到隨機選擇的目的。

然後rand()方法產生隨機數需要使用隨機數種子，相同隨機數種子產生的隨機數永遠都是一樣的。當不傳遞隨機數種子時，函數將使用默認的固定隨機數種子，所以無論運行多少次，產生的隨機數都是固定的。

那要怎麼解決這個問題呢？傳入每次都會變化的隨機數種子就可以啦。比如選擇當前的時間戳：

select id,name from tmp_table
order by rand(unix_timestamp()) limit 3

現在，每次運行的結果都不一樣咯，搞定！

參考文章：

MaxCompute SQL隨機抽取N行數據

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

“高手”和“菜鳥”的區別

對於程序員來說，“高手”和”菜鳥“之間的區別實際上只有兩個因素：一是從事編程時間的長短不同，使經驗的多少有所區別；第二個因素就是手頭掌握資料的多少了，因爲很多問題並不是靠自己鑽研可以解決的，必須靠資料，試想在寫DOS彙編程序時如果沒

2020-07-08 11:15:30

領帶打法大全—如何打領帶，怎麼打領帶才能體現優雅氣質？

領帶是男士體現品位、氣質、職位、身份、經濟能力最重要的服裝配飾，如何打領帶、怎樣打領帶才能體現男性優雅氣質呢？夢芭莎將幫助各位男士解答這些困惑，從基礎打法到趣味打法，讓你以不變應萬變，體驗不同領帶打法的樂趣。４種領帶基本打法現在普

2020-07-08 09:50:18

sudo: java: command not found引發的關於sudo命令執行權限的一點記錄

新裝的Ubuntu，安裝了jdk，在/etc/profile文件中也配置了環境變量，但是奇怪的事情發生了，當執行： java -version 時，沒有任何問題，但執行： sudo java -version 時，卻報錯： s

梦为马的诗人

2020-07-08 05:41:07

各類文件頭特徵碼

由這些文件頭即使文件後綴被亂改也可以通過查看二進制文件查出文件的匹配格式,當然這就是一些播放器識別文件的方法 1、從Ultra－edit-32中

2020-07-08 05:28:54

新電腦Java環境配置

MySQL配置： mac: https://juejin.im/post/5cc2a52ce51d456e7079f27f#heading-0 centos: http://www.05bk.com/517.html 1.Can’

2020-07-08 02:30:38

Could not retrieve configuration information from the camera

調試Flycapture2的SDK時候出現了這個錯誤Could not retrieve configuration information from the camera. Error: 0x15 查也查不到，最後去查找手冊查到了。（雖

2020-07-08 01:38:32

mybatis-plus lambdaWrapper

今天用了下mybatis-plus的批量操作，體驗了一波lambdaWrapper mapper.update(null, Wrappers.<Obj>lambdaUpdate().in(Obj::getSysUserId,s

2020-07-07 23:04:55

json格式備忘 | 看一遍忘一遍

json格式大全

2020-07-07 23:04:55

jqury檢測頁面刷新或關閉，清除session

window.οnbefοreunlοad=function (){ alert("===οnbefοreunlοad==="); if(event.clientX>document.body.clientWidth && event.c

2020-07-07 21:33:31

數學建模思維導圖總結（數學建模四大模型、插值與擬合、常微分方程）

數學建模四大模型插值與擬合常微分方程

2020-07-07 08:48:43

嵌入式系統概述（嵌入式系統的定義、ARM 的4種含義）

概述重點：嵌入式系統的定義 ARM 的4種含義

2020-07-07 08:12:09

地產忽悠大全 Zt

偏遠地段---------遠離鬧市喧囂，盡享靜謐人生郊區鄉鎮---------迴歸自然，享受田園風光緊鄰鬧市---------坐擁城市繁華挨着臭

2020-07-07 04:50:12

雜七雜八百度經驗轉載

1. 安裝office後鼠標右鍵菜單未增加office項的解決方法 2. 關於Notepad++右鍵鼠標編輯不見了的解決方法 3. windows server 2012忘記密碼破解密碼方法重置win2012 4. win2012

2020-07-07 04:15:03

stm32內存空間分配

1.stm32內存空間分配圖 Stm32的keil編譯連接如上圖所示。編譯信息包含以下幾個部分： 1）Code: 代碼段，存放程序的代碼部分 2）R

2020-07-07 03:21:18

android 程序中代碼如何判斷模擬器和真機

很多時候我們的的應用程序不希望在模擬器上運行，那麼這個時候可能需要檢查運行環境是否是真機！分析：真機與模擬器的不同一般真機的imei碼是唯一的所以可以採用這種方法！ /** 判斷是否模擬器。如果返回TRUE，則當前是模擬器

2020-07-07 02:36:36

24小時熱門文章

最新文章

最新評論文章