Druid 從本地文件加載數據
假設你已經按上一篇文章《Apache Druid入門系列(二): 安裝配置》下載並安裝了druid,並使用micro-quickstart 啓動了druid單機配置,並讓它在你的虛擬機上運行。您還不沒有加載任何數據(如果已加載測試數據,先停止druid服務,後刪除var目錄即可)
本教程以druid官方自帶的示例文件爲例,教你發何從文件中批量攝取數據,數據位於:/usr/druid/apache-druid-0.16.0-incubating/quickstart/tutorial/wikiticker-2015-09-12-sample .json.gz中,在接下來的數據加載教程中,其中包含2015年9月12日發生的Wikipedia頁面編輯事件。
1、打開http://192.168.1.164:8888,點擊"Start a new spec",建一個新的數據攝入規範
2、選擇"Local disk" 並單擊"Connect data"
- firehoses type 選擇:“local”, 攝入的文件必須放在本地服務器上
- firehose.baseDir輸入:"/usr/druid/apache-druid-0.16.0-incubating/quickstart/tutorial/"
- firehose.filter 輸入:“wikiticker-2015-09-12-sampled.json.gz”
單擊[Preview]並確保您所看到的數據是正確的
3、單擊“Next: Parse data”進入下一步解析數據
Parser to use欄:選中json解析器
單擊"Preview", 查看數據
4、單擊"Next: Parse time",進入下一步,以確定主時間戳列。
Druid的體系結構需要一個主時間戳列(內部存儲在一個名爲time的列中)。如果數據中沒有時間戳,請選擇"Constant value"。在我們的示例中,數據加載程序將確定原始數據中的time列是惟一可以用作主時間列的候選列。
5、單擊"Next Transform"
這裏不需要做列轉換,直接進入下一步;
6、單擊"Next Filter"
在配置模式的步驟中,可以配置哪些維度和指標粒度,按你的配置數據將被攝取進Druid,由於我們的數據集非常小,單擊開關並關閉Rollup。
7、單擊"Next Partition"
在這一頁,可以調整數據在Druid中的分割方式。示例數據只是一個小數據集,因此在此步驟中不需要進行任何調整。
8、單擊"Next Tune"
9、單擊"Next Publish"
發佈步驟是可以指定什麼數據源名稱(類似於表的概念);我們把這個數據源命名爲wikipedia。最後,單擊Next查看您的規範。
這是您新構建的規範,您也可以直接編輯規範,並在前面的步驟中查看它的反映。一旦您對規範滿意,單擊Submit,將創建一個攝取任務。
10、單擊"Submit"
提交成功後,
Task submitted successfully. Going to task view…
轉到task視圖,該視圖的顯示你新創建的任務。任務視圖被會自動刷新,等待任務成功。當一個任務成功時,意味着它構建了一個或多個段,這些段現在將由數據服務器拾取。
選擇Datasources祖視圖。
在Datasources視圖中,這可能需要一點時間來加載段,等待您的數據源(wikipedia)出現,一個數據源是可查詢的,一旦你看到一個綠色(完全可用)的圓圈。
此時,您可以轉到Query視圖,對數據源運行SQL查詢。