Apache Druid 入門系列(三):從本地文件加載數據

Druid 從本地文件加載數據


假設你已經按上一篇文章《Apache Druid入門系列(二): 安裝配置》下載並安裝了druid,並使用micro-quickstart 啓動了druid單機配置,並讓它在你的虛擬機上運行。您還不沒有加載任何數據(如果已加載測試數據,先停止druid服務,後刪除var目錄即可)
本教程以druid官方自帶的示例文件爲例,教你發何從文件中批量攝取數據,數據位於:/usr/druid/apache-druid-0.16.0-incubating/quickstart/tutorial/wikiticker-2015-09-12-sample .json.gz中,在接下來的數據加載教程中,其中包含2015年9月12日發生的Wikipedia頁面編輯事件。

1、打開http://192.168.1.164:8888,點擊"Start a new spec",建一個新的數據攝入規範

在這裏插入圖片描述
在這裏插入圖片描述
2、選擇"Local disk" 並單擊"Connect data"
在這裏插入圖片描述

  • firehoses type 選擇:“local”, 攝入的文件必須放在本地服務器上
  • firehose.baseDir輸入:"/usr/druid/apache-druid-0.16.0-incubating/quickstart/tutorial/"
  • firehose.filter 輸入:“wikiticker-2015-09-12-sampled.json.gz”
    單擊[Preview]並確保您所看到的數據是正確的

3、單擊“Next: Parse data”進入下一步解析數據
在這裏插入圖片描述
Parser to use欄:選中json解析器
單擊"Preview", 查看數據

4、單擊"Next: Parse time",進入下一步,以確定主時間戳列。
在這裏插入圖片描述
Druid的體系結構需要一個主時間戳列(內部存儲在一個名爲time的列中)。如果數據中沒有時間戳,請選擇"Constant value"。在我們的示例中,數據加載程序將確定原始數據中的time列是惟一可以用作主時間列的候選列。

5、單擊"Next Transform"
在這裏插入圖片描述
這裏不需要做列轉換,直接進入下一步;

6、單擊"Next Filter"
在這裏插入圖片描述
在這裏插入圖片描述

在配置模式的步驟中,可以配置哪些維度和指標粒度,按你的配置數據將被攝取進Druid,由於我們的數據集非常小,單擊開關並關閉Rollup。

7、單擊"Next Partition"
在這裏插入圖片描述
在這一頁,可以調整數據在Druid中的分割方式。示例數據只是一個小數據集,因此在此步驟中不需要進行任何調整。

8、單擊"Next Tune"
在這裏插入圖片描述
9、單擊"Next Publish"
在這裏插入圖片描述
發佈步驟是可以指定什麼數據源名稱(類似於表的概念);我們把這個數據源命名爲wikipedia。最後,單擊Next查看您的規範。
在這裏插入圖片描述
這是您新構建的規範,您也可以直接編輯規範,並在前面的步驟中查看它的反映。一旦您對規範滿意,單擊Submit,將創建一個攝取任務。

10、單擊"Submit"
在這裏插入圖片描述
提交成功後,
Task submitted successfully. Going to task view…
轉到task視圖,該視圖的顯示你新創建的任務。任務視圖被會自動刷新,等待任務成功。當一個任務成功時,意味着它構建了一個或多個段,這些段現在將由數據服務器拾取。

選擇Datasources祖視圖。
在這裏插入圖片描述
在Datasources視圖中,這可能需要一點時間來加載段,等待您的數據源(wikipedia)出現,一個數據源是可查詢的,一旦你看到一個綠色(完全可用)的圓圈。

此時,您可以轉到Query視圖,對數據源運行SQL查詢。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章