Apache Druid 入門系列(三)：從本地文件加載數據

Druid 從本地文件加載數據

假設你已經按上一篇文章《Apache Druid入門系列(二): 安裝配置》下載並安裝了druid，並使用micro-quickstart 啓動了druid單機配置，並讓它在你的虛擬機上運行。您還不沒有加載任何數據（如果已加載測試數據，先停止druid服務，後刪除var目錄即可）
本教程以druid官方自帶的示例文件爲例，教你發何從文件中批量攝取數據，數據位於：/usr/druid/apache-druid-0.16.0-incubating/quickstart/tutorial/wikiticker-2015-09-12-sample .json.gz中，在接下來的數據加載教程中，其中包含2015年9月12日發生的Wikipedia頁面編輯事件。

1、打開http://192.168.1.164:8888，點擊"Start a new spec",建一個新的數據攝入規範

2、選擇"Local disk" 並單擊"Connect data"

firehoses type 選擇：“local”, 攝入的文件必須放在本地服務器上
firehose.baseDir輸入："/usr/druid/apache-druid-0.16.0-incubating/quickstart/tutorial/"
firehose.filter 輸入：“wikiticker-2015-09-12-sampled.json.gz”
單擊[Preview]並確保您所看到的數據是正確的

3、單擊“Next: Parse data”進入下一步解析數據

Parser to use欄：選中json解析器
單擊"Preview", 查看數據

4、單擊"Next: Parse time"，進入下一步，以確定主時間戳列。

Druid的體系結構需要一個主時間戳列(內部存儲在一個名爲time的列中)。如果數據中沒有時間戳，請選擇"Constant value"。在我們的示例中，數據加載程序將確定原始數據中的time列是惟一可以用作主時間列的候選列。

5、單擊"Next Transform"

這裏不需要做列轉換，直接進入下一步；

6、單擊"Next Filter"

在配置模式的步驟中，可以配置哪些維度和指標粒度，按你的配置數據將被攝取進Druid，由於我們的數據集非常小，單擊開關並關閉Rollup。

7、單擊"Next Partition"

在這一頁，可以調整數據在Druid中的分割方式。示例數據只是一個小數據集，因此在此步驟中不需要進行任何調整。

8、單擊"Next Tune"

9、單擊"Next Publish"

發佈步驟是可以指定什麼數據源名稱（類似於表的概念)；我們把這個數據源命名爲wikipedia。最後，單擊Next查看您的規範。

這是您新構建的規範，您也可以直接編輯規範，並在前面的步驟中查看它的反映。一旦您對規範滿意，單擊Submit，將創建一個攝取任務。

10、單擊"Submit"

提交成功後，
Task submitted successfully. Going to task view…
轉到task視圖，該視圖的顯示你新創建的任務。任務視圖被會自動刷新，等待任務成功。當一個任務成功時，意味着它構建了一個或多個段，這些段現在將由數據服務器拾取。