Apache Druid 入门系列(三)：从本地文件加载数据

Druid 从本地文件加载数据

假设你已经按上一篇文章《Apache Druid入门系列(二): 安装配置》下载并安装了druid，并使用micro-quickstart 启动了druid单机配置，并让它在你的虚拟机上运行。您还不没有加载任何数据（如果已加载测试数据，先停止druid服务，后删除var目录即可）
本教程以druid官方自带的示例文件为例，教你发何从文件中批量摄取数据，数据位于：/usr/druid/apache-druid-0.16.0-incubating/quickstart/tutorial/wikiticker-2015-09-12-sample .json.gz中，在接下来的数据加载教程中，其中包含2015年9月12日发生的Wikipedia页面编辑事件。

1、打开http://192.168.1.164:8888，点击"Start a new spec",建一个新的数据摄入规范

2、选择"Local disk" 并单击"Connect data"

firehoses type 选择：“local”, 摄入的文件必须放在本地服务器上
firehose.baseDir输入："/usr/druid/apache-druid-0.16.0-incubating/quickstart/tutorial/"
firehose.filter 输入：“wikiticker-2015-09-12-sampled.json.gz”
单击[Preview]并确保您所看到的数据是正确的

3、单击“Next: Parse data”进入下一步解析数据

Parser to use栏：选中json解析器
单击"Preview", 查看数据

4、单击"Next: Parse time"，进入下一步，以确定主时间戳列。

Druid的体系结构需要一个主时间戳列(内部存储在一个名为time的列中)。如果数据中没有时间戳，请选择"Constant value"。在我们的示例中，数据加载程序将确定原始数据中的time列是惟一可以用作主时间列的候选列。

5、单击"Next Transform"

这里不需要做列转换，直接进入下一步；

6、单击"Next Filter"

在配置模式的步骤中，可以配置哪些维度和指标粒度，按你的配置数据将被摄取进Druid，由于我们的数据集非常小，单击开关并关闭Rollup。

7、单击"Next Partition"

在这一页，可以调整数据在Druid中的分割方式。示例数据只是一个小数据集，因此在此步骤中不需要进行任何调整。

8、单击"Next Tune"

9、单击"Next Publish"

发布步骤是可以指定什么数据源名称（类似于表的概念)；我们把这个数据源命名为wikipedia。最后，单击Next查看您的规范。

这是您新构建的规范，您也可以直接编辑规范，并在前面的步骤中查看它的反映。一旦您对规范满意，单击Submit，将创建一个摄取任务。

10、单击"Submit"

提交成功后，
Task submitted successfully. Going to task view…
转到task视图，该视图的显示你新创建的任务。任务视图被会自动刷新，等待任务成功。当一个任务成功时，意味着它构建了一个或多个段，这些段现在将由数据服务器拾取。