Apache Druid 入门系列(三):从本地文件加载数据

Druid 从本地文件加载数据


假设你已经按上一篇文章《Apache Druid入门系列(二): 安装配置》下载并安装了druid,并使用micro-quickstart 启动了druid单机配置,并让它在你的虚拟机上运行。您还不没有加载任何数据(如果已加载测试数据,先停止druid服务,后删除var目录即可)
本教程以druid官方自带的示例文件为例,教你发何从文件中批量摄取数据,数据位于:/usr/druid/apache-druid-0.16.0-incubating/quickstart/tutorial/wikiticker-2015-09-12-sample .json.gz中,在接下来的数据加载教程中,其中包含2015年9月12日发生的Wikipedia页面编辑事件。

1、打开http://192.168.1.164:8888,点击"Start a new spec",建一个新的数据摄入规范

在这里插入图片描述
在这里插入图片描述
2、选择"Local disk" 并单击"Connect data"
在这里插入图片描述

  • firehoses type 选择:“local”, 摄入的文件必须放在本地服务器上
  • firehose.baseDir输入:"/usr/druid/apache-druid-0.16.0-incubating/quickstart/tutorial/"
  • firehose.filter 输入:“wikiticker-2015-09-12-sampled.json.gz”
    单击[Preview]并确保您所看到的数据是正确的

3、单击“Next: Parse data”进入下一步解析数据
在这里插入图片描述
Parser to use栏:选中json解析器
单击"Preview", 查看数据

4、单击"Next: Parse time",进入下一步,以确定主时间戳列。
在这里插入图片描述
Druid的体系结构需要一个主时间戳列(内部存储在一个名为time的列中)。如果数据中没有时间戳,请选择"Constant value"。在我们的示例中,数据加载程序将确定原始数据中的time列是惟一可以用作主时间列的候选列。

5、单击"Next Transform"
在这里插入图片描述
这里不需要做列转换,直接进入下一步;

6、单击"Next Filter"
在这里插入图片描述
在这里插入图片描述

在配置模式的步骤中,可以配置哪些维度和指标粒度,按你的配置数据将被摄取进Druid,由于我们的数据集非常小,单击开关并关闭Rollup。

7、单击"Next Partition"
在这里插入图片描述
在这一页,可以调整数据在Druid中的分割方式。示例数据只是一个小数据集,因此在此步骤中不需要进行任何调整。

8、单击"Next Tune"
在这里插入图片描述
9、单击"Next Publish"
在这里插入图片描述
发布步骤是可以指定什么数据源名称(类似于表的概念);我们把这个数据源命名为wikipedia。最后,单击Next查看您的规范。
在这里插入图片描述
这是您新构建的规范,您也可以直接编辑规范,并在前面的步骤中查看它的反映。一旦您对规范满意,单击Submit,将创建一个摄取任务。

10、单击"Submit"
在这里插入图片描述
提交成功后,
Task submitted successfully. Going to task view…
转到task视图,该视图的显示你新创建的任务。任务视图被会自动刷新,等待任务成功。当一个任务成功时,意味着它构建了一个或多个段,这些段现在将由数据服务器拾取。

选择Datasources祖视图。
在这里插入图片描述
在Datasources视图中,这可能需要一点时间来加载段,等待您的数据源(wikipedia)出现,一个数据源是可查询的,一旦你看到一个绿色(完全可用)的圆圈。

此时,您可以转到Query视图,对数据源运行SQL查询。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章