Druid基础知识(编辑中)

Druid
https://yuzhouwan.com/posts/5845/
http://druidio.cn/
实时,快速,切片,大数据(PB级),列式存储,分布式
结合了OLAP分析数据库、时间序列数据库和全文检索思想
集成kafka等消息队列和hdfs等文件系统
数据源可以使Hadoop、spark、storm和kafka等
使用mvcc解决并发问题
Druid 聚合
会将数据进行预聚合,缺点是,不能查询每条数据的明细(因为被聚合了),也就是说,聚合粒度是查询数据的最小粒度。需要提前定义。
数据分片
以segments形式分片,时间作为第一级分片,segments包含基于列的压缩和这些列的索引。
数据加载
分为实时和批处理两种,批处理用来提高精度。
数据查询
支持SQL,数据进入druid之前先join
Druid集群架构:
Historical节点:下载不变的segments到本地,并提供segments的查询服务
broker节点:链接客户端,分发查询,收集合并结果。
coordinator节点:管理集群的historical节点的segments。通知下载新的segments,删除旧的segments。
real-time处理:加载数据,创建索引(创建segments),讲segments交给historical节点。
外部依赖:
zookeeper:保证集群信息一致。metadata storage:管理元数据 deep Storage segments的永久备份。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章