Apache druid 中提交 hadoop任務合併segement

原創

极客架构

2020-06-07 23:04

簡述

在上篇文章中[Apache Druid 0.18.1 compact （合併，壓縮） segements] 說明了使用 compact 任務進行合併，壓縮segement。
基本上的合併任務compact都可以滿足。

但如果遇到比較複雜的需要時，例如需要根據維度，metrics 進行重建時，compact就無法滿足需要了。

hadoop 重建任務

{
    "type":"index_hadoop",
    "spec":{
        "dataSchema":{
            "dataSource":"loginlog_1h",
            "parser":{
                "type":"hadoopyString",
                "parseSpec":{
                    "format":"json",
                    "timestampSpec":{
                        "column":"timeStamp",
                        "format":"auto"
                    },
                   "dimensionsSpec": {
                     "dimensions": [
                        "realm_id",
                        "app_id",
						"team_id",
                        "sales_team",
                        "member_id",
                        "member_name"
                    ],
                    "dimensionExclusions": [
                        "timeStamp",
                        "value"
                    ]
                }
                }
            },
             "metricsSpec": [
            {
                "type": "count",
                "name": "count"
            }
        ],
            "granularitySpec":{
                "type":"uniform",
                "segmentGranularity":"DAY",
                "queryGranularity": "HOUR"
                
            }
        },
        "ioConfig":{
            "type":"hadoop",
            "inputSpec":{
                "type":"dataSource",
                "ingestionSpec":{
                    "dataSource":"loginlog_1h",
                    "intervals":[
                         "2019-01-01/2020-01-01"
                    ]
                }
            }
            
        },
		"tuningConfig":{
                "type":"hadoop",
                 "maxRowsInMemory":500000,
                 "partitionsSpec":{
                    "type":"hashed",
                    "targetPartitionSize":5000000
                },
                "numBackgroundPersistThreads":1,
                 "forceExtendableShardSpecs":true,
                "jobProperties":{
				"mapreduce.job.local.dir":"/home/druid/mapred",
                "mapreduce.cluster.local.dir":"/home/mapred",
                	"mapred.job.map.memory.mb":4300,
                	"mapreduce.reduce.memory.mb":4300
                
                }
               
            }
    }
}

hadoop 任務與compact 任務對比

在較小的任務，不涉及數據重建的情況下建議使用compact.如果數據量比較大則建議使用hadoop任務。

任務提交地址

http://overlord:port/druid/indexer/v1/task

參考資料

https://druid.apache.org/docs/latest/ingestion/hadoop.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Apache druid 中提交 hadoop任務合併segement

簡述

hadoop 重建任務

hadoop 任務與compact 任務對比

任務提交地址

參考資料

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

面試題-數組-給定兩個數字的數組形式將它們相加

檢查數組中的數字是否連續，你還有其他方案？

快速生成數據庫ER圖的方式

SpaceX的代碼開源了，來看看火箭技術的代碼.Spacex Rest API設計很有參考價值

python字符串常用操作

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Apache druid 中提交 hadoop任務 合併segement

簡述

hadoop 重建任務

hadoop 任務 與compact 任務對比

任務提交地址

參考資料

Apache druid 中提交 hadoop任務合併segement

hadoop 任務與compact 任務對比