原创 Pentaho Kettle 6.1連接CDH5.4.0集羣

最近把之前寫的Hadoop MapReduce程序又總結了下,發現很多邏輯基本都是大致相同的,於是想到能不能利用ETL工具來進行配置相關邏輯來實現MapReduce代碼自動生成並執行,這樣可以簡化現有以及之後的一部分工作.於是選取了上手容易

原创 ElasticSearch中keyword的屬性ignore_above詳解

ignore_above 含義 在ElasticSearch中keyword類型字段可以設置ignore_above屬性(默認是10) ,表示最大的字段值長度,超出這個長度的字段將不會被索引,但是會存儲。 測試 設置message 的長度最

原创 Elasticsearch中text與keyword的區別

前言 本文使用的工具是kibana(Linux---Kibana的安裝與測試) 在 elasticsearch2.x 版本,字符串數據只有string類型 ES更新到5版本後,取消了 string 數據類型,代替它的是 keyword 和

原创 ElasticSearch連接池的實現(Java)

1.首先要有一個創建連接的工廠類 package com.aly.util; import org.apache.commons.pool2.PooledObject; import org.apache.commons.pool2

原创 ElasticSearch 分片(Shards)的詳解

分片重要性 ES中所有數據均衡的存儲在集羣中各個節點的分片中,會影響ES的性能、安全和穩定性, 所以很有必要了解一下它。 分片是什麼? 簡單來講就是咱們在ES中所有數據的文件塊,也是數據的最小單元塊,整個ES集羣的核心就是對所有分片的分佈、

原创 ElasticSearch基本概念(集羣-節點-分片)

集羣: ES節點:運行的ES實例 ES集羣:由若干節點組成,這些節點在同一個網絡內,cluster-name相同 節點: master節點:集羣中的一個節點會被選爲master節點,它將負責管理集羣範疇的變更,例如創建或刪除索引,添加

原创 解決IDEA自動重置LanguageLevel和JavaCompiler版本的問題

使用IDEA時,導入的Maven項目默認的LanguageLevel和JavaCompiler都是1.5,1.5的情況下連最簡單的@Override註解都不支持,所以項目可能出現一堆錯。 雖然在項目上F4可以修改LanguageLevel,

原创 ElasticSearch 7.2.0百度雲下載地址

永久有效: 鏈接:https://pan.baidu.com/s/1XsWGbBC_Ymx0nr0Ak5poQw 提取碼:50et 歡迎關注博主微信號:

原创 Apache Doris : 一個開源 MPP 數據庫的架構與實踐

分享提綱: Doris 背景介紹 適用場景 & 案例介紹 Doris 整體架構 Doris 關鍵技術 Doris 背景介紹 介紹 Doris 的整體架構,以及 Doris 的一些特性。 一、Doris Doris 是分佈式、面向交互式查

原创 Kafka監控系統,我推薦Kafka Eagle

一、前言 對於 Kafka 用戶來講,隨着業務的複雜化,Consumer Group 和 Topic 的增加,此時我們使用 Kafka 提供的命令工具,已預感到力不從心,這時候 Kafka 的監控系統此刻便尤爲顯得重要,我們需要觀察消費應用

原创 快速安裝與配置kubernetes集羣搭建

Kubernetes是什麼? 首先,它是一個全新的基於容器技術的分佈式架構領先方案。這個方案盡然很新,但它是谷歌十幾年以來大規模應用容器技術的經驗積累和昇華的一個重要成果。確切地說,kubernetes是谷歌嚴格保密十幾年的祕密武器Borg

原创 flume採集rsync文件

flume現在我們常使用agent.sources.s1.type = TAILDIR的方式, 就是採集文件末尾追加內容,然後發送kafka或者其他信息收集軟件, rsync的一般參數rsync -avz並不是純文件末尾追加內容的形式, 所

原创 Flink系列(三)Data Source 介紹

前言 Data Sources 是什麼呢?就字面意思其實就可以知道:數據來源。 Flink 做爲一款流式計算框架,它可用來做批處理,即處理靜態的數據集、歷史的數據集;也可以用來做流處理,即實時的處理些實時數據流,實時的產生數據流結果,只要數

原创 Kafka auto.offset.reset值詳解

昨天在寫一個java消費kafka數據的實例,明明設置auto.offset.reset爲earliest,但還是不從頭開始消費,官網給出的含義太抽象了。 earliest: automatically reset the offset t

原创 awk 打印匹配內容之後的指定行

1、awk 匹配文檔的某行內容,再打印某行內容之前或者之後的指定行 // 先取出某行內容的行號,再基於此行號來打印某行內容之前或者之後的指定行 # cat awk.txt 1 aa 2 bb 3 cc 4 dd 5 ee 6 ff 7 g