原创 Elasticsearch批量操作bulk原理解釋

代價較小的批量操作 與 mget 可以使我們一次取回多個文檔同樣的方式, bulk API 允許在單個步驟中進行多次 create 、 index 、 update 或 delete 請求。 如果你需要索引一個數據流比如日誌事件,它可以排

原创 Maven項目引入外部jar包的一種簡單方式

mvn install:install-file -Dfile=x-pack-transport-6.2.3.jar -DgroupId=org.elasticsearch.client -DartifactId=x-pack-trans

原创 Logstash連接kafka輸出報錯:Error registering plugin

Error registering plugin {:pipeline_id=>"main", :plugin=>"#<LogStash::OutputDelegator:0x761d397b @namespaced_metric=#

原创 提高ElasticSearch 索引速度幾個方向

我Google了下,大致給出的答案如下:使用bulk API初次索引的時候,把 replica 設置爲 0增大 threadpool.index.queue_size增大 indices.memory.index_buffer_size增

原创 ElasticSearch對歷史數據增加字段並對歷史數據附初值

elasticsearch如何爲類型添加字段並賦初值 elasticsearch如何爲指定索引中類型添加字段並賦初值,就像數據庫中添加字段爲老的數據賦初始值一樣。 用update_by_query結合script可以辦到,例如: POST

原创 SparkStreaming程序優化小記

最近公司部署了一個sparkstreaming程序,主要邏輯是處理flume採集到kafka的數據,集羣環境3個nodemanager,5核20G內存,剛開始測試階段並沒設置資源配置,直接丟在yarn上運行,每天的數據量大概2500萬re

原创 ElasticSearch java API - 聚合查詢

以球員信息爲例,player索引的player type包含5個字段,姓名,年齡,薪水,球隊,場上位置。index的mapping爲:"mappings": { "player": { "properties": { "nam

原创 Elasticsearch使用java API 查詢時間範圍內匹配某個關鍵字並對查詢結果內按某個字段進行GroupBy操作

Elasticsearch使用java API 查詢時間範圍內匹配某個關鍵字並對查詢結果內按某個字段進行GroupBy操作,我們業務需求是求某個手機前綴在某個時間範圍內每個imsi對應的總數代碼如下: public void search

原创 ElasticSearch6.X版本Java Api中文詳解(七)之Update By Query API解析

updateByQuery最簡單的用法是更新索引中的每個文檔,而無需更改源。這種用法允許拾取新屬性或另一個在線映射更改。UpdateByQueryRequestBuilder updateByQuery = UpdateByQueryAc

原创 Elasticsearch6.2.3版本的heap size設置

在默認情況下,彈性搜索告訴JVM使用最少和最大大小爲1 GB的堆。在遷移到生產環境時,配置堆大小是很重要的,以確保彈性搜索有足夠的堆可用。彈性搜索將分配jvm中指定的整個堆。通過Xms(最小堆大小)和Xmx(最大堆大小)設置選項。這些設置

原创 ElasticSearch6.X版本Java Api中文詳解(五)之Multi Get API、Bulk API解析

1.Multi Get APImulti get API允許根據它們的索引、類型和id獲取文檔列表:MultiGetResponse multiGetItemResponses = client.prepareMultiGet()

原创 編寫hbase協處理器observer遇到的問題

一、第一個異常信息,配置文件錯誤java.io.IOException: Aborting flush because server is aborted...        at org.apache.hadoop.hbase.regi

原创 Spark Streaming詳解----概述、基本概念、性能調優

本文章主要講述SparkStreaming概念原理、基本概念、以及調優等一些知識點。1      概述1.1  SparkStreaming是什麼Spark Streaming 是個批處理的流式(實時)計算框架。其基本原理是把輸入數據以某

原创 簡述對面向對象思想的理解

面向對象思想得由來是,起初我們的需求單一或者特別簡單時,可以一步一步的去進行操作,並且效率也不是很低,可是隨着需求進一步的提高,所需要實現的功能也就越多,我們發現需要面對的每一個步驟很麻煩,所以就開始探索,可不可以將這些步驟和功能再進行封

原创 ElasticSearch6.X版本Java Api中文詳解(二)之Index Api解析

Inde API允許將類型化JSON文檔索引到特定索引中,並使其可搜索。生成JSON文檔有幾種不同的方法:1.手動(也就是自己使用)使用本機字節[]或作爲字符串。2.使用將自動轉換爲其JSON等效的映射。3.使用第三方庫序列化您的bean