原创 Elasticsearch按天生成和刪除index腳本

        首先聲明可以使用curator管理索引,這樣大多數情況下來說會更安全更合理,也是官方推薦的。         但是如果是按天建索引,且每天的數據量大體差別不大,且可以按天滾動索引,則可以使用腳本來簡單粗暴的自動化管理,這對

原创 ElasticSearch內存詳解

On Heap&&Off Heap     Elasticsearch內存分爲on heap以及off heap兩部分。Elasticsearch能控制的是On Heap內存部分,這部分由JVM管理;Off Heap由Lucene管理,

原创 elasticsearch中match、match_phrase、query_string和term的區別

一)text字段和keyword字段的區別 以下給出一個例子: 首先建立一個索引和類型,引入一個keywork的字段: PUT my_index { "mappings": { "products": { "p

原创 kafka使用kafka-console-consumer.sh和kafka-console-producer.sh生產消費數據樣例

kafka-console-producer.sh生產無key消息 進入到kafka的bin目錄下:執行以下腳本: ./kafka-console-producer.sh --broker-list List<host:port> --

原创 ansible入門--安裝、配置與執行介紹

概念介紹         Ansible是一個開源配置管理工具,可以使用它來自動化任務,部署應用程序實現IT基礎架構。Ansible可以用來自動化日常任務,比如,服務器的初始化配置、安全基線配置、更新和打補丁系統,安裝軟件包等。Ansib

原创 圖解Git命令行操作流程及詳細使用文檔

根據需求創建分支並提交代碼 1、查看git狀態:git status 查看當前代碼所處的分支,以及有哪些修改過需要提交的文件 2、根據問題創建分支:git checkout -b dev_XXXX-5412 3、將修改文件上傳:git

原创 CM5.8.0 on CentOS6.5 離線安裝及卸載全過程詳解

    關於CDH和ClouderaManager CDH (Cloudera's Distribution, includingApache Hadoop),是Hadoop衆多分支中的一種,由Cloudera維護,基於穩定版本的Apac

原创 Elasticsearch配置優化方案最終完整版

        在 ES 的默認設置下,是綜合考慮數據可靠性、搜索實時性、寫入速度等因素的。當離開默認設置,追求某一項高效率的時候,就需要根據實際的業務場景進行優化,接下來將以Elasticsearch6.X作爲基準從寫入速度優化、搜索速

原创 rabbitmq統計插件緩存釋放工具

描述         由於rabbitmq的負載過高,經常會出現警告:The management statistics database currently has a queue of XXXX events to process.

原创 elasticsearch磁盤使用量優化

優化磁盤使用量與建立索引時的映射參數和索引元數據字段密切相 關,在介紹具體的優化措施之前,我們先介紹這兩方面的基礎知識。 元數據字段 _source:原始的JSON文檔數據。 _all:索引所有其他字段值的一種通用字段,這個字段中包含了所

原创 elasticsearch中index的shard規劃原則

數據分佈均勻 對於數據量較小(100GB以下)的index,往往寫入壓力查詢壓力相對較低,一般設置3~5個shard,numberofreplicas設置爲1即可(也就是一主一從,共兩副本) 。 對於數據量較大(100GB以上)的i

原创 elasticsearch搜索速度優化

預留足夠的offheap內存 在一般情況下,應用程序的讀寫都會被操作系統“cache”(除了direct方式),cache保存在系統物理內存中(線上應該禁用swap),命中cache可以降低對磁盤的直接訪問頻率。搜索很依賴對系統 cach

原创 elasticsearch寫入速度優化

        追求極致的寫入速度時,很多是以犧牲可靠性和搜索實時性爲代價的。有時候,業務上對數據可靠性和搜索實時性要求並不高,反而對寫入速度要求很高,此時可以調整一些策略,最大化寫入速度          如果是集羣首次批量導入數據,則

原创 HDFS硬盤存儲均衡腳本

描述        由於大數據集羣服務器硬盤存儲異構,部分硬盤空間大,部分空間硬盤小,所以在存儲的時候會導致小硬盤服務器HDFS存儲佔有率提升過快 解決方案 編寫腳本,每天00:10執行hdfs balance的任務 source /e

原创 JDeploy調研

簡介        JDeploy是Java + Shell實現的基於Linux系統的自動化、可視化的項目部署平臺,能部署Java服務、Java Web項目,可以簡化項目部署操作,無需繁瑣的黑窗口SSH指令及Jenkins複雜的配置,只需