原创 日誌系統技術選型和架構分析

本篇文章關於日誌系統技術選型和架構分析,已經發表在GitChat,跳轉鏈接 主要介紹一些現有的比較成熟的日誌系統架構,別人的架構再好卻不一定適合你,本文將教你如何選擇搭建適合自己業務場景的日誌系統。 本場 Chat 主要介紹內容如下:

原创 Elasticsearch乾貨(八):Elasticsearch 實戰應用系列

本篇文章關於Elasticsearch 實戰應用,已經發表在GitChat,跳轉鏈接 主要內容包括: 集羣安裝; 插件安裝; 使用索引模版; 單機多實例配置; 冷熱數據分離配置; 外網訪問 ES 配置; 滾動升級集羣方案; 線上 R

原创 GitChat文章推薦:Elasticsearch 實戰應用系列

GitChat上發表的第一篇文章,希望大家多多支持。現在正在着手準備Elasticsearch全系列達人課,從入門到原理深入,篇幅會比較長,寫得非常細。 跳轉鏈接:Elasticsearch 實戰應用系列

原创 Spark實戰(三):SparkStreaming使用checkpoint容錯

由於SparkStreaming一般是7*24不間斷運行,所以強大的容錯性保障是必不可少的。並且在保證容錯的基礎上,保證精準一次的數據處理同樣是我們想要的。 checkpoint SparkStreaming自帶的容錯機制主要是通

原创 Spark乾貨(一):spark streaming集成kafka容災選擇和技術分析

本文主要探討關於spark streaming集成kafka的容錯處理和斷點續傳操作。 spark streaming有兩種容錯機制: spark自帶的checkpoint 使用Kafka direct自行維護offset 關

原创 Elasticsearch乾貨(九):Elasticsearch崩潰風險

我們在使用Elasticsearch時應該選擇性的避免一些可能導致集羣變慢甚至崩潰的操作,這是非常必要的。 通配符 我們在查詢時,或多或少可能會用到通配符(比如:*)來進行查詢操作。但是一個通配符下對應的往往是非常大的數據集,這種

原创 Spark實戰(二):Kafka-SparkStreaming-Elasticsearch

本文介紹saprk實時部分----spark-streaming。spark-streaming可以實現實時批處理功能,實際上還是相當於小的批處理,但是是7*24工作,可以近實時但需要維護成本。本文裏的用java寫的demo,實現功

原创 Spark實戰(一):spark讀取本地文件輸出到Elasticsearch

對於spark的典型應用場景爲批處理,一般由基本數據源(文件系統如:hdfs)或者高級數據源(flume、kafka)作爲spark的數據接入端。輸出一樣可以是文件系統或數據庫等等。本文介紹一個用java寫的demo程序,功能是從本

原创 Elasticsearch案例分析(一):Bulk異常導致Elasticsearch內存泄漏

這週三線上股票板塊的Elasticsearch集羣發生了很嚴重的內存泄漏,本身數據量不大的一個集羣,佔用內存卻非常的高,甚至內存佔用已經超過了數據總量。最終是通過臨時重啓解決問題。 雖然重啓釋放掉了內存空間,但問題原因沒找到,就意

原创 Elasticsearch乾貨(三):對於數值類型索引優化

我們在使用Elasticsearch不免會遇到像int、double這種數值類型,Elasticsearch本身也是支持這些類型的,但並不意味着數字就一定要用數值類型,恰恰相反,用keyword有時候性能會更好,包括對數值進行ran

原创 Sprak報錯(一):java.lang.SecurityException: Invalid signature file digest for Manifest main attributes

報錯如下: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most rec

原创 Sprak報錯(二):關於Spark-Streaming官方示例wordcount運行異常

關於Spark-Streaming官方示例: https://github.com/apache/spark/tree/master/examples 本文采用kafka作爲spark輸入源 運行時出現以下日誌: 18/09/

原创 Lucene原理(一):基本概念

Apache Lucene是Apache的一個核心開源項目,是目前最好的搜索框架。擴展性強,支持全文檢索,各種各樣的數據結構,支持不同的查詢需求。 目前使用Apache Lucene最好的兩款開源軟件: Apache solr,

原创 eclipse安裝Scala開發環境

首選要在機器上搭建Scala:參考: https://blog.csdn.net/xiaoyu_BD/article/details/82632343 安裝scala工具 打開eclipse 點擊”Scala IDE 4.

原创 Mac安裝Scala

隨着spark越來越火,scala也是水漲船高,越來越多的人開始學習scala。 官網下載Scala:http://www.scala-lang.org/download/ 解壓 tar -xzf scala-2.12.6.tg