原创 [日誌處理工作之四]從flume採集的event中提取能被kibana識別的時間戳 and 對比flume與logstash

1.extract timestamp field from events use org.apache.flume.interceptor.Reg

原创 [SNA社會網絡分析]基於R的ndtv、network包實現社會網絡動態可視化

本文所涉及的內容是在做傳染病領域的科研時做的一些探索性的工作,肯定還是有一些不完善的地方,歡迎討論。 本文最終的目的是實現一個社會網絡的動態演變過程,如下圖所示,這是程序最終生成的視頻,導出的一小段GIF。 照慣例推薦幾篇非常好的參考文

原创 [日誌處理工作之六]kafka的分區策略 and 構建flume或logstash的採集與解析agent集羣

Kafka的分區策略是按照用戶自定義的key字段,計算hashcode,按計算結果將該條日誌存儲到相應編號的分區中。 舉個例子,比如DB2的一條日誌: 2015-06-18-22.24.52.052782

原创 基於R的ndtv、network包實現動態社會網絡可視化

本文所涉及的內容是在做傳染病領域的科研時做的一些探索性的工作,肯定還是有一些不完善的地方,歡迎討論。 本文最終的目的是實現一個社會網絡的動態演變過程,如下圖所示,這是程序最終生成的視頻,導出的一小段GIF。 照慣例推薦幾篇非常好的參考文

原创 [日誌處理工作之三]使用flume採集DB2日誌推送到kafka,並使用spark streaming拉取指定topic的日誌

實現了通過flume-ng將DB2日誌推入Kafka,用spark streaming訂閱kafka中相應的topic,將指定的信息,比如level級別是warning的,message發送給指定郵箱 1

原创 [日誌處理工作之二]使用flume-ng解析db2日誌的初步步驟

1.flume一般按行爲單位封裝一個event,並對event進行消費、過濾、攔截。針對DB2的日誌,多行爲一個event,而且行數不一致,所以我們最好定製自己的source component,我簡單修

原创 [日誌處理工作之九]整合Spark SQL和Elasticsearch

本文使用的Spark版本是1.4.0,Elasticsearch版本是1.5.2 1.Elasticsearch對Spark的支持詳見官網:https://www.elastic.co/guide/en/elasticsearch/had

原创 基於ELK Stack和Spark Streaming的日誌處理平臺設計與實現

大數據時代,隨着數據量不斷增長,存儲與計算集羣的規模也逐漸擴大,幾百上千臺的雲計算環境已不鮮見。現在的集羣所需要解決的問題不僅僅是高性能、高可靠性、高可擴展性,還需要面對易維護性以及數據平臺內部的數據共享性等諸多挑戰。優秀的系統運維平臺既

原创 [日誌處理工作之七]Elasticsearch集羣腦裂現象與保證可靠性的配置

    先說Elasticsearch配置的一個重要組成部分:操作系統。在索引過程中,尤其是有很多分片和副本時,Elasticsearch會創建若干文件。因此,OS對打開文件數量的限制不能少於32000。Linux服務器通常可以在/etc

原创 Eclipse Mars.1 整合 maven

1.下載的eclipse版本是這個 2.下載apache-maven-3.3.3.zip 添加JAVA_HOME環境變量        E:\Program Files\Java\jdk1.8.0_65 解壓maven並添加環境變量,在

原创 [日誌處理工作之八]日誌處理架構

參考 :http://mp.weixin.qq.com/s?__biz=MzA5OTAyNzQ2OA==&mid=207036526&idx=1&sn=b0de410e0d1026cd100ac2658e093160&scene=2&f

原创 [日誌處理工作之五]整合logstash,kafka

1.logstash filter component組件的正則表達式要寫的足夠strong,需要充分考慮字段值爲空的情況,比如DB字段,如果不考慮,數據會丟失。 logstash內置了kafka out

原创 [日誌處理工作之一]整合elasticsearch,kibana,flume-ng,kafka實時採集tomcat日誌

本文涉及的所有操作均在一個CentOS 6.5虛擬機內,部署成功後可供開發和測試使用 各程序版本:apache-flume-1.7.0  apache-tomcat-7.0.27  elasticsear