原创 機器上運行了四個tomcat,查看每個tomcat對應的端口號

ps -ef |grep tomcat netstat -ntlp|grep pid

原创 可能是目前顏值最高的開源BI工具-Superset

原文地址 https://www.jianshu.com/p/5a8174af14b5 2018.05.30 沒有聲音,再好的戲也出不來 同樣,沒有可視化,再好的數據分析也不完美 數據可視化是大數據的『最後一公里』 簡介 Super

原创 druid.io剖析

簡介 druid作爲現在最有潛力的海量數據實時分析系統,在優酷廣告團隊中扮演者非常重要的角色 整體架構 現在已經用tranquility+indexing service替換realtime 實時數據經由tranquility被推送到I

原创 mapred任務性能優化本質上就是和shuffle搏鬥-hive hadoop spark

hive中解決數據傾斜的思路 1.由key爲null值造成的傾斜,將空置變成字符串加隨機數 2.由group by造成的傾斜,map端聚合 set hive.groupby.skewindata=true; hive.groupby.ma

原创 hive中reduce類函數說明

 order by  需要reduce操作,且 只有一個reduce,與配置無關。 數據量很大時,慎用。   group by 使用了reduce操作, 受限於reduce數量,設置reduce參數 mapred.reduce.tasks

原创 kafka的replica機制能保證不丟數據嗎

不能 kafka的replica機制完美的在可用性和一致性之間做了平衡,但是他仍然有丟失數據的風險 消息寫入主分片後,flowers會定時來拉取,如果超過時間都不來拉,直接就判定他死了,直接從isr中踢出去 如果拉的太慢,相比主分片有較大

原创 Kafka設計解析(六)- Kafka高性能架構之道

本文從宏觀架構層面和微觀實現層面分析了Kafka如何實現高性能。包含Kafka如何利用Partition實現並行處理和提供水平擴展能力,如何通過ISR實現可用性和數據一致性的動態平衡,如何使用NIO和Linux的sendfile實現零拷

原创 Hbase Bulk Loading與HBase API方式分析和對比

1.概述 往hbase中批量加載數據的方式有很多種,最直接方式是調用hbase的API用put方法插入數據;另外一種是用MapReduce的方式從hdfs上加載數據,調用TableOutputFormat 類在reduce中直接生成put

原创 HBase結合MapReduce批量導入

Hbase是Hadoop生態體系配置的數據庫,我們可以通過HTable api中的put方法向Hbase數據庫中插入數據,但是由於put效率太低,不能批量插入大量的數據,文本將詳細介紹如何通過MapReduce運算框架向Hbase數據庫中

原创 分佈式存儲入庫過程本質上是建索引過程

不論對於什麼數據庫,druid es mysql hbase,凡是能實現秒級查詢的數據庫,無一不是藉助將索引全部存入內存來加快索引。 所以入庫的過程本質上就是建索引的過程,這個建索引過程就是有master節點發起的一個mapred任務。

原创 flume+kafka+SparkStreaming+mysql+ssm+高德地圖熱力圖項目

2019.03.08 一、概述 本篇文章主要介紹如何使用SparkStreaming + flume + Kafka 實現實時數據的計算,並且使用高德地圖API實現熱力圖的展示。 背景知識: 在有些場合,我們需要了解當前人口的流動情況,比

原创 Scala操作Hbase

原文地址 https://www.jianshu.com/p/0e0d6c7d8a42  import java.io.IOException import org.apache.hadoop.hbase.{HBaseConfigura

原创 filebeat+kafka+Flink+ElasticSearch+springboot+高德地圖熱力圖項目

原文地址 https://www.jianshu.com/p/c148bf91c3ac 2019.05.26 由於近期在研究ELK和最新的實時計算框架Flink,所以把以前熱力圖項目flume+kafka+SparkStreaming+m

原创 面試題:es 在數據量很大時(數十億級別)如何提高查詢效率啊?

面試題 es 在數據量很大的情況下(數十億級別)如何提高查詢效率啊? 面試官心理分析 這個問題是肯定要問的,說白了,就是看你有沒有實際幹過 es,因爲啥?其實 es 性能並沒有你想象中那麼好的。很多時候數據量大了,特別是有幾億條數據的時候

原创 掌握它才說明你真正懂Elasticsearch

文章比較長,建議仔細看完 es本質也是數據庫,只要是數據庫,我們就要關心下面四個問題 1.如何讀 2.如何寫 3.爲何讀快(索引) 4.爲何寫快 整篇文章都是圍繞上面四點展開,最後就是監控 轉載地址 https://mp.weixin.q