台部落千淘万漉

ps -ef |grep tomcat netstat -ntlp|grep pid

2020-06-07 22:43:19

原文地址 https://www.jianshu.com/p/5a8174af14b5 2018.05.30 沒有聲音，再好的戲也出不來同樣，沒有可視化，再好的數據分析也不完美數據可視化是大數據的『最後一公里』簡介 Super

2020-06-07 22:43:19

簡介 druid作爲現在最有潛力的海量數據實時分析系統，在優酷廣告團隊中扮演者非常重要的角色整體架構現在已經用tranquility+indexing service替換realtime 實時數據經由tranquility被推送到I

2020-06-07 22:43:19

hive中解決數據傾斜的思路 1.由key爲null值造成的傾斜，將空置變成字符串加隨機數 2.由group by造成的傾斜，map端聚合 set hive.groupby.skewindata=true； hive.groupby.ma

2019-06-27 14:26:41

order by 需要reduce操作，且只有一個reduce，與配置無關。數據量很大時，慎用。 group by 使用了reduce操作，受限於reduce數量，設置reduce參數 mapred.reduce.tasks

2019-06-27 14:26:41

不能 kafka的replica機制完美的在可用性和一致性之間做了平衡，但是他仍然有丟失數據的風險消息寫入主分片後，flowers會定時來拉取，如果超過時間都不來拉，直接就判定他死了，直接從isr中踢出去如果拉的太慢，相比主分片有較大

2019-06-26 11:32:12

本文從宏觀架構層面和微觀實現層面分析了Kafka如何實現高性能。包含Kafka如何利用Partition實現並行處理和提供水平擴展能力，如何通過ISR實現可用性和數據一致性的動態平衡，如何使用NIO和Linux的sendfile實現零拷

2019-06-20 10:03:53

1.概述往hbase中批量加載數據的方式有很多種，最直接方式是調用hbase的API用put方法插入數據；另外一種是用MapReduce的方式從hdfs上加載數據，調用TableOutputFormat 類在reduce中直接生成put

2019-06-19 14:18:30

Hbase是Hadoop生態體系配置的數據庫，我們可以通過HTable api中的put方法向Hbase數據庫中插入數據，但是由於put效率太低，不能批量插入大量的數據，文本將詳細介紹如何通過MapReduce運算框架向Hbase數據庫中

2019-06-19 14:18:30

不論對於什麼數據庫，druid es mysql hbase，凡是能實現秒級查詢的數據庫，無一不是藉助將索引全部存入內存來加快索引。所以入庫的過程本質上就是建索引的過程，這個建索引過程就是有master節點發起的一個mapred任務。

2019-06-18 14:25:12

2019.03.08 一、概述本篇文章主要介紹如何使用SparkStreaming + flume + Kafka 實現實時數據的計算，並且使用高德地圖API實現熱力圖的展示。背景知識：在有些場合，我們需要了解當前人口的流動情況，比

2019-06-14 16:44:23

原文地址 https://www.jianshu.com/p/0e0d6c7d8a42 import java.io.IOException import org.apache.hadoop.hbase.{HBaseConfigura

2019-06-14 16:44:23

原文地址 https://www.jianshu.com/p/c148bf91c3ac 2019.05.26 由於近期在研究ELK和最新的實時計算框架Flink，所以把以前熱力圖項目flume+kafka+SparkStreaming+m

2019-06-14 16:44:23

面試題 es 在數據量很大的情況下（數十億級別）如何提高查詢效率啊？面試官心理分析這個問題是肯定要問的，說白了，就是看你有沒有實際幹過 es，因爲啥？其實 es 性能並沒有你想象中那麼好的。很多時候數據量大了，特別是有幾億條數據的時候

2019-06-11 20:52:30

文章比較長，建議仔細看完 es本質也是數據庫，只要是數據庫，我們就要關心下面四個問題 1.如何讀 2.如何寫 3.爲何讀快（索引） 4.爲何寫快整篇文章都是圍繞上面四點展開，最後就是監控轉載地址 https://mp.weixin.q

2019-06-11 20:52:30