台部落sirius

實際開發過程中遇到了需要實現選擇性聚合的場景，即對於某一個key對應的數據，將滿足條件的記錄進行聚合，不滿足條件的則不進行聚合。使用spark處理這種計算場景時，想到了使用combineByKey算子，先將輸入數據中的value映射成含一

2019-02-22 20:30:47

spark啓動代碼閱讀： spark使用一系列的shell腳本作爲入口：其中bin目錄下面是任務提交的腳本；sbin目錄是master和worker啓停相關的腳本。而所有腳本最後都是通過調用bin/spark-class來實現對java（

2019-02-22 20:30:31

看了下es-hadoop插件的源碼：發現ES導入數據重試情況的發生，除了在es.batch.write.retry.policy參數默認開啓且es-hadoop插件向ES集羣發送bulk寫入請求接受到503響應碼會重試3次之外。本身執行

2019-02-22 20:30:31

以前都是按照索引中文檔的id進行刪除，其實Elasticsearch支持按照條件進行刪除操作：刪除索引中某個type的符合條件記錄： curl -XDELETE http://localhost:9200/indexname/typenam

2019-02-22 20:30:31

官方文檔http://spark.apache.org 源碼https://github.com/apache/spark 官方博客https://databricks.com/blog

2019-02-22 20:30:31

重啓集羣前，先設置集羣停止分片移動： curl -XPUT http://localhost:9200/_cluster/settings -d '{"transient" : {"cluster.routing.allocation.en

2019-02-22 20:30:31

工作中遇到上百臺機器向一個集羣環境（大約10臺機器）上傳文件的場景，想到了使用LVS來做ftp服務器的負載均衡。但是NAT模式下請求、響應報文都要經過Director Server，在高負載的場景下Director Server的就會成爲

2018-09-11 05:32:21