原创 spark通過combineByKey算子實現條件性聚合的方法

實際開發過程中遇到了需要實現選擇性聚合的場景,即對於某一個key對應的數據,將滿足條件的記錄進行聚合,不滿足條件的則不進行聚合。 使用spark處理這種計算場景時,想到了使用combineByKey算子,先將輸入數據中的value映射成含一

原创 spark源碼閱讀(一) 啓動代碼閱讀

spark啓動代碼閱讀: spark使用一系列的shell腳本作爲入口:其中bin目錄下面是任務提交的腳本;sbin目錄是master和worker啓停相關的腳本。 而所有腳本最後都是通過調用bin/spark-class來實現對java(

原创 Spark向Elasticsearch批量導入數據,出現重複記錄問題的定位

看了下es-hadoop插件的源碼: 發現ES導入數據重試情況的發生,除了在es.batch.write.retry.policy參數默認開啓且es-hadoop插件向ES集羣發送bulk寫入請求接受到503響應碼會重試3次之外。 本身執行

原创 Elasticsearch根據條件進行刪除索引命令

以前都是按照索引中文檔的id進行刪除,其實Elasticsearch支持按照條件進行刪除操作:刪除索引中某個type的符合條件記錄: curl -XDELETE http://localhost:9200/indexname/typenam

原创 spark學習的三大網站

官方文檔http://spark.apache.org 源碼https://github.com/apache/spark 官方博客https://databricks.com/blog

原创 Elasticsearch重啓前禁止分片移動的方法

重啓集羣前,先設置集羣停止分片移動: curl -XPUT http://localhost:9200/_cluster/settings -d '{"transient" : {"cluster.routing.allocation.en

原创 LVS實現FTP的上傳流量的負載均衡

工作中遇到上百臺機器向一個集羣環境(大約10臺機器)上傳文件的場景,想到了使用LVS來做ftp服務器的負載均衡。 但是NAT模式下請求、響應報文都要經過Director Server,在高負載的場景下Director Server的就會成爲