原创 Dubbo 詳解

Dubbo 分層 Dubbo 是一款高性能 Java RPC 架構。它實現了面向接口代理的 RPC 調用,服務註冊和發現,負載均衡,容錯,擴展性等等功能。 Dubbo 大致上分爲三層,分別是: 業務層 RPC 層 Remotin

原创 Spark 數據傾斜的解決方法

一、什麼是數據傾斜 對 Spark/Hadoop 這樣的分佈式大數據系統來講,數據量大並不可怕,可怕的是數據傾斜。      對於分佈式系統而言,理想情況下,隨着系統規模(節點數量)的增加,應用整體耗時線性下降。如果一臺機器處理一批大量數

原创 高併發系統中的限流

緩存 緩存比較好理解,在大型高併發系統中,如果沒有緩存數據庫將分分鐘被爆,系統也會瞬間癱瘓。 使用緩存不單單能夠提升系統訪問速度、提高併發訪問量,也是保護數據庫、保護系統的有效方式。大型網站一般主要是“讀”,緩存的使用很容易被想到。 在大

原创 Apache Hudi 詳解

1. 什麼是Hudi? Apache Hudi代表Hadoop Upserts anD Incrementals,管理大型分析數據集在HDFS上的存儲。Hudi的主要目的是高效減少攝取過程中的數據延遲。由Uber開發並開源,HDFS上的

原创 Hudi剖析|Apache Hudi Rollback實現分析

1. 介紹      在發現有些commit出錯時,可使用Hudi提供的rollback回滾至指定的commit,這樣可防止出現錯誤的結果,並且當一次commit失敗時,也會進行rollback操作,保證一次commit的原子性。 2.

原创 ApacheHudi使用問題彙總(二)

1. Hudi Cleaner是做什麼的?        Hudi Cleaner(清理程序)通常在 commit和 deltacommit之後立即運行,刪除不再需要的舊文件。如果在使用增量拉取功能,請確保配置了清理項來保留足夠數量的co

原创 Flink elasticsearch-sink by http and https

官網上有關於http的例子: DataStream<String> input = ...; List<HttpHost> httpHosts = new ArrayList<>(); httpHosts.add(new HttpHo