台部落大数据技术之路---花火

Dubbo 分層 Dubbo 是一款高性能 Java RPC 架構。它實現了面向接口代理的 RPC 調用，服務註冊和發現，負載均衡，容錯，擴展性等等功能。 Dubbo 大致上分爲三層，分別是：業務層 RPC 層 Remotin

2020-02-22 10:22:56

一、什麼是數據傾斜對 Spark/Hadoop 這樣的分佈式大數據系統來講，數據量大並不可怕，可怕的是數據傾斜。對於分佈式系統而言，理想情況下，隨着系統規模（節點數量）的增加，應用整體耗時線性下降。如果一臺機器處理一批大量數

2020-02-22 10:22:45

緩存緩存比較好理解，在大型高併發系統中，如果沒有緩存數據庫將分分鐘被爆，系統也會瞬間癱瘓。使用緩存不單單能夠提升系統訪問速度、提高併發訪問量，也是保護數據庫、保護系統的有效方式。大型網站一般主要是“讀”，緩存的使用很容易被想到。在大

2020-02-22 10:22:45

1. 什麼是Hudi？ Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析數據集在HDFS上的存儲。Hudi的主要目的是高效減少攝取過程中的數據延遲。由Uber開發並開源，HDFS上的

2020-02-22 10:22:45

1. 介紹在發現有些commit出錯時，可使用Hudi提供的rollback回滾至指定的commit，這樣可防止出現錯誤的結果，並且當一次commit失敗時，也會進行rollback操作，保證一次commit的原子性。 2.

2020-02-22 10:22:45

1. Hudi Cleaner是做什麼的？ Hudi Cleaner（清理程序）通常在 commit和 deltacommit之後立即運行，刪除不再需要的舊文件。如果在使用增量拉取功能，請確保配置了清理項來保留足夠數量的co

2020-02-22 10:22:45

官網上有關於http的例子： DataStream<String> input = ...; List<HttpHost> httpHosts = new ArrayList<>(); httpHosts.add(new HttpHo

2020-02-22 10:22:45