台部落wending-Y

JOIN類型 inner 默認連接，連接左右都匹配上的 cross 笛卡尓積 outer, full, full_outer 左右的結果全部列出，沒匹配上的NULL代替 left, left_outer 左邊的全要，沒匹配上的N

2020-07-07 13:24:39

Kudu Vs Hbase Vs Hadoop Hadoop在離線批量環境下分析能力最強，在隨機查詢條件下表現最差，適合N+1這種場景 Kudu 大數據量下實時分析能力強，在隨機查詢下擁有較低的延遲，適合實時寫，實時分析的場景

2020-07-07 13:24:37

正常拷貝 Kafka 消費者消費數據，從文件中讀數據流程產生4次上下文切換，4次數據複製使用零拷貝 2次上下文，3次複製 Java示例程序 public class Copy { public static v

2020-06-25 22:38:56

冪等生產者會分配生產者ID,序列號 pid,seq broker 維護<Pid,分區> 的序列號新序列號=老序列號+1 接受新序列號<老序列號+1 丟棄，證明數據重複了新序列號>老序列號+1 拋出亂序異常，證明中間的數

2020-06-25 22:38:56

State state是實現flink一次性語義的核心，在1.9之後增加了API來讀取state 寫State import org.apache.flink.api.common.state.ListState; import

2020-06-25 22:38:56

結論 Bloot Filter能在大數據量的情況下判斷元素在集合中是否存在如果過濾器判斷不存在則一定不在集合中如果判斷在，則有一定的誤差，實際可能不在集合中場景 hbase 在查詢的時候通過Filter就可以高效的判斷數據是

2020-06-25 22:38:56

Topic Partition Log 每個partition對應Log log和index 對應關係爲稀疏索引

2020-06-25 22:38:56

接口實現 go語言中的接口實現是一種隱式實現 import "fmt" type Say interface { sayhello() saybye() } func (t people) sayhello() { fm

2020-06-16 02:06:23

protoc 是一個靈活，高效，結構化折數據序列化框架，支持數據結構化一次，到處使用。前置工作安裝protoc ，mac比較方便，直接命令braw命令行查看版本號下載版本號對應的jar包 proto文件 syntax =

2020-06-16 02:06:23

文章目錄單管道設計多管道、多輸出單管道設計示例代碼 # example.conf: A single-node Flume configuration # Name the components on this agent

2020-06-16 02:06:23

文章目錄背景服務端客戶端測試背景主要是爲了解決在java代碼中調用python服務的問題，考慮到性能的要求，還是決定採用RPC協議調用服務端接口定義文件，注意java和python定義文件相同 syntax = "

2020-06-16 02:06:23

文章目錄錯誤現象分析問題問題總結錯誤現象 UDF 函數裏引用了httpclient jar包，用來請求外網，報錯 Caused by: java.lang.NoSuchFieldError: INSTANCE at org.a

2020-06-16 02:06:23

文章目錄需求思路需求用Hive處理數據的時候，如何做到均勻抽樣？思路用這個函數 ntile(n) 分成N份，切分的方法，按照時間排序 ntile(24) OVER (PARTITION BY user_id ORDER

2020-06-16 02:06:23

JobMaster jobmaster負責執行整個任務入口類 org.apache.flink.runtime.jobmaster.JobMaster public CompletableFuture<Acknowledge>

2020-06-16 02:06:23

總結如下

2020-06-16 02:06:23