台部落super_man

1. HDFS 概念 1.1 概念 HDFS，它是一個文件系統，用於存儲文件，通過目錄樹來定位文件其次，它是分佈式的，由很多服務器聯合起來實現其功能，集羣中的服務器有各自的角色 HDFS的設計適合一次寫入，多次讀出的場景，且不支

2020-03-09 01:53:29

文章目錄4. NameNode 工作機制4.1 NameNode、Fsimage 、Edits 和 SecondaryNameNode 概述4.2 NameNode & Secondary NameNode 工作機制4.2.1 第

2020-03-09 01:53:29

Windows 端 Hdfs 客戶端實現文件上傳、下載等操作文章目錄1. 先在 Centos 上開啓 Hdfs2. 在 Windows 上配置 Hadoop2.1 下載 Hadoop 包2.2 解壓配置2.3 可能的錯誤3. 配

2020-03-01 09:51:10

文章目錄1. 安裝hadoop並修改配置文件1.1 配置proflie文件1.2 第一個：hadoop-env.sh1.3 第二個 core-site.xml1.4 第三個 hdfs-site.xml1.5 第四個 mapred-

2020-02-26 01:34:16

文章目錄1. 軟件準備2. 虛擬機準備2.1 打開VMwear選擇新建虛擬機2.2 典型安裝與自定義安裝2.3 虛擬機兼容性選擇2.4 選擇稍後安裝操作系統2.5 操作系統的選擇2.6 虛擬機位置與命名2.7 處理器與內存的分配2

2020-02-26 01:34:16

一種特殊的Checkpoint (檢查點)—Savepoint(保存點) Savepoint 是一種特殊的 CheckPoint，所以有關 Savepoint 的實現與 CheckPoint 的實現密切相關因爲 Savepoin

2020-02-23 03:27:56

Rebalance 本質上是一種協議，規定了一個 Consumer Group 下的所有 consumer 如何達成一致，來分配訂閱 Topic 的每個分區。例如：某 Group 下有 20 個 consumer 實例，它訂閱了

2019-10-25 20:37:59

《一文搞懂 Flink 網絡流控與反壓機制》《追源索驥：透過源碼看懂Flink核心框架的執行流程》《Task之間的數據交換機制》《Flink 網絡傳輸優化技術》《Flink - StreamTask With Mailbo

2019-10-25 20:37:59

此文不錯參考：https://blog.csdn.net/b6ecl1k7BS8O/article/details/81350587

2019-09-26 19:21:35

消息事務是指一系列的生產、消費操作可以要麼都完成，要麼都失敗，類似數據庫的事務。這個特性在0.10.2的版本是不支持的，從0.11版本開始才支持消息事務是實現分佈式事務的一種方案，可以確保分佈式場景下的數據最終一致性，還實現了消

2019-09-26 19:21:35

Spark SQL對SQL語句的處理和關係型數據庫類似，即詞法/語法解析、綁定、優化、執行。Spark SQL會先將SQL語句解析成一棵樹，然後使用規則(Rule)對Tree進行綁定、優化等處理過程對比 Flink SQL 的執

2019-09-26 19:21:35

1. Spark Streaming運行原理與核心概念 Spark Streaming 是Spark核心API的一個擴展，可以實現高吞吐量的、具備容錯機制的實時流數據的處理支持從多種數據源獲取數據，包括Kafk、Flume、Tw

2019-09-26 19:21:35

在單體架構中，我們的事務可以通過數據庫的ACID來操作，不會出現什麼問題但隨着規模擴大，我們的邏輯服務進行拆分A,B,C…模塊，部署在多臺服務器，數據庫一般也是多臺，進行了分庫分表等操作，這些A,B,C…模塊間通過網絡通信完成協

2019-09-26 19:21:35

本文主要整理實時組件（SparkStreaming VS Flink）容錯及語義內容如下：消息系統或實時應用中的語義流處理應用如何保證 Exactly-Once 語義 SparkStreaming 保證 Exactly-O

2019-09-26 19:21:35

1. 代碼優化部分多個Action計算最好基於同一個RDD進行計算操作, 並且對相同的RDD進行Cache操作，避免重複計算，增加任務的執行時間；並且持久化級別最好使用MEMORY_ONLY_SER來減少內存使用；在使

2019-09-26 19:21:35