原创 HDFS 系列一:HDFS 概念

1. HDFS 概念 1.1 概念 HDFS,它是一個文件系統,用於存儲文件,通過目錄樹來定位文件 其次,它是分佈式的,由很多服務器聯合起來實現其功能,集羣中的服務器有各自的角色 HDFS的設計適合一次寫入,多次讀出的場景,且不支

原创 HDFS 系列四:NameNode 工作機制

文章目錄4. NameNode 工作機制4.1 NameNode、Fsimage 、Edits 和 SecondaryNameNode 概述4.2 NameNode & Secondary NameNode 工作機制4.2.1 第

原创 Windows Hdfs 客戶端配置

Windows 端 Hdfs 客戶端實現文件上傳、下載等操作 文章目錄1. 先在 Centos 上開啓 Hdfs2. 在 Windows 上配置 Hadoop2.1 下載 Hadoop 包2.2 解壓配置2.3 可能的錯誤3. 配

原创 Hadoop集羣單機版搭建-2. Hadoop單機版

文章目錄1. 安裝hadoop並修改配置文件1.1 配置proflie文件1.2 第一個:hadoop-env.sh1.3 第二個 core-site.xml1.4 第三個 hdfs-site.xml1.5 第四個 mapred-

原创 Hadoop集羣單機版搭建-1. 安裝VMware及Centos7

文章目錄1. 軟件準備2. 虛擬機準備2.1 打開VMwear選擇新建虛擬機2.2 典型安裝與自定義安裝2.3 虛擬機兼容性選擇2.4 選擇稍後安裝操作系統2.5 操作系統的選擇2.6 虛擬機位置與命名2.7 處理器與內存的分配2

原创 Flink1.4 Fault Tolerance源碼解析-4

一種特殊的Checkpoint (檢查點)—Savepoint(保存點) Savepoint 是一種特殊的 CheckPoint,所以有關 Savepoint 的實現與 CheckPoint 的實現密切相關 因爲 Savepoin

原创 kafka consumer 分區 reblance 算法

Rebalance 本質上是一種協議,規定了一個 Consumer Group 下的所有 consumer 如何達成一致,來分配訂閱 Topic 的每個分區。 例如:某 Group 下有 20 個 consumer 實例,它訂閱了

原创 Flink相關文章

《一文搞懂 Flink 網絡流控與反壓機制》 《追源索驥:透過源碼看懂Flink核心框架的執行流程》 《Task之間的數據交換機制》 《Flink 網絡傳輸優化技術》 《Flink - StreamTask With Mailbo

原创 乾貨 | Spark Streaming 和 Flink 詳細對比

此文不錯 參考:https://blog.csdn.net/b6ecl1k7BS8O/article/details/81350587

原创 分佈式事務(二):Kafka 0.11後冪等性和事務的基本原理和流程

消息事務是指一系列的生產、消費操作可以要麼都完成,要麼都失敗,類似數據庫的事務。這個特性在0.10.2的版本是不支持的,從0.11版本開始才支持 消息事務是實現分佈式事務的一種方案,可以確保分佈式場景下的數據最終一致性,還實現了消

原创 Spark SQL 總結整理(二):Spark SQL 解析流程、工作原理

Spark SQL對SQL語句的處理和關係型數據庫類似,即詞法/語法解析、綁定、優化、執行。Spark SQL會先將SQL語句解析成一棵樹,然後使用規則(Rule)對Tree進行綁定、優化等處理過程 對比 Flink SQL 的執

原创 Spark Streaming 總結整理(一):Spark Streaming運行原理與核心概念

1. Spark Streaming運行原理與核心概念 Spark Streaming 是Spark核心API的一個擴展,可以實現高吞吐量的、具備容錯機制的實時流數據的處理 支持從多種數據源獲取數據,包括Kafk、Flume、Tw

原创 分佈式事務(一):基礎理論及解決方案

在單體架構中,我們的事務可以通過數據庫的ACID來操作,不會出現什麼問題 但隨着規模擴大,我們的邏輯服務進行拆分A,B,C…模塊,部署在多臺服務器,數據庫一般也是多臺,進行了分庫分表等操作,這些A,B,C…模塊間通過網絡通信完成協

原创 實時組件(SparkStreaming VS Flink)容錯及語義說明

本文主要整理實時組件(SparkStreaming VS Flink)容錯及語義 內容如下: 消息系統或實時應用中的語義 流處理應用如何保證 Exactly-Once 語義 SparkStreaming 保證 Exactly-O

原创 Spark Streaming 總結整理(二):Spark Streaming 性能調優

1. 代碼優化部分 多個Action計算最好基於同一個RDD進行計算操作, 並且對相同的RDD進行Cache操作,避免重複計算,增加任務的執行時間;並且持久化級別最好使用MEMORY_ONLY_SER來減少內存使用; 在使