原创 Kafka常用命令速查

創建主題(4個分區,2個副本) bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 2 --partitions 4 --topic t

原创 Flink之Connector連接器

Streaming Connectors 預定義的Source和Sink 基於文件的Source readTextFile(path) readFile(fileInputFormat,path) 基於文件的Sink writeAs

原创 Flink之運行時環境

Flink 運行時環境由兩種類型進程組成,JobManager和TaskManager JobManager,也稱爲 master,用於協調分佈式執行。負責調度任務,檢查點,失敗恢復等。 TaskManager,也稱爲 worker,用於

原创 Flink之狀態管理與容錯機制

1 狀態管理的基本概念 1.1 什麼是狀態 1.1.1 無狀態的例子:消費延遲計算 消息隊列: 一個生產者持續寫入,多個消費組分別讀取,如何實時統計每個消費者落後多少條數據? //輸入 { "timestamp": 155551680

原创 Flink之大數據計算框架的特性分析

Apache Flink Flink以數據並行和流水線方式執行任意流數據程序,Flink的流水線運行時系統可以執行批處理和流處理程序。 Flink框架的主要特徵包括: 高吞吐&低延時(真·流處理) 高可靠性(狀態存儲) 支持流處理、

原创 MySql-straight_join優化列

STRAIGHT_JOIN 與 INNER JOIN 的功能完全一致 使用 INNER JOIN 時,mysql會根據優化規則自動判斷 應該先加載哪個表 但有時自動的操作未必最優,就需要手動操作,其語法如下: select ..fro

原创 Linux_軟鏈接與硬鏈接

對於一個文件來說,有唯一的索引接點(inode)與之對應,而對於一個索引接點號,卻可以有多個文件名與之對應。因此,在磁盤上的同一個文件可以通過不同的路徑去訪問該文件。注意在Linux下是一切皆文件的啊,文件夾、新加的硬盤 ...都可以看

原创 MYSQL索引:對聚簇索引和非聚簇索引的認識

聚簇索引是對磁盤上實際數據重新組織以按指定的一個或多個列的值排序的算法。特點是存儲數據的順序和索引順序一致。 一般情況下主鍵會默認創建聚簇索引,且一張表只允許存在一個聚簇索引。 在《數據庫原理》一書中是這麼解釋聚簇索引和非聚簇索引的區

原创 MySql-半同步複製

文章目錄 一,爲什麼要使用半同步複製?二,半同步複製原理二,半同步複製的實現 一,爲什麼要使用半同步複製? MySQL複製默認是異步複製,Mysql Master Server將自己的Binary Log通過複製線程傳輸出去以後,M

原创 Python數據分析包:pandas 基礎

pandas 是基於 Numpy 構建的含有更高級數據結構和工具的數據分析包 類似於 Numpy 的核心是 ndarray,pandas 也是圍繞着 Series 和 DataFrame 兩個核心數據結構展開的 。Series 和 Dat

原创 MongoDB之Sharded cluster架構原理

爲什麼需要Sharded cluster? MongoDB目前3大核心優勢:『靈活模式』+ 『高可用性』 + 『可擴展性』,通過json文檔來實現靈活模式,通過複製集來保證高可用,通過Sharded cluster來保證可擴展性。

原创 Linux Shell腳本條件判斷

Shell條件判斷       if list then            do something here        elif list then            do another thing here    

原创 Linux之sar命令

sar(System Activity Reporter系統活動情況報告)是目前 Linux 上最爲全面的系統性能分析工具之一,可以從多方面對系統的活動進行報告,包括:文件的讀寫情況、系統調用的使用情況、磁盤I/O、CPU效率、內存使用

原创 MySQL讀寫分離介紹

MySQL讀寫分離基本原理是讓master數據庫處理寫操作,slave數據庫處理讀操作。master將寫操作的變更同步到各個slave節點。 MySQL讀寫分離能提高系統性能的原因在於: 物理服務器增加,機器處理能力提升。拿硬件

原创 Git基礎_取得項目的Git倉庫

取得項目的 Git 倉庫 有兩種取得 Git 項目倉庫的方法。第一種是在現存的目錄下,通過導入所有文件來創建新的 Git 倉庫。第二種是從已有的 Git 倉庫克隆出一個新的鏡像倉庫來。 在工作目錄中初始化新倉庫 要對現有的某個項目開始