原创 airflow 介紹 1. airflow 介紹 2. 示例 3. 常用命令 4. 問題 5. 總結 6. 參閱

聲明: 本文轉自我的個人博客,有興趣的可以查看原文。 轉發請註明來源。 最近工作需要,使用airflow搭建了公司的ETL系統,順帶在公司分享了一次airflow,整理成文,Enjoy! 1. airflow 介紹 1.1 airflow

原创 Spark 介紹 1. Spark 介紹 2. Spark核心概念 3. 總結 4. 參閱

聲明: 本文轉自我的個人博客,有興趣的可以查看原文。 轉發請註明來源。 最近工作開始接觸Spark,本系列博客可以作爲學習思考的紀錄。 如果無特殊說明,均針對Spark 2.2 。 1. Spark 介紹 1.1 Spark 是什麼 Ap

原创 Cassandra教程(二):Cassandra架構(上) 1. node之間的溝通 2. Data distribution and replication 3. Snitches 4. 總結

Cassandra 設計用來處理多節點大型數據工作負載,系統中沒有單點,Cassandra 採用peer-to-peer架構,數據在所有節點之間分發。 cluster中所有node具有相同的角色。每個node互相獨立,同時在內部又互相溝通

原创 Cassandra教程(三):Cassandra架構(下) 1. 存儲引擎 2. 數據讀寫 3. 數據一致性 總結

上篇介紹了Cassandra的架構、數據distribution 與 replication,本文主要介紹Cassandra的內部工作機制,包括存儲引擎、Cassandra讀寫、數據一致性等。 1. 存儲引擎 在分佈式系統中,有些系統寫數據

原创 Cassandra 教程(一): Cassandra 簡介 Overview 數據模型 舉個例子 總結

Overview Apache Cassandra 是一個大規模可擴展的分佈式開源NoSQL數據庫,完美適用於跨數據中心/雲端的結構化數據、半結構化數據和非結構化數據,同時,Cassandra 高可用、線性可擴展、高性能、無單點。 特點

原创 Cassandra教程(四):CQL要點整理 Keyspace Table 物化視圖 總結

本文不是詳細的CQL教程,僅記錄下CQL的一些要點。 Keyspace keyspace類似關係型數據庫中的database概念,Cassandra 的 keyspace 是一個命名空間,定義了數據備份的方式。舉例如下,keyspace c

原创 2019-03-09-Flink(6)——flink table & sql 介紹 1. 基本概念 2. 實戰 3. 總結

本文轉自個人微信公衆號,原文鏈接。本博客評論系統需要梯子,大家關注下公衆號方便交流。 本文基於 Flink 1.7。 隨着 Hadoop 的發展,有了Hive,使用HQL 即可完成原來繁瑣的Map Reduce 程序。 隨着 Spark的發

原创 2018-12-10-Flink(3)——Event Time 與 Watermark 1. 問題:亂序與延遲 2. 解決方案 3. 總結

本文轉自個人微信公衆號,原文鏈接。 如 上篇 所述,Flink 裏時間包括Event Time、Processing Time 和 Ingestion Time 三種類型。 Processing Time:Processing Time

原创 2019-02-28-Flink(5)——sink 介紹與實踐 概念 實戰 總結

本文轉自個人微信公衆號,原文鏈接。本博客評論系統需要梯子,大家關注下公衆號方便交流。 本文基於Apache Flink 1.7。 結合上一篇文章,Source 是 Flink 程序的輸入,Sink 就是 Flink 程序處理完Source後

原创 2018-12-20-flink(4)——Source介紹與實踐 概念 容錯 實戰 總結

本文轉自個人微信公衆號,原文鏈接。本博客評論系統需要梯子,大家關注下公衆號方便交流。 本文基於Apache Flink 1.7。 Source 就是Flink 程序的數據輸入,Flink 提供了多種數據輸入方式,下面逐一介紹。 概念 Fli

原创 2019-03-12-Hive的數據抽樣 1. 抽樣方案 2. 分區

最近在做Hive的數據抽樣,基於以下考慮: 效率:數據量大的時候,可以給Hive 的使用者提供抽樣數據,供他們開發、測試,提高效率。 安全:有些場景,不便於提供全量數據給開發者,但是又不能影響建模效果,這時,就需要隨機抽樣數據給開發者。

原创 2018-11-21-Flink(2)——apache flink 介紹 1 概念

本文轉自個人微信公衆號,原文鏈接。Apache Flink is a framework and distributed processing engine for stateful computations over unbounded

原创 2019-04-07-Flink(7)——flink standalone ha cluster 安裝與配置詳解

本文基於 Flink 1.7。 本文介紹搭建standalone HA 集羣的過程,並且簡單介紹核心配置。 Requirements Java 1.8+ ssh 注意:集羣之間所有節點 無密SSH跳轉與保持相同的目錄結構將有助於使用Fl

原创 《圖解HTTP》思維導圖

昨晚看完《圖解HTTP》,整理了個思維導圖,放上來吧,需要的自取,圖片看不清可以掃描文末二維碼,回覆“http”獲取下載地址和密碼。

原创 2019-03-12-Hive的數據抽樣

最近在做Hive的數據抽樣,基於以下考慮: 效率:數據量大的時候,可以給Hive 的使用者提供抽樣數據,供他們開發、測試,提高效率。 安全:有些場景,不便於提供全量數據給開發者,但是又不能影響建模效果,這時,就需要隨機抽樣數據給開發者。