原创 用戶活躍度標籤建模

應用場景 期望根據客戶近3個月的登錄行爲和發帖更新貼行爲,評估客戶的活躍度,將活躍度分爲多個等級,以根據不同的活躍等級開展不同的營銷活動。 基本思路 1、採用聚類算法,特徵值取最近3個月每週(一週取7天)登錄次數,每週發帖次數,每

原创 Hive SQL 優化

要想做好hive優化,首先要理解MR過程,HiveSQL轉換爲MR的過程,以及Hive表的分區分桶機制。 本質上的優化是,減少讀,避免shuffle 和 增加併發度。 優化的手段: 跳過不必要的讀 減少Shuffle 讀延遲

原创 Spark 爲啥比 MapReduce 快?

Spark 爲啥比 MapReduce 快? DAG優化 和 內存 (1) 算子靈活性:MR只支持Map和Reduce 兩種操作,而Spark有豐富的算子。 (2) Map 中間結果寫磁盤,Reduce 寫HDFS,多個MR之間通

原创 Flink DataStream API 介紹

DataStream 編程模型 DataSource模塊負責數據接入 內置數據源:文件數據源readTextFile/readFile(InputFormat),Socket端口socketTextStream,集合數據源 f

原创 一文搞懂網絡協議

整個計算機和互聯網行業,都是建立在數據化和網絡傳輸基礎之上的,因此,理解網絡傳輸的模型對於一個計算機人才是十分必要的。 TCP/IP 協議簇是網絡協議中的事實標準 TCP/IP 協議簇從下到上分爲: ​ 網絡接口層:定義了物理接

原创 Flink Windows 多流 Join 和 SQL Join

Flink Windows Join 都是 Inner Join 兩個流join時,先做join操作,形成JoinedStream,然後再指定Window,最後接着join後的transform操作。 案例: inputStrea

原创 Flink基本概念和編程模型

數據分類 有界數據,無界數據,其實沒有必要,分爲流數據和靜態數據還差不多。 Flink 編程接口 高級語言:SQL 聲明式API Table API 核心API DataStream/DateSet API 低級構建模塊 Stat

原创 Flink 狀態管理

有狀態計算是指在程序計算過程中,在Flink程序內部存儲計算產生的中間結果,並提供給後續Function或者算子計算結果使用。 狀態數據可以維繫在本地存儲中(Flink的堆內存或者堆外存),也可以藉助第三方的存儲,例如Flink已

原创 Flink Window 機制

Flink 流的處理過程 stream.keyBy(...) // 是否制定分組 .window(...) 或者 .windowAll() // 指定窗口的種類,如果不分組,則指定爲windowAll .trigger(...)

原创 Flink Exactly Once

Flink Exactly Once Flink Exactly Once 語意是基於Chandy-Lamport這個算法的思想的改進版,引入了barrier,可以在不停止整個流處理系統的前提下,保存和恢復每個subtask的sn

原创 Druid爲啥這麼好用?

一、Druid設計原則 (1)快速查詢能力:部分數據聚合(Partial Aggregate) + 內存化(In-Memory)+索引(Index) (2)水平擴展能力:分佈式查詢(Distributed Data) + 並行化查

原创 Flink 時間概念與 WaterMark

Flink 時間概念與 WaterMark Flink中的時間分爲三種 事件時間:Event Time 接入時間:Ingestion Time 處理時間:Processing Time [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建

原创 Java 常見面試題整理

JAVA相關基礎知識 1、面向對象的特徵有哪些方面 1.抽象: 抽象就是忽略一個主題中與當前目標無關的那些方面,以便更充分地注意與當前目標有關的方面。抽象並不打算了解全部問題,而只是選擇其中的一部分,暫時不用部分細節。抽象

原创 july算法課筆記

# coding=utf-8 # 第一題 ''' 給定某字符串S,該字符串中有若干空格, 刪除這些空格,並返回修改後的字符串;要 求時間複雜度O(N),空間複雜度O(1)。 如:“I_have_a___dream!”,返回“I

原创 git 使用

開始: 在本地創建一個分支 使用ssh方式連接git服務器,首先生成公鑰id_rsa.pub,並把公鑰中的內容在github上做相應的添加。這樣就不用每次都輸入賬號密碼了! cd existing_folder // 初始化gi