台部落blesslyy

Spark-shuffle @(spark)[shuffle] ShuffleHandle/BaseShuffleHande An opaque handle to a shuffle, used by a ShuffleMana

2020-06-03 18:16:02

spark-broadcast @(spark)[broadcast] Spark’s broadcast variables, used to broadcast immutable datasets to all node

2020-06-03 18:15:51

Document數據庫 VS 關係數據庫在今天這個傳說中的大數據時代有着各種各樣的數據庫：開源的，商業的，自研，基於開源系統改進的。一家大公司/大項目不用n個xxxDB，m個數據分析工具都不好意思和人打招呼。問題是作爲一線開發

2020-06-03 18:15:51

spark-sql-catalyst @(spark)[sql][catalyst] 簡單說這部分就是做optimizer的工作的，關於這部分是有一篇論文，寫的很清楚，可以當作high leve design來看。還有一篇bl

2020-06-03 18:15:51

Postgresql-xl 調研來歷這個項目的背後是一家叫做stormDB的公司。整個代買基於postgres-xc。開源版本應該是stormdb的一個分支。 In 2010, NTT's Open Source Softwa

2020-06-03 18:15:51

Spark-executor @(spark)[executor] ExecutorExitCode /**

2020-06-03 18:15:51

Spark-streaming-雜 @(spark) ContextWaiter 基本就是鎖 Time & Duration & Interval 對於時間概念的簡單封裝 Utils HdfsUtils 封裝了對hdfs文件的讀取

2020-06-03 18:15:51

Spark-utils 類 @(spark)[reading] 按字母序簡單描述 ActorLogReceive 記錄所有的Actor信息 /**

2020-02-21 23:50:29

SequoiaDB的查詢執行過程繼續讀了SDB的代碼，重點還是內核的代碼。從客戶端–查詢優化—查詢執行的過程來描述一下查詢的過程。希望可以搞清楚2個問題： 1. SDB能做什麼查詢? 1. 搞清楚SDB是怎麼做查詢的? 第一

2020-02-21 23:50:29

Spark-task相關 @(spark)[Task] TaskState private[spark] object TaskState extends Enumeration {

2020-02-21 23:50:29

Spark-partitioner @(spark)[partitioner] Partitioner /**

2020-02-21 23:50:29

Spark-SQL-core @(spark)[sql|execution] 整個spark-sql的作用就是完成SQL語句到spark api的轉換過程。整體的流程見SQLContext一節的分析。 SQLContext /**

2018-08-24 22:46:15

Spark-scheduler @(spark)[scheduler] Task /**

2018-08-24 22:46:14

Spark-deploy @(spark)[deploy|yarn] 寫在前面的話請參考Spark源碼分析之-deploy模塊，雖然是13年的文章，但是作者寫的比我明白多了。so 我寫一半就算了。。。在前文Spark源碼分析之-sc

2018-08-24 22:46:12

Spark-streaming-summary @(spark)[streaming] Spark Streaming functionality. [[org.apache.spark.streaming.StreamingConte

2018-08-24 22:46:12