原创 Spark-shuffle

Spark-shuffle @(spark)[shuffle] ShuffleHandle/BaseShuffleHande An opaque handle to a shuffle, used by a ShuffleMana

原创 spark-broadcast

spark-broadcast @(spark)[broadcast] Spark’s broadcast variables, used to broadcast immutable datasets to all node

原创 Document數據庫 VS 關係數據庫

Document數據庫 VS 關係數據庫 在今天這個傳說中的大數據時代有着各種各樣的數據庫:開源的,商業的,自研,基於開源系統改進的。一家大公司/大項目不用n個xxxDB,m個數據分析工具都不好意思和人打招呼。 問題是作爲一線開發

原创 spark-sql-catalyst

spark-sql-catalyst @(spark)[sql][catalyst] 簡單說這部分就是做optimizer的工作的,關於這部分是有一篇論文,寫的很清楚,可以當作high leve design來看。 還有一篇bl

原创 Postgresql-xl 調研

Postgresql-xl 調研 來歷 這個項目的背後是一家叫做stormDB的公司。整個代買基於postgres-xc。開源版本應該是stormdb的一個分支。 In 2010, NTT's Open Source Softwa

原创 Spark-executor

Spark-executor @(spark)[executor] ExecutorExitCode /**

原创 Spark-streaming-雜

Spark-streaming-雜 @(spark) ContextWaiter 基本就是鎖 Time & Duration & Interval 對於時間概念的簡單封裝 Utils HdfsUtils 封裝了對hdfs文件的讀取

原创 Spark-utils 類

Spark-utils 類 @(spark)[reading] 按字母序簡單描述 ActorLogReceive 記錄所有的Actor信息 /**

原创 SequoiaDB的查詢執行過程

SequoiaDB的查詢執行過程 繼續讀了SDB的代碼,重點還是內核的代碼。從客戶端–查詢優化—查詢執行的過程來描述一下查詢的過程。希望可以搞清楚2個問題: 1. SDB能做什麼查詢? 1. 搞清楚SDB是怎麼做查詢的? 第一

原创 Spark-task相關

Spark-task相關 @(spark)[Task] TaskState private[spark] object TaskState extends Enumeration {

原创 Spark-partitioner

Spark-partitioner @(spark)[partitioner] Partitioner /**

原创 Spark-SQL-core

Spark-SQL-core @(spark)[sql|execution] 整個spark-sql的作用就是完成SQL語句到spark api的轉換過程。整體的流程見SQLContext一節的分析。 SQLContext /**

原创 Spark-scheduler

Spark-scheduler @(spark)[scheduler] Task /**

原创 Spark-deploy

Spark-deploy @(spark)[deploy|yarn] 寫在前面的話 請參考Spark源碼分析之-deploy模塊,雖然是13年的文章,但是作者寫的比我明白多了。so 我寫一半就算了。。。 在前文Spark源碼分析之-sc

原创 Spark-streaming-summary

Spark-streaming-summary @(spark)[streaming] Spark Streaming functionality. [[org.apache.spark.streaming.StreamingConte