台部落zhou12314456

Spark的三種提交模式 1.standalone模式，基於Spark自己的Master-Worker模式 2.基於YARN的yarn-cluster模式 3.基於YARN的yarn-client模式 yarn-cluster模式講解 1

2019-04-28 20:27:10

Canal架構 Caner Server 一個Caner Server就代表一個canal運行實例，其對應於一個jvm 一個Caner Server同時對應着n個instance 一個instance對應着一個Mysql實例 Instan

2019-03-31 16:20:06

定期分享源碼,總結相關知識點，哈哈哈，來關注啊概括 Hadoop 的 HDFS 和 MapReduce 子框架主要是針對大數據文件來設計的，在小文件的處理上不但效率低下，而且十分消耗內存資源(每一個小文件佔用一個 Block,每

2019-03-26 16:23:45

幾種比較常見的RDD 正常開發中我們會經常用到下面的這幾種RDD textFile: 通過文本文件生成的RDD JDBCRDD: 讀取關係型數據庫所生成的RDD HBaseRDD: 讀取HBase所生成的RDD sequenceFile:

2019-03-23 16:24:40

RDD介紹 RDD(Resilient Distributed Dataset,彈性分佈式數據集)，是Spark最爲核心的概念。官方說法是RDD是隻讀的，分區記錄的集合。 RDD具體包含了一些什麼東西 rdd是一個類，它包含了數據應該

2019-03-17 16:22:07